数据预取
数据预取是一种提前为处理器准备数据机制,主要有硬件预取和软件预取。
硬件是根据程序运行状态预测,硬件机制。
软件是使用预取指令或者内置函数,内置函数就是编译器自带的函数,_builtin_prefetch(void * addr, rw, locality);第一个采纳数是内存指针数据,第二个是读写,第三个预取数据的时间局部性,0-3,越大代表时间局部性越强。
cpp
#include <iostream>
#include <chrono>
#include <vector>
#include <cstdint>
// 数据大小 (1000万元素)
constexpr size_t DATA_SIZE = 10000000;
// 测试不使用预取的内存访问
uint64_t testWithoutPrefetch(const std::vector<int>& data) {
uint64_t sum = 0;
auto start = std::chrono::high_resolution_clock::now();
for (size_t i = 0; i < data.size(); ++i) {
sum += data[i];
}
auto end = std::chrono::high_resolution_clock::now();
auto duration = std::chrono::duration_cast<std::chrono::milliseconds>(end - start).count();
std::cout << "不使用预取 - 耗时: " << duration << " 毫秒" << std::endl;
return sum;
}
// 测试使用预取的内存访问
uint64_t testWithPrefetch(const std::vector<int>& data) {
uint64_t sum = 0;
auto start = std::chrono::high_resolution_clock::now();
// 预取距离当前位置512个元素后的内存地址
constexpr size_t PREFETCH_DISTANCE = 512;
for (size_t i = 0; i < data.size(); ++i) {
if (i + PREFETCH_DISTANCE < data.size()) {
// 预取指令: 读取, 非时态, 中等距离
__builtin_prefetch(&data[i + PREFETCH_DISTANCE], 0, 1);
}
sum += data[i];
}
auto end = std::chrono::high_resolution_clock::now();
auto duration = std::chrono::duration_cast<std::chrono::milliseconds>(end - start).count();
std::cout << "使用预取 - 耗时: " << duration << " 毫秒" << std::endl;
return sum;
}
int main() {
// 初始化测试数据
std::vector<int> data(DATA_SIZE);
for (size_t i = 0; i < DATA_SIZE; ++i) {
data[i] = static_cast<int>(i);
}
// 预热缓存
uint64_t warmup = testWithoutPrefetch(data);
(void)warmup; // 避免未使用变量警告
std::cout << "\n正式测试:" << std::endl;
// 测试不使用预取
uint64_t sum1 = testWithoutPrefetch(data);
// 测试使用预取
uint64_t sum2 = testWithPrefetch(data);
// 验证结果一致性
std::cout << "\n验证结果: " << (sum1 == sum2 ? "正确" : "错误") << std::endl;
return 0;
}