高性能 memcpy 的核心是根据对齐情况分路径优化:全对齐用 _mm256_load_si256/_store_si256,偏移对齐调整偏移,非对齐用 loadu/storeu 避跨缓存行,小尺寸兜底,辅以预取和内存预热。
用SIMD指令手写高性能 memcpy,核心是**对齐+向量化+边界处理**,不是简单套用指令,而是根据数据长度、对齐情况选择最优策略。x86上常用 SSE/AVX,ARM 上用 NEON,这里以 x86-64 + AVX2 为主展开(兼容性好、寄存器宽、指令丰富)。
内存拷贝性能差异极大取决于源和目标地址是否对齐(通常指 16/32/64 字节)。AVX2 的 _mm256_loadu_si256 支持非对齐加载但慢于对齐版本;真正高性能必须区分路径:
_mm256_load_si256 + _mm256_store_si256 批量搬移_mm256_loadu_si256 + _mm256_storeu_si256,但需避免跨缓存行导致的额外延迟典型内循环如下(假设已对齐、长度为 32 的倍数):
(伪代码示意,实际需用 intrinsics 或内联汇编)
for (size_t i = 0; i < len; i += 32) {
__m256i v = _mm256_load_si256((__m256i*)(src + i));
_mm256_store_si256((__m256i*)(dst + i), v);
}
关键点:
__restrict__ 告知编译器 src/dst 无重叠(否则需按 memmove 处理)_mm256_zeroupper()(仅在调用可能用到 XMM 的外部函数前后需要)
o-vectorize 可能已做得不错,手写价值在于**可控对齐策略 + 避免安全检查开销**长度往往不是 32 的整数倍,尾部必须精确处理:
tail = len % 32
_mm_loadu_si128 / _mm_storeu_si128)memcpy 小尺寸兜底)_mm256_maskload_epi32(AVX2)或 _mm256_mask_mov_epi32(AVX512),但兼容性差别盲目追求“最高速”,要结合场景权衡:
memcpy 或编译器内置_mm_prefetch)+ 多路并行(但 memcpy 是内存带宽敏感,多线程不一定加速)vld1q_u8 / vst1q_u8(NEON),逻辑类似,寄存器宽度为 128 位基本上就这些。SIMD memcpy 不是黑魔法,而是对齐感知 + 分支精简 + 指令选型的组合优化。libc 实现(如 glibc 的 multiarch memcpy)已经非常成熟,自己写主要适用于特定硬件、固定对齐、极致低延迟场景,或者作为学习底层内存行为的实践。