内联汇编可用于性能关键代码优化,GCC使用AT&T语法,MSVC使用Intel语法;示例包括位操作和SIMD指令嵌入,但存在可移植性差、调试困难等问题,建议优先使用Intrinsics。
在C++中使用内联汇编可以让你直接插入汇编指令,从而对性能关键代码进行精细控制。这种技术适用于需要极致优化的场景,比如高频计算、硬件交互或延迟敏感操作。但要注意,内联汇编不具备可移植性,且容易出错,应谨慎使用。
不同编译器对内联汇编的支持方式不同,最常见的是GCC(及Clang)使用的AT&T语法和MSVC使用的Intel语法。
GCC/Clang 内联汇编(AT&T格式)asm关键字,基本格式为:
asm("汇编指令"
: 输出操作数
: 输入操作数
: 被破坏的寄存器列表);
例如,交换两个变量:
int a = 10, b = 20;这里
asm("xchg %0, %1"
: "=r"(a), "=r"(b) // 输出
: "0"(a), "1"(b) // 输入
: "memory"); // 告诉编译器内存可能被修改
"=r"表示输出到任意通用寄存器,"0"表示使用与第0个操作数相同的寄存器。
MSVC 内联汇编(Intel格式)__asm块写Intel语法汇编:
int a = 10, b = 20;这种方式更直观,但仅限x86架构,x64下不支持。
__asm {
mov eax, a
mov ebx, b
xchg eax, ebx
mov a, eax
mov b, ebx
}
内联汇编适合用于替代编译器生成效率较低的代码,尤其是在已知硬件行为时。
1. 位操作优化bsf指令:
int trailing_zero(unsigned int x) {
int result;
asm("bsf %1, %0"
: "=r"(result)
: "r"(x)
: "cc");
return result;
}
比循环检测每
一位快得多。
2. SIMD 指令嵌入
float a[4] = {1.0f}, b[4] = {2.0f}, c[4];
asm("movaps (%1), %%xmm0
movaps (%2), %%xmm1
addps %%xmm1, %%xmm0
movaps %%xmm0, (%0)"
:
: "r"(c), "r"(a), "r"(b)
: "xmm0", "xmm1", "memory");
这直接执行了4个浮点并行加法。
内联汇编强大但危险,稍有不慎就会导致未定义行为。
"r"约束)更安全。"memory",防止编译器错误优化。大多数情况下,建议使用编译器内置函数(Intrinsics)代替手写汇编。例如:
#includeIntrinsics 更安全、可读性强,且编译器仍能做优化,是现代C++高性能编程的首选。 基本上就这些。内联汇编是“最后一招”,只有在Profile确认瓶颈且Intrinsics无法满足时才考虑使用。
__m128 va = _mm_load_ps(a);
__m128 vb = _mm_load_ps(b);
__m128 vc = _mm_add_ps(va, vb);
_mm_store_ps(c, vc);