CUDA是C++ GPU并行计算最成熟路径,需装NVIDIA驱动+Toolkit,跑通向量加法示例,理解线程层次、内存分层与同步机制,再进阶矩阵乘法、性能分析及Thrust库应用。
想用C++做GPU并行计算,CUDA是当前最成熟、文档最全、生态最完善的路径。入门不难,但得踩准节奏:先跑通一个最小可执行例子,再理解内存模型和核函数逻辑,最后结合实际问题优化。
确保你有一块NVIDIA显卡(GTX 10系及以上、RTX、Tesla、A系列都行),且已安装对应版本的官方驱动。接着去NVIDIA官网下载CUDA Toolkit(推荐CUDA 12.x,搭配较新的驱动)。安装时勾选“CUDA Samples”和“Nsight Visual Studio Edition”(Windows)或“Nsight Compute/Nsight Systems”(Linux/macOS)。验证是否成功:终端运行 nvidia-smi 看GPU状态,再运行 nvcc --version 确认编译器可用。
新建 add.cu 文件,内容如下:
// add.cu
#include iostream>
#include
__global__ void add(int *a, int *b, int *c) {
c[threadIdx.x] = a[threadIdx.x] + b[threadIdx.x];
}
int main() {
const int N = 4;
int *h_a = new int[N], *h_b = new int[N], *h_c = new int[N];
int *d_a, *d_b, *d_c;
// 分配GPU显存
cudaMalloc(&d_a, N * sizeof(int));
cudaMalloc(&d_b, N * sizeof(int));
cudaMalloc(&d_c, N * sizeof(int));
// 拷贝数据到GPU
cudaMemcpy(d_a, h_a, N * sizeof(int), cudaMemcpyHostToDevice);
cudaMemcpy(d_b, h_b, N * sizeof(int), cudaMemcpyHostToDevice);
// 启动核函数:1D线程块,N个线程
add>>(d_a, d_b, d_c);
// 同步等待完成(调试必备)
cudaDeviceSynchronize();
// 拷回结果
cudaMemcpy(h_c, d_c, N * sizeof(int), cudaMemcpyDeviceToHost);
// 打印结果(略)
delete[] h_a; delete[] h_b; delete[] h_c;
cudaFree(d_a); cudaFree(d_b); cudaFree(d_c);
return 0;
}
编译命令:nvcc -o add add.cu,然后 ./add 运行。关键点:核函数用 __global__ 标记;启动语法是 func>>();主机与设备内存必须显式拷贝;错误检查建议后续加上 cudaGetLastError()。
这是CUDA编程最容易混淆也最关键的三块:
掌握基础后,按这个顺序推进:
不复杂但容易忽略:所有CUDA API调用都应检查返回值;初学避免过度优化,先确保逻辑正确;多读CUDA C++ Programming Guide官方文档第1–4章,比看博客更高效。