C++中生成不重复随机数应优先用std::shuffle打乱vector,而非while+set查重;因后者在高密度选取时碰撞严重、效率低且分布不均,而shuffle基于Fisher-Yates算法,O(n)稳定高效、无偏差、无风险。
直接说结论:C++ 中生成不重复随机数,核心是「打乱序列」而非「反复校验」——用 std::shuffle 配合 std::vector 初始化最可靠、最高效。
这是新手最常写的写法:不断 rand() 或 std::mt19937 生成数,插入 std::set,直到 size 达到目标。问题很实在:
std::set 插入和查找带 O(log n) 开销,整体退化成 O(k·log k)(k 是最终数量),还不可预测rand() % N 且 N 不整除 RAND_MAX+1,底层就已存在偏差,再叠加重试,分布更不均匀std::shuffle 底层就是 Fisher–Yates 洗牌算法,时间复杂度稳定 O(n),无重复、无偏差、无循环风险。关键三步:
std::vector 构造完整候选集(如 0 到 N-1)std::random_device 和 std::mt19937 初始化真随机种子(别用 time(0))std::shuffle,然后取前 k 个元素即可std::vectornums; for (int i = 0; i < 100; ++i) nums.push_back(i); // 0~99 共 100 个数 std::random_device rd; std ::mt19937 g(rd()); // 注意:g 是 generator 实例,不是类型 std::shuffle(nums.begin(), nums.end(), g); std::vector
result(nums.begin(), nums.begin() + 10); // 取前 10 个不重复随机数
内存不允许预分配全部候选值时,改用「拒绝采样 + 集合去重」是合理妥协,但必须控制策略:
k (例如 N=1e9, k=1e3)时启用,此时碰撞概率极低
std::unordered_set 替代 std::set,平均 O(1) 插入std::uniform_int_distribution 保证均匀性,禁用 % 运算2*k,防止意外卡死(理论上期望迭代次数 ≈ k,2k 足够覆盖 99.9% 场景)std::unordered_setseen; std::random_device rd; std::mt19937_64 g(rd()); std::uniform_int_distribution dist(0, 1000000000LL); std::vector result; while (result.size() < 1000 && seen.size() < 2000) { long long x = dist(g); if (seen.insert(x).second) { // insert 返回 pair ,second 为 true 表示新插入 result.push_back(x); } }
常见错误是把 std::mt19937 声明为全局或静态变量后多处调用 operator() —— 它不是 const,内部状态会变,但多个线程并发调用会 UB。
std::shuffle 调用后还指望结果可复现;若需可重现,保存并复用 generator 的 seed() 值std::shuffle 第三个参数要求是 UniformRandomBitGenerator,std::mt19937 符合,但旧式 rand 不符合,编译不过真正难的不是写出能跑的代码,而是想清楚「我要的是均匀随机抽样,不是伪随机生成器的裸输出」——打乱、拒绝采样、分段构造,本质都是为这个目标服务。选哪种,取决于你手上的 N 和 k 到底差几个数量级。