选 std::set 还是 std::unordered_set,核心看是否需要有序及对操作性能的敏感度:std::set 基于红黑树,支持有序遍历、区间查询和双向迭代,时间复杂度 O(log n);std::unordered_set 基于哈希表,平均 O(1) 查找插入但无序,依赖哈希质量,最坏 O(n),内存开销大且不支持范围操作。
选 std::set 还是 std::unordered_set,核心看你要不要有序,以及对插入、查找、删除操作的性能敏感度。前者基于红黑树,自动排序;后者基于哈希表,平均常数时间但无序。
如果你依赖遍历时元素从小到大(或按自定义比较规则)有序,比如实现 Top-K、范围查询(lower_bound/upper_bound)、或需要稳定可预测的迭代顺序,std::set 是唯一选择。std::unordered_set 不保证任何顺序,遍历结果可能每次都不一样。
lower_bound、upper_bound、equal_range 等区间操作当数据量大、频繁查存在性(如去重、判重、缓存键检查),且不关心顺序时,std::unordered_set 的平均 O(1) 更有优势。但要注意“平均”二字——它依赖哈希函数质量和负载因子。
hash 和 ==(对自定义类型要特化或传入)lower_bound
如果集合长期只增不删,或插入集中在初始化阶段,std::set 的稳定内存布局和可预测性能反而更省心;而 unordered_set 在大量增删后可能触发 rehash,带来短时停顿。
std::set 内存更紧凑,每个节点只存值+两个指针+颜色位std::unordered_set 默认负载因子上限为 1.0,超了就扩容 rehash,代价不小std::hash 特化或 lambda 哈希器会增加开发成本元素很少时,log₂(50) ≈ 6,和哈希的常数差不多。此时逻辑清晰更重要:要排序就用 set,只要快查就用 unordered_set,别过早优化。
set 容易观察有序状态;unordered_set 在调试器里查看内容较混乱unordered_* 容器基本上就这些。不复杂但容易忽略的是:别只看理论复杂度,真要压测——尤其在你的数据分布、key 类型、编译器和 STL 实现上跑一跑 insert 和 find 的实际耗时。