最稳妥做法是用std::unordered_set边遍历边查重并构建结果字符串,保持首次出现顺序;原地去重则用双指针配合resize截断。
直接用 std::set 或 std::unordered_set 记录已见字符,遍历原字符串时跳过重复项——这是最稳妥、可读性高且不易出错的做法。
std::unordered_set 实现稳定去重(保持顺序)去重要求“首次出现的字符保留,后续重复的跳过”,本质是「去重 + 保序」。此时不能用 std::set 直接构造(会排序),而应手动遍历:
std::unordered_set 查重是 O(1) 平均复杂度,比 std::set 更快std::string 的 += 在 C++11 后有 amortized O(1) 性能,无需预分配std::string removeDuplicates(const std::string& s) {
std::unordered_set seen;
std::string result;
for (char c : s) {
if (seen.find(c) == seen.end()) {
seen.insert(c);
result += c;
}
}
return result;
}
若输入可修改、且内存敏感,可用双指针原地操作。适用于函数签名为 void removeDuplicatesInPlace(std::string& s) 场景:
writeIndex 指向下一个要写入的位置,readIndex 遍历全部字符s[writeIndex++],并加入 seen
s.resize(writeIndex) 截断尾部冗余内容std::string::erase() 在循环中反复删,会导致迭代器失效或 O(n²) 复杂度void removeDuplicatesInPlace(std::string& s) {
std::unordered_set seen;
size_t writeIndex = 0;
for (size_t readIndex = 0; readIndex < s.length(); ++readIndex) {
if (seen.find(s[readIndex]) == seen.end()) {
seen.insert(s[readIndex]);
s[writeIndex++] = s[readIndex];
}
}
s.resize(writeIndex);
}
关键在「比较前统一大小写」,但要注意:不能简单用 std::tolower 直接作用于 char——它接受 int,且对负值行为未定义(尤其在 char 默认为 signed 的平台):
unsigned char,再传给 std::tolower
std::unordered_map 或类似结构记录「该小写字符是否已见」,而不是只存 char
std::string removeDuplicatesIgnoreCase(const std::string& s) {
std::unordered_set seenLower;
std::string result;
for (char c : s) {
unsigned char uc = static_cast(c);
unsigned char lc = static_cast(std::tolower(uc));
if (seenLower.find(lc) == seenLower.end()) {
seenLower.insert(lc);
result += c;
}
}
return result;
}
真正容易被忽略的是字符集假设:以上所有方法默认处理 ASCII 字符。如果字符串含 UTF-8 多字节字符(比如中文、emoji),char 级别操作会把一个汉字拆成多个无效字节,导致逻辑崩溃。真要支持 Unicode,得先用库(如 ICU 或 utf8cpp)做正确解码,再按 char32_t 或 code point 去重——那已不是「简单方法」范畴了。