17370845950

c++中如何实现字符串去除重复字符_c++字符串去重简单方法【详解】
最稳妥做法是用std::unordered_set边遍历边查重并构建结果字符串,保持首次出现顺序;原地去重则用双指针配合resize截断。

直接用 std::setstd::unordered_set 记录已见字符,遍历原字符串时跳过重复项——这是最稳妥、可读性高且不易出错的做法。

std::unordered_set 实现稳定去重(保持顺序)

去重要求“首次出现的字符保留,后续重复的跳过”,本质是「去重 + 保序」。此时不能用 std::set 直接构造(会排序),而应手动遍历:

  • std::unordered_set 查重是 O(1) 平均复杂度,比 std::set 更快
  • 必须边遍历边检查、边构建结果,不能先塞进 set 再转回 string
  • 注意:std::string+= 在 C++11 后有 amortized O(1) 性能,无需预分配
std::string removeDuplicates(const std::string& s) {
    std::unordered_set seen;
    std::string result;
    for (char c : s) {
        if (seen.find(c) == seen.end()) {
            seen.insert(c);
            result += c;
        }
    }
    return result;
}

原地去重(不额外分配 string,但会破坏原串)

若输入可修改、且内存敏感,可用双指针原地操作。适用于函数签名为 void removeDuplicatesInPlace(std::string& s) 场景:

  • writeIndex 指向下一个要写入的位置,readIndex 遍历全部字符
  • 每遇到新字符,写入 s[writeIndex++],并加入 seen

  • 最后调用 s.resize(writeIndex) 截断尾部冗余内容
  • 注意:不能用 std::string::erase() 在循环中反复删,会导致迭代器失效或 O(n²) 复杂度
void removeDuplicatesInPlace(std::string& s) {
    std::unordered_set seen;
    size_t writeIndex = 0;
    for (size_t readIndex = 0; readIndex < s.length(); ++readIndex) {
        if (seen.find(s[readIndex]) == seen.end()) {
            seen.insert(s[readIndex]);
            s[writeIndex++] = s[readIndex];
        }
    }
    s.resize(writeIndex);
}

忽略大小写的去重怎么处理?

关键在「比较前统一大小写」,但要注意:不能简单用 std::tolower 直接作用于 char——它接受 int,且对负值行为未定义(尤其在 char 默认为 signed 的平台):

  • 务必先转为 unsigned char,再传给 std::tolower
  • 去重用的 key 应该是小写形式,但结果中保留原始大小写(首次出现的那个)
  • 因此需用 std::unordered_map 或类似结构记录「该小写字符是否已见」,而不是只存 char
std::string removeDuplicatesIgnoreCase(const std::string& s) {
    std::unordered_set seenLower;
    std::string result;
    for (char c : s) {
        unsigned char uc = static_cast(c);
        unsigned char lc = static_cast(std::tolower(uc));
        if (seenLower.find(lc) == seenLower.end()) {
            seenLower.insert(lc);
            result += c;
        }
    }
    return result;
}

真正容易被忽略的是字符集假设:以上所有方法默认处理 ASCII 字符。如果字符串含 UTF-8 多字节字符(比如中文、emoji),char 级别操作会把一个汉字拆成多个无效字节,导致逻辑崩溃。真要支持 Unicode,得先用库(如 ICU 或 utf8cpp)做正确解码,再按 char32_t 或 code point 去重——那已不是「简单方法」范畴了。