17370845950

新闻动态

< 返回列表当前位置：首页 > 新闻动态 > 技术教程

c++中如何实现字符串去除重复字符_c++字符串去重简单方法【详解】

最稳妥做法是用std::unordered_set边遍历边查重并构建结果字符串，保持首次出现顺序；原地去重则用双指针配合resize截断。

直接用 std::set 或 std::unordered_set 记录已见字符，遍历原字符串时跳过重复项——这是最稳妥、可读性高且不易出错的做法。

用 `std::unordered_set` 实现稳定去重（保持顺序）

去重要求“首次出现的字符保留，后续重复的跳过”，本质是「去重 + 保序」。此时不能用 std::set 直接构造（会排序），而应手动遍历：

std::unordered_set 查重是 O(1) 平均复杂度，比 std::set 更快
必须边遍历边检查、边构建结果，不能先塞进 set 再转回 string
注意：std::string 的 += 在 C++11 后有 amortized O(1) 性能，无需预分配

std::string removeDuplicates(const std::string& s) {
    std::unordered_set seen;
    std::string result;
    for (char c : s) {
        if (seen.find(c) == seen.end()) {
            seen.insert(c);
            result += c;
        }
    }
    return result;
}

原地去重（不额外分配 string，但会破坏原串）

若输入可修改、且内存敏感，可用双指针原地操作。适用于函数签名为 void removeDuplicatesInPlace(std::string& s) 场景：

用 writeIndex 指向下一个要写入的位置，readIndex 遍历全部字符
每遇到新字符，写入 s[writeIndex++]，并加入 seen
最后调用 s.resize(writeIndex) 截断尾部冗余内容
注意：不能用 std::string::erase() 在循环中反复删，会导致迭代器失效或 O(n²) 复杂度

void removeDuplicatesInPlace(std::string& s) {
    std::unordered_set seen;
    size_t writeIndex = 0;
    for (size_t readIndex = 0; readIndex < s.length(); ++readIndex) {
        if (seen.find(s[readIndex]) == seen.end()) {
            seen.insert(s[readIndex]);
            s[writeIndex++] = s[readIndex];
        }
    }
    s.resize(writeIndex);
}

忽略大小写的去重怎么处理？

关键在「比较前统一大小写」，但要注意：不能简单用 std::tolower 直接作用于 char——它接受 int，且对负值行为未定义（尤其在 char 默认为 signed 的平台）：

务必先转为 unsigned char，再传给 std::tolower
去重用的 key 应该是小写形式，但结果中保留原始大小写（首次出现的那个）
因此需用 std::unordered_map 或类似结构记录「该小写字符是否已见」，而不是只存 char

std::string removeDuplicatesIgnoreCase(const std::string& s) {
    std::unordered_set seenLower;
    std::string result;
    for (char c : s) {
        unsigned char uc = static_cast(c);
        unsigned char lc = static_cast(std::tolower(uc));
        if (seenLower.find(lc) == seenLower.end()) {
            seenLower.insert(lc);
            result += c;
        }
    }
    return result;
}

真正容易被忽略的是字符集假设：以上所有方法默认处理 ASCII 字符。如果字符串含 UTF-8 多字节字符（比如中文、emoji），char 级别操作会把一个汉字拆成多个无效字节，导致逻辑崩溃。真要支持 Unicode，得先用库（如 ICU 或 utf8cpp）做正确解码，再按 char32_t 或 code point 去重——那已不是「简单方法」范畴了。

17370845950

用 `std::unordered_set` 实现稳定去重（保持顺序）

原地去重（不额外分配 string，但会破坏原串）

忽略大小写的去重怎么处理？

关于我们

服务项目

广告推广

案例欣赏

17370845950

用 std::unordered_set 实现稳定去重（保持顺序）

原地去重（不额外分配 string，但会破坏原串）

忽略大小写的去重怎么处理？

关于我们

服务项目

广告推广

案例欣赏

用 `std::unordered_set` 实现稳定去重（保持顺序）