Python字典哈希冲突严重时退化为O(n),主因是自定义类哈希函数不当、人为构造碰撞字符串、禁用扩容致负载因子过高、或使用哈希质量差的键类型;有序性不缓解冲突。
Python 字典在哈希冲突严重时会退化,最坏情况下查找、插入、删除操作的时间复杂度从平均 O(1) 降为 O(n)。
当大量键经过 hash() 计算后映射到同一个哈希桶(bucket),字典会在线性探测过程中逐个检查后续位置。若连续多个桶都被占用,每次操作都需遍历一长串位置。
__hash__ 和 __eq__,导致不同对象返回相同哈希值"a", "aa", "aaa" 等,某些 Python 版本下可能产生碰撞
字典内部维护一个“负载因子”(元素数 ÷ 桶总数),CPython 默认阈值约 0.66。一旦超过,就会触发扩容(通常翻倍)并重哈希所有键值对。如果被禁用扩容或手动控制内存(如嵌入式环境),桶空间长期不足,冲突概率陡增。
内置类型(str、int、tuple)哈希函数经过充分优化,冲突率低。但若使用自定义类型,且 __hash__ 返回常量(如 return 42),所有实例都会挤进同一个桶。
class BadKey: __hash__ = lambda self: 1,插入 1000 个实例后,查找任一键平均要比较 500 次__eq__ 判等开销大(如比对大字符串或调用网络请求),也会拖慢“冲突链”上的实际判断速度插入顺序保留是通过紧凑数组实现的优化,并未改变哈希表本质。有序性带来缓存友好性提升,但不能缓解哈希冲突本身。退化与否,只取决于哈希分布与桶空间是否匹配。