自定义类实例默认不可哈希且基于身份比较,需同时重写__eq__和__hash__并保持逻辑一致,确保相等对象哈希值相同、属性不可变,才能正确用于集合和字典。
Python中对象的哈希(__hash__)与比较(__eq__)行为,直接决定它能否放入集合(set)、字典键(dict键)或被正确去重。核心原则是:如果两个对象相等(==为True),它们的哈希值必须相同;反之,哈希相同不意味着一定相等(允许哈希冲突)。违反这一约定,会导致集合行为异常——比如本该去重却重复出现,或查不到明明存在的元素。
默认情况下,用户定义的类实例基于身份(id)比较和哈希:每个实例都是唯一对象,__eq__返回False(除非和自己比),__hash__返回基于内存地址的值。这意味着即使两个实例属性完全一样,a == b为False,它们也能同时存在于集合中:
示例:
class Point:
def __init__(self, x, y):
self.x = x
self.y = y
p1 = Point(1, 2)
p2 = Point(1, 2)
print(p1 == p2) # False
print({p1, p2}) # {<main.Point object at 0x...>, <main.Point object at 0x...>} —— 两个都存进去了
需同时重写__eq__和__hash__,且逻辑一致:仅当对象“逻辑上相等”时,才返回相同哈希值。关键点:
x、y)作为哈希计算依据,且这些属性本身必须是不可变的(否则哈希值可能变化,破坏集合结构)__eq__但没重写__hash__,Python会自动将__hash__设为None,导致实例不可哈希(抛TypeError)dataclass并设置unsafe_hash=True(仅当所有字段不可变时安全)或手动实现修正示例:
class Point:
def __init__(self, x, y):
self.x = x
self.y = y
def __eq__(self, other):
if not isinstance(other, Point):
return False
return self.x == other.x and self.y == other.y
def __hash__(self):
return hash((self.x, self.y)) # 元组可哈希,且顺序敏感p1 = Point(1, 2)
p2 = Point(1, 2)
print(p1 == p2) # True
print(hash(p1) == hash(p2))
# True
print({p1, p2}) # {main.Point object at 0x...>} —— 自动去重
常见陷阱与注意事项
实际使用中容易忽略以下细节:
__hash__依赖了后续会被修改的属性(如列表、字典),对象加入集合后修改该属性,哈希值改变,集合内部索引错乱,可能导致无法查找或删除float字段做哈希或比较时,注意0.1 + 0.2 != 0.3,建议转为decimal或限定精度比较__hash__,否则父类实例和子类实例可能错误地被认为相等__eq__中显式检查other is None,避免AttributeError
调试自定义类是否适配集合,可快速执行三步验证:
a和b,确认a == b为True
hash(a) == hash(b)是否为True
s = {a},再执行s.add(b),观察集合长度是否仍为1(即b未重复添加)满足这三点,基本可安全用于set、dict键、in查询等场景。