在Java中,HashSet和HashMap等基于哈希的集合,其性能和正确性高度依赖于存储对象的hashCode()和equals()方法的实现。当一个对象被添加到HashSet中时,它的哈希值会被计算并用于确定其在内部哈希表中的存储位置(桶)。此哈希值通常被存储为Node内部的一个final字段,这意味着一旦对象被添加,其哈希值就不会再重新计算。
因此,将可变对象(如ArrayList)存储在HashSet或用作HashMap的键是不被推荐的做法。如果一个可变对象在被添加到集合后其内容发生了改变,导致其hashCode()返回不同的值,那么当尝试通过其新的哈希值查找该对象时,它可能无法被正确检索到,因为集合仍然会尝试在旧的哈希值对应的位置查找。
HashSet底层是基于HashMap实现的,它将元素作为HashMap的键,而值则是一个虚拟的占位符对象。HashMap内部使用Node来存储键值对,其结构大致如下:
static class Nodeimplements Map.Entry { final int hash; // 存储键的哈希值,一旦计算,不再改变 final K key; // 键 V value; // 值 Node next; // 链表下一个节点 // ... 构造器及方法 }
当调用contains()、add()等方法时,HashSet会首先计算传入参数的哈希值,然后根据这个哈希值定位到对应的桶。接着,它会遍历该桶中的链表(或红黑树,Java 8+优化),通过equals()方法逐一比较元素。
在理想情况下,即哈希值分布均匀,极少发生哈希冲突时:
在最坏情况下,即所有元素都哈希到同一个桶中时:
现在,我们考虑一个具体的场景:在HashSet>中搜索一个ArrayList
HashSet> hs = new HashSet<>(); // ... 省略添加元素代码 ... ArrayListd = new ArrayList<>(); d.add(3); d.add(4); hs.contains(d); // 这个操作的时间复杂度是多少?
当执行hs.contains(d)时,其时间复杂度由两部分组成:
计算传入参数d的哈希值:ArrayList的hashCode()方法是根据其所有元素的哈希值计算的。这意味着,为了计算d的哈希值,需要遍历d中的所有元素并累加它们的哈希值。如果d包含m个元素,那么计算d.hashCode()的时间复杂度为 O(m)。
在HashSet中查找: 一旦d的哈希值计算完毕,HashSet会使用这个哈希值来定位到对应的桶,并进行元素比较。
综合以上两点,hs.contains(d)的整体时间复杂度如下:
平均情况:O(m) 这是因为计算传入参数d的哈希值(O(m))是主要的时间消耗,而随后的桶内查找通常是O(1)。
最坏情况:O(log n + m) (Java 8+) 或 O(n + m) (Java 7-) 在这种情况下,m代表计算d的哈希值的时间,log n(或n)代表在哈希冲突严重时遍历桶内结构的时间。
总结: 尽管HashSet的平均查找时间是O(1),但当其元素是ArrayList这种可变集合类型时,由于每次搜索都需要计算传入参数ArrayList的哈希值,这个计算过程本身就取决于列表的长度m。因此,对于ArrayList的搜索操作,时间复杂度至少是O(m)。
们遵循Java规范:通过理解HashSet的内部工作原理及其对hashCode()和equals()的依赖,我们可以更有效地使用哈希集合,并避免潜在的性能问题和逻辑错误。