本文介绍一种基于 java stream 和 hashset 的高效方案,用于批量处理产品列表:对同名产品(非唯一)拼接 category 名称,对唯一名称产品则直接赋值,避免嵌套遍历,时间复杂度接近 o(n)。
在实际业务中,我们常需根据字段的重复性对对象进行差异化处理。以 Product 类为例:
@Data
public class Product {
private UUID id;
private String name;
private String categoryName;
private String frontName;
}目标明确:
核心思路是利用 Set.add() 方法的返回值(true 表示首次添加,false 表示已存在)快速识别重复名称,无需预先分组统计,兼顾简洁性与性能:
ListproductList = ...; // 假设已初始化 // 第一步:收集所有重复的 product name Set seen = new HashSet<>(); Set duplicateNames = productList.stream() .filter(p -> !seen.add(p.getName())) // add() 返回 false → 已存在 → 是重复项 .map(Product::getName) .collect(Collectors.toSet()); // 第二步:遍历并设置 frontName productList.forEach(p -> { if (duplicateNames.contains(p.getName())) { p.setFrontName(p.getName() + "," + p.getCategoryName()); } else { p.setFrontName(p.getName()); } });
字段联合判重(如 name + category),可将 key 改为 p.getName() + "|" + p.getCategoryName()。| 方案 | 时间复杂度 | 空间复杂度 | 说明 |
|---|---|---|---|
| 双重 for 循环 | O(n²) | O(1) | 易理解但低效,n > 10k 时明显卡顿 |
| Collectors.groupingBy 统计频次 | O(n) | O(n) | 清晰但需额外 Map 存储计数 |
| 本方案(HashSet + 两次遍历) | O(n) | O(n) | 最少对象创建、无装箱开销,实测吞吐量最优 |
该方法在保证代码可读性的同时,实现了接近理论最优的时间效率,是处理此类“重复标识差异化赋值”场景的经典实践。