在数据处理中,我们经常需要从非结构化或半结构化字符串中提取特定信息。一个常见的场景是,从包含多条记录的字符串中,根据某个标识符(例如“jack/m”)提取其关联的多个数据字段,例如段落编号、日期和数值。特别之处在于,日期和数值往往成对出现,且每条记录中这对数据的数量可能不固定(例如,一条记录可能包含一个日期-数值对,而另一条可能包含多个)。直接使用单个正则表达式来精确捕获所有这些可变数量的独立分组(如多个日期、多个数值)会变得异常复杂,甚至难以实现,因为正则表达式通常难以在一次匹配中动态创建或管理可变数量的捕获组。
考虑以下示例数据:
String s = "#Section250342,Main,First/HS/12345/Jack/M,200010 10.00 200011 -2.00,\n"
+ "#Section250322,Main,First/HS/12345/Aaron/N,200010 17.00,\n"
+ "#Section250399,Main,First/HS/12345/Jimmy/N,200010 12.00,\n"
+ "#Section251234,Main,First/HS/12345/Jack/M,200011 11.00";我们的目标是,针对包含“/Jack/M”的行,提取其对应的Section编号(如250342, 251234)、日期(如200010, 200011)以及数值(如10.00, -2.00, 11.00)。
为了克服正则表达式在处理动态分组方面的局限性,我们采用一种两阶段的策略:
首先,设计一个正则表达式来捕获两类信息:
我们将使用以下正则表达式:
#Section(\d+)\b(?:(?!#Section\d).)*\bJack/M,(\d+\h+[-+]?\d+(?:\.\d+)?(?:\s+\d+\h+[-+]?\d+(?:\.\d+)?)*)
正则表达式解析:
通过这个正则表达式,我们将成功提取出 Section 编号(Group 1)和所有关联的日期-数值字符串(Group 2)。
在Java代码中,一旦正则表达式匹配成功,我们就可以获取 Group 1 和 Group 2 的内容。对于 Group 2,它是一个包含所有日期和数值的字符串。由于日期和数值总是成对出现,我们可以利用这个特性,通过编程方式将其拆分为独立的日期列表和数值列表。
具体做法是:
以下Java代码演示了如何结合正则表达式和程序化后处理来提取所需数据:
import java.util.ArrayList;
import java.util.Arrays;
import java.util.List;
import java.util.regex.Matcher;
import java.util.regex.Pattern;
public class RegexDataExtraction {
public static void main(String[] args) {
String regex = "#Section(\\d+)\\b(?:(?!#Section\\d).)*\\bJack/M,(\\d+\\h+[-+]?\\d+(?:\\.\\d+)?(?:\\s+\\d+\\h+[-+]?\\d+(?:\\.\\d+)?)*)";
String
string = "#Section250342,Main,First/HS/12345/Jack/M,200010 10.00 200011 -2.00,\n"
+ "#Section250322,Main,First/HS/12345/Aaron/N,200010 17.00,\n"
+ "#Section250399,Main,First/HS/12345/Jimmy/N,200010 12.00,\n"
+ "#Section251234,Main,First/HS/12345/Jack/M,200011 11.00";
Pattern pattern = Pattern.compile(regex, Pattern.MULTILINE);
Matcher matcher = pattern.matcher(string);
// 逐个匹配并打印结果
System.out.println("--- 按行匹配结果 ---");
while (matcher.find()) {
List dates = new ArrayList<>();
List values = new ArrayList<>();
// Group 1: Section 编号
System.out.println("Group 1 (Section): " + matcher.group(1));
// Group 2: 所有日期和数值的字符串
String[] parts = matcher.group(2).split("\\s+"); // 按空白字符分割
for (int i = 0; i < parts.length; i++) {
if (i % 2 == 0) { // 偶数索引是日期
dates.add(parts[i]);
} else { // 奇数索引是数值
values.add(parts[i]);
}
}
System.out.println("Group 2 (Dates): " + Arrays.toString(dates.toArray()));
System.out.println("Group 3 (Values): " + Arrays.toString(values.toArray()));
}
// 重置matcher以进行第二次匹配,用于聚合所有结果
matcher.reset();
// 聚合所有匹配结果
List allSectionNumbers = new ArrayList<>();
List allDates = new ArrayList<>();
List allValues = new ArrayList<>();
System.out.println("\n--- 聚合所有匹配结果 ---");
while (matcher.find()) {
allSectionNumbers.add(matcher.group(1));
String[] parts = matcher.group(2).split("\\s+");
for (int i = 0; i < parts.length; i++) {
if (i % 2 == 0) {
allDates.add(parts[i]);
} else {
allValues.add(parts[i]);
}
}
}
System.out.println("所有 Section 编号: " + Arrays.toString(allSectionNumbers.toArray()));
System.out.println("所有日期: " + Arrays.toString(allDates.toArray()));
System.out.println("所有数值: " + Arrays.toString(allValues.toArray()));
}
} 输出结果:
--- 按行匹配结果 --- Group 1 (Section): 250342 Group 2 (Dates): [200010, 200011] Group 3 (Values): [10.00, -2.00] Group 1 (Section): 251234 Group 2 (Dates): [200011] Group 3 (Values): [11.00] --- 聚合所有匹配结果 --- 所有 Section 编号: [250342, 251234] 所有日期: [200010, 200011, 200011] 所有数值: [10.00, -2.00, 11.00]
当需要从复杂字符串中提取数量可变的动态分组数据时,单纯依赖正则表达式往往捉襟见肘。通过结合正则表达式的强大匹配能力和程序化后处理的灵活性,我们可以有效地解决这类问题。这种两阶段方法首先利用正则表达式进行初步、粗粒度的捕获,然后通过编程逻辑进行精细化拆分和归类,从而实现对复杂数据结构的精确提取和组织。这种策略不仅提高了解决方案的鲁棒性,也使得代码更易于理解和维护。