本教程详细介绍了如何利用php解析无分隔符的固定宽度数据文件(如`.out`文件)。核心内容包括定义数据字段的名称和长度,使用php的`unpack()`函数高效提取每行数据,并最终将解析后的结构化数据导出为csv格式文件。此csv文件可作为中间步骤,方便后续导入到sql数据库,特别适用于处理包含有意义空白字符的数据。
在许多遗留系统或特定数据交换场景中,我们经常会遇到固定宽度(Fixed-Width)的数据文件。这类文件的特点是,数据记录中的每个字段都占据预设的固定字符长度,字段之间没有明确的分隔符。即使是空白字符,也可能代表数据的一部分,甚至是空值(NULL)。本教程将指导您如何使用PHP有效地解析这类文件,并将其转换为更易于处理的CSV或SQL格式。
固定宽度数据文件的每一行都是一条记录,每条记录中的字段通过其在行中的起始位置和结束位置来定义。例如,第一个字段可能从第1个字符开始,到第10个字符结束;
第二个字段从第11个字符开始,到第20个字符结束,依此类推。
示例记录:
I299207075410 07 OCCLUSAL-HP LIQ17% LMedicis B000001000000000001EA 8428010080529100 1072363 20030101000000016750000000016750000000000167500200101010000000000000000000000000000000001218000000000000000000000000000000000000000000000000020021231262436018510(W/BRUSH APPLICATOR) TPLIQ 299207085060R01 LUZU CRE1% SBausch C000006000000000001EA 8404080054930829 1 1309011 20180105000000590530000000098421700000000902967000000000000000000000000000000000000000000000000000000000000000000000000000000 TPCRE
在上述示例中,您可以看到一些字段可能由纯数字或字母组成,而另一些字段则包含大量的空白字符。这些空白字符并非无关紧要,它们是字段长度的一部分,甚至可能表示该字段的空值。例如,第一条记录的第一个字段是 "I",长度为1。第二条记录的第一个字段是一个空白字符,也占据1个长度,代表空值。
解析固定宽度文件的关键一步是准确地定义每个字段的名称和其所占用的字符长度。这通常需要您了解源文件的具体布局或查阅相关文档。
在PHP中,我们可以使用一个关联数组来存储这些定义,其中键是字段名,值是字段的长度。
1, // 第一个字段,长度1
'id2' => 12, // 第二个字段,长度12
'code' => 5, // 第三个字段,长度5
'category' => 35, // ...
'code2' => 32,
'category2' => 22,
'code3' => 22,
'code5' => 17,
'code6' => 2,
'code7' => 10,
'code8' => 186,
'code9' => 10
];
// ... 后续代码重要提示: fields 数组中的长度必须与源文件中每个字段的实际长度完全匹配。任何一个字段的长度定义错误都可能导致后续字段的解析偏移,从而产生错误的数据。
PHP的unpack()函数是处理二进制字符串和固定宽度文本数据的强大工具。它允许您根据预定义的格式字符串从二进制数据中提取信息。对于固定宽度文本,我们可以使用A格式字符,它表示“ASCII字符串,以空字符或空格填充”。
解析流程:
PHP代码示例:
1,
'id2' => 12,
'code' => 5,
'category' => 35,
'code2' => 32,
'category2' => 22,
'code3' => 22,
'code5' => 17,
'code6' => 2,
'code7' => 10,
'code8' => 186,
'code9' => 10
];
// 构建 unpack 格式字符串
$unpack = [];
foreach ($fields as $name => $length) {
// 'A' 表示 ASCII 字符串,后面跟着长度和字段名
$unpack[] = 'A'.$length.$name;
}
$unpack_string = implode('/', $unpack); // 使用 '/' 连接所有字段的格式
// 存储解析后的数据
$data = [];
foreach ($raw as $line) {
// 去除行末的换行符,确保 unpack 正确处理固定长度
$line = rtrim($line, "\r\n");
$data[] = unpack($unpack_string, $line);
}
// 调试输出解析结果(可选)
// var_dump($data); 执行上述代码后,$data数组将包含一个多维数组,每个子数组代表源文件中的一行记录,其键是您定义的字段名,值是对应字段的字符串数据。
解析完成后,我们可以将结构化的数据导出为CSV(Comma Separated Values)文件。CSV是一种通用的表格数据格式,易于被各种电子表格软件、数据库管理工具识别和导入。根据需求,我们可以选择不同的分隔符,例如本例中使用的管道符|。
运行此脚本后,您将在同一目录下找到一个名为 data.csv 的文件,其中包含用管道符|分隔的解析后数据。
data.csv 文件的部分内容示例(根据原始数据和字段定义):
I|299207075410| 07 |OCCLUSAL-HP |LIQ17% |LMedicis |B000001000000000001EA |8428010080529100 | |1072363 |20030101000000016750000000016750000000000167500200101010000000000000000000000000000000001218000000000000000000000000000000000000000000000000020021231262436018510(W/BRUSH APPLICATOR) |TPLIQ |299207085060|R01 |LUZU |CRE1% |SBausch |C000006000000000001EA |8404080054930829 |1 |1309011 |20180105000000590530000000098421700000000902967000000000000000000000000000000000000000000000000000000000000000000000000000000 |TPCRE
一旦数据被成功导出为CSV格式,将其导入到SQL数据库就变得相对简单。大多数数据库系统都提供了导入CSV文件的功能。
常见导入方法:
LOAD DATA INFILE '/path/to/your/data.csv' INTO TABLE your_table_name FIELDS TERMINATED BY '|' -- 指定字段分隔符 ENCLOSED BY '' -- 如果字段没有被引号包围,则为空 LINES TERMINATED BY '\n' -- 指定行结束符 IGNORE 1 LINES; -- 如果CSV文件有标题行,则忽略第一行
请确保MySQL服务器对CSV文件路径有读取权限。
// 逐行读取大文件示例
$handle = fopen('data.out', 'r');
if ($handle) {
while (($line = fgets($handle)) !== false) {
$line = rtrim($line, "\r\n");
$data[] = unpack($unpack_string, $line);
}
fclose($handle);
}通过本教程,您应该已经掌握了使用PHP解析固定宽度数据文件并将其导出为CSV格式的方法。核心在于精确定义字段结构,并利用unpack()函数进行高效解析。这种方法不仅解决了无分隔符数据的处理难题,也为后续的数据分析、存储和利用奠定了基础。请记住,在实际操作中,根据您的具体数据文件结构和需求,灵活调整字段定义和导出策略至关重要。