StaxEventItemReader 可流式读取大型 XML 文件,避免内存溢出,适用于结构扁平、重复标签(如 order)的场景;需配置 resource、fragmentRootElementName、unmarshaller 等,并确保 Java Bean 含正确 JAXB 注解。
Spring Batch 使用 StaxEventItemReader 可以高效、流式地读取大型 XML 文件,避免将整个文档加载到内存,适合处理结构清晰、重复标签的 XML 数据(如订单列表、用户清单等)。它基于 StAX(Streaming API for XML),底层使用 Woodstox 或 JDK 自带的 StAX 实现。
StaxEventItemReader 不解析任意嵌套 XML,它依赖“扁平化”的重复元素作为业务对象单位。例如:
Alice 299.99Bob 149.50
其中每个 是一个独立 item,StaxEventItemReader 会逐个提取并映射为 Java 对象。
需指定资源路径、根标签名、映射处理器(Unmarshaller)及命名空间(如有):
FileSystemResource、ClassPathResource 等
元素名(如 "order")Jaxb2Marshaller 将 XML 片段反序列化为 Java Bean(Bean 需加 @XmlRootElement 和字段级 @XmlElement)true 若 XML 含命名空间(如 xmlns="http://example.com/ns"),此时需在 unmarshaller 中注册 namespace handler 或使用 @XmlSchema
对应读取,StaxEventItemWriter 支持流式写入。需配置:
FileSystemResource("output/orders.xml"))"orders")Jaxb2Marshaller,确保目标类有正确 JAXB 注解true 允许覆盖已有文件(默认 false,写入失败)注意:它不会自动添加 XML 声明(),如需,可在 StaxEventItemWriter 初始化后调用 setXmlDeclaration(true)(Spring Batch 5+ 支持)。
避免运行时异常的关键细节:
XMLStreamException
@XmlElement(name = "customerName") 显式指定id="1001")需用 @XmlAttribute 注解,不能用 @XmlElement
InputStream 指定正确 charset(如 UTF-8),并在 Resource 构造时传入不复杂但容易忽略。