Schematron是一种基于XPath的XML验证语言,专注业务规则而非结构定义,通过assert/report实现断言检查,由schema、pattern、rule三层结构组成,常与XSD互补使用。
Schematron 是一种基于 XPath 的 XML 文档验证语言,它不描述数据结构,而是表达业务规则和逻辑约束。和 XML Schema(XSD)不同,Schematron 不关心元素是否合法、是否嵌套正确、类型是否匹配,而是专注“这个 XML 是否满足我的业务要求”。比如:“每个 book 元素必须包含一个非空的 title”,或“当 status 为 archived 时,expiryDate 不得为空”。这类判断靠断言(assert)或报告(report)实现。
一个 Schematron 文件本质是 XML,核心由三部分组成:
http://purl.oclc.org/dsdl/schematron
@context 指定 XPath 路径),内部包含 或
例如:
每本图书必须有非空标题。 0"> 图书价格必须大于零。
最常用且轻量的方式是使用 lxml.etree.Schematron。前提是已安装 lxml(pip install lxml):
etree.XML() 对象,传给 etree.Schematron() 构造器etree.parse() 加载待验证的 XML 文档schematron.validate(xml_doc),返回布尔值schematron.error_log 查看具体哪条断言未通过、在哪一行注意:lxml 内置
的 Schematron 支持基于 ISO Schematron 1.5 标准,但不支持所有高级特性(如 或外部变量)。复杂场景建议配合 Jing 工具链。
实际编写规则时,几个高频要点:
normalize-space() 判断文本是否真正非空,避免仅含空格的“假内容”../author 或 following-sibling::date
合并,便于复用和维护它不替代 XSD,而是互补——XSD 确保“语法正确”,Schematron 保证“语义合理”。两者结合,XML 数据质量才真正可控。