XML实体分内部和外部两类,用于表示特殊字符、重复内容或外部资源;内部实体在DTD中直接定义值,外部实体通过SYSTEM或PUBLIC引用外部资源,但现代解析器默认禁用外部实体以防XXE攻击。
XML实体用于在文档中代表特殊字符、重复内容或外部资源,自定义实体分内部实体和外部实体两类。关键在于声明的位置与语法是否符合DTD规范,且需注意现代解析器默认禁用外部实体(XXE)以防范安全风险。
内部实体直接在DTD中定义值,常用于简化重复文本或插入特殊字符:
]>
©right; → 解析后显示为“© 2025 My Company”%name;引用,声明时加百分号:
外部实体指向本地文件或URL,语法需指定SYSTEM或PUBLIC标识符:
,然后在文档中用&footer;
注意:大多数现代XML解析器(如Java的DocumentBuilder、Python的xml.etree.ElementTree)默认禁用外部实体解析,启用需显式配置,否则会报错或静默忽略。
外部实体若处理不当,可能被用于读取敏感文件(如/etc/passwd)、发起SSRF或拒绝服务攻击:
SYSTEM引用用户可控路径或URL
实体加载:例如Java中设置setFeature("http://apache.org/xml/features/disallow-doctype-decl", true)
即使禁用外部实体,仍可灵活使用内部实体提升可维护性:
,再在元素中写xmlns:my="&ns;"
%coreElements;(需解析器支持并启用参数实体)✅)代替实体,减少DTD依赖基本上就这些。实体不是必须的,但用对了能让XML更清晰、更易复用;用错了,轻则解析失败,重则引发安全问题。