JATS是基于XML的学术期刊文章结构化标记标准,专注描述内容类型而非样式,支持长期保存、跨平台交换及AI分析;主流版本含存档、出版与作者写作三类标签集,并有中文本土化标准。
JATS 是“Journal Article Tag Suite”的缩写,中文叫期刊文章标签集,它是一套基于 XML 的结构化标记标准,用来统一描述学术期刊文章的内容与结构。
它不关心文章长什么样(比如字号、颜色、排版),而是专注说明“这是什么”——比如哪部分是标题、作者、摘要、公式、图表、参考文献,甚至审稿意见或录用状态。这种“内容与结构分离”的设计,让同一篇论文能被不同系统识别、复用、归档、检索和再出版。
目前主流有三类配套标签集,按使用场景划分:
国际通用的是 NISO/ANSI 发布的 JATS 1.1(2015 年)和后续演进;国内则同步推进本土化标准,如 GB/T 40959–2025《期刊文章标签集》和 CY/T 263–2025 行业标准,补充了 CN 号、双语内容、汉字拼音、二维码等中文特需字段。
一个标准 JATS XML 文件通常包含四个逻辑区块:
)、小节(
Word 和 PDF 是呈现型格式,机器难以准确理解内容含义;而 JATS 是语义型格式,每一段都带明确身份标签。例如:
基于深度学习的肺结节早期识别模型模型架构示意图
这样的结构,能让系统自动提取标
题做索引、按年份聚合论文、把图单独导出用于展示,也能让盲人阅读器正确播报图注——这些是 PDF 做不到的。