17370845950

新闻动态

Python Pandas怎么读取XML文件 pandas.read_xml

pandas官方不提供read_xml()函数，需用xml.etree.ElementTree、第三方pandas-read-xml或lxml解析XML后转DataFrame；不推荐用BeautifulSoup处理纯XML。

注意：pandas 本身不提供 pandas.read_xml() 函数。

截至 pandas 2.2.x（2025 年最新稳定版），pandas 官方并未内置 XML 解析功能，pandas.read_xml() 并不存在。你在网上看到的 read_xml 要么是误传，要么是混淆了其他库（比如第三方包 pandas-read-xml），或是误将 read_html() 或 read_json() 的用法套用到了 XML 上。

✅ 正确做法是：用标准 XML 解析器（如 xml.etree.ElementTree 或 lxml）解析 XML，再手动或借助辅助工具转为 DataFrame。

1. 使用标准库 xml.etree.ElementTree（推荐入门）

适合结构清晰、层级较扁平的 XML（如配置文件、简单数据列表）。

示例 XML（data.xml）：


  Apple1.2
  Banana0.8

读取并转为 DataFrame：

```python import pandas as pd import xml.etree.ElementTree as ET

tree = ET.parse("data.xml") root = tree.getroot()

data = [] for item in root.findall("item"): row = { "name": item.find("name").text, "price": float(item.find("price").text) } data.append(row)

df = pd.DataFrame(data) print(df)

输出：

    name  price
0  Apple    1.2
1 Banana    0.8

---

2. 使用第三方库 pandas-read-xml（最接近“read_xml”体验）

这个社区维护的包提供了类似 `pd.read_xml()` 的接口，支持 XPath、属性提取、嵌套展开等。

安装：

```bash pip install pandas-read-xml

基本用法：

```python import pandas_read_xml as pdx

df = pdx.read_xml("data.xml", ["item"]) # 指定重复节点路径 print(df)

支持更复杂场景，例如：

从属性读取：pdx.read_xml("file.xml", ["item"], attr_prefix="@")
处理多层嵌套：pdx.read_xml("file.xml", ["root", "category", "product"])
自动类型推断（含日期、数字）

⚠️ 注意：它不是 pandas 官方组件，需额外安装和维护；生产环境建议评估其更新活跃度与兼容性（当前 GitHub 主页为 https://github.com/trevorstephens/pandas-read-xml）。 ---

3. 使用 lxml + xpath（高性能、灵活，适合复杂/大型 XML）

`lxml` 比标准库更快，XPath 表达式强大，适合 Web 抓取或企业级 XML（如 SOAP、Office Open XML）。

安装：

```bash pip install lxml

示例（同上 XML）：

```python from

lxml import etree import pandas as pd

tree = etree.parse("data.xml") items = tree.xpath("//item")

data = [ { "name": i.xpath("name/text()")[0], "price": float(i.xpath("price/text()")[0]) } for i in items ]

df = pd.DataFrame(data)

优势：

支持命名空间、条件筛选（如 //item[price > 1.0]）、文本/属性混合提取
可处理 GB 级 XML（配合迭代解析 iterparse）

---

4. 不推荐的方式：用 BeautifulSoup 解析 XML

虽然 `bs4` 支持 XML 解析器（需装 `lxml` 或 `xml`），但它设计初衷是 HTML 容错解析，对规范 XML 效率低、语义弱，且无原生 DataFrame 转换逻辑，属于“能跑但不优雅”。

简言之：除非你已在用 bs4 处理混合 HTML/XML，否则不用专为 XML 引入它。

不复杂但容易忽略

17370845950

1. 使用标准库 xml.etree.ElementTree（推荐入门）

关于我们

服务项目

广告推广

案例欣赏