17370845950

python怎么处理xml文件 使用python解析xml教程
Python使用xml.etree.ElementTree可轻松处理XML,支持读取、解析、修改和创建文件。1. 用ET.parse()加载XML并获取根节点;2. 通过findall()遍历book元素,find()获取子元素文本,get()读取属性;3. 修改内容后调用write()保存文件;4. 可用Element()和SubElement()从零构建XML结构。该模块适用于常规XML操作,如配置文件处理,复杂需求可用lxml扩展。

Python处理XML文件非常方便,主要使用内置的xml.etree.ElementTree模块。它轻量、易用,适合大多数XML解析和生成任务。下面是一个实用的教程,带你快速掌握如何用Python读取、解析、修改和创建XML文件。

1. 读取和解析XML文件

假设你有一个名为bookstore.xml的文件:



  
    Python入门
    张三
    50.00
  

  
    数据分析实战
    李四
    68.00
  

使用ElementTree解析这个文件:

import xml.etree.ElementTree as ET

加载XML文件

tree = ET.parse('bookstore.xml')
root = tree.getroot() # 获取根元素

此时root就是节点,你可以遍历它的子节点。

2. 遍历XML节点并提取数据

通过循环访问每个元素,并获取其属性和子元素内容:

for book in root.findall('book'):
    book_id = book.get('id')
    title = book.find('title').text
    author = book.find('author').text
    price = book.find('price').text
    print(f"ID: {book_id}, 书名: {title}, 作者: {author}, 价格: {price}")

输出结果:

ID: 1, 书名: Python入门, 作者: 张三, 价格: 50.00
ID: 2, 书名: 数据分析实战, 作者: 李四, 价格: 68.00

说明:
- findall(tag) 返回所有匹配标签的子元素列表。
- find(tag) 返回第一个匹配的子元素,用于获取文本内容。
- get(attr) 获取元素的属性值。

3. 修改XML内容并保存

你可以修改现有节点的内容或属性,然后写回文件。

# 将第一本书的价格提高
first_book = root.find('book')
first_price = first_book.find('price')
first_price.text = '55.00'

添加新属性

first_book.set('updated', 'yes')

写入新文件

tree.write('updated_bookstore.xml', encoding='utf-8', xml_declaration=True)

生成的XML会保留结构,并更新对应字段。

4. 创建新的XML文件

从零构建一个XML结构也很简单:

import xml.etree.ElementTree as ET

创建根元素

root = ET.Element("catalog")

添加子元素

book1 = ET.SubElement(root, "book", id="1")
ET.SubElement(book1, "title").text = "Web开发指南"
ET.SubElement(book1, "author").text = "王五"
ET.SubElement(book1, "price").text = "72.00"

book2 = ET.SubElement(root, "book", id="2")
ET.SubElement(book2, "title").text = "机器学习基础"
ET.SubElement(book2, "author").text = "赵六"
ET.SubElement(book2, "price").text = "88.00"

构建树并保存

tree = ET.ElementTree(root)
tree.write("new_catalog.xml", encoding="utf-8", xml_declaration=True)

这样就生成了一个结构良好的XML文件。

基本上就这些。ElementTree足够应对大多数日常需求,比如配置文件读取、数据交换格式处理等。对于更复杂的场景(如命名空间、验证),可以考虑lxml库,但标准库已能满足基本解析任务。