本教程详细阐述了如何使用Python的BeautifulSoup和html2text库,从复杂的HTML结构中准确提取并分组连续的段落(
标签)和表格(
| Header A | Header B |
|---|---|
| Value 1A | Value 1B |
表格后的段落。
最后一个段落。
""" converter = html2text.HTML2Text() soup = BeautifulSoup(data3, 'html.parser') content_items = [] for tag in soup.descendants: # 陷阱:在每次循环迭代中都重新初始化 content_dict content_dict = {'Title': "文档标题", 'Content': ''} if tag.name == "p": # 如果 content_dict 每次都被重新创建,这里只会收集当前 p 标签的内容 content_dict['Content'] += converter.handle(str(tag)) elif tag.name == "table": # 如果前面有 p 标签内容,先添加 if content_dict['Content']: content_items.append(content_dict) # 为表格创建一个新的字典,并添加 content_dict = {'Title': "文档标题", 'Content': converter.handle(str(tag))} content_items.append(content_dict) print(json.dumps(content_items, indent=4, ensure_ascii=False))上述代码的根本问题在于 content_dict 在每次循环迭代时都被重新初始化。这意味着,当循环处理到一个新的标签时,前一个标签(即使是连续的
标签)所累积的内容会丢失,因为 content_dict 被重置为一个空字典。因此,它无法实现将多个连续的
标签内容合并到同一个 Content 字段中。
为了正确地实现段落内容的累积和表格的分离,我们需要引入一个临时的缓冲区来存储连续的段落内容,并在遇到非段落元素(特别是表格)时,将缓冲区内容清空并作为独立项添加,然后处理当前非段落元素。
以下是实现此逻辑的修正代码:
from bs4 import BeautifulSoup import html2text import json # 示例 HTML 数据 data3 = """这是一个段落内容。
这是第二个段落,与上一个段落连续。
这是一个嵌套在 div 中的段落。
| 产品 | 价格 |
|---|---|
| 笔记本 | 8000 |
| 鼠标 | 150 |
表格后的第一个段落。
这是一个span标签。表格后的第二个段落。
""" converter = html2text.HTML2Text() soup = BeautifulSoup(data3, 'html.parser') content_items = [] # 存储最终结果的列表 current_p_buffer = [] # 临时缓冲区,用于累积连续的 p 标签内容 # 遍历 HTML 文档的所有子孙节点 # 使用 soup.descendants 能够遍历到所有嵌套层级的标签,并大致按照文档顺序 for tag in soup.descendants: # 确保只处理 Tag 对象,跳过 NavigableString 等文本节点 if tag.name == "p": # 如果当前标签是 p,则将其内容添加到缓冲区 current_p_buffer.append(converter.handle(str(tag))) elif tag.name == "table": # 如果遇到 table 标签,首先检查 p 缓冲区是否有内容 if current_p_buffer: # 将累积的 p 标签内容合并,并作为一个条目添加到结果列表 content_items.append({ 'Title': "35.23.060 - DR Zone Standards", # 示例标题,可根据实际需求动态设置 'Content': "".join(current_p_buffer) }) current_p_buffer = [] # 清空 p 缓冲区,准备收集下一组段落 # 然后,将 table 标签的内容作为一个独立条目添加到结果列表 content_items.append({ 'Title': "35.23.060 - DR Zone Standards", # 示例标题 'Content': converter.handle(str(tag)) }) # 可以根据需要添加其他标签的处理逻辑,例如忽略 div, span 等 # else: # # 如果遇到其他非 p 非 table 标签,也可能需要清空 p 缓冲区 # # 这取决于具体需求,例如是否只有 p 和 table 才能作为主要内容块 # if current_p_buffer: # content_items.append({ # 'Title': "35.23.060 - DR Zone Standards", # 'Content': "".join(current_p_buffer) # }) # current_p_buffer = [] # 循环结束后,检查 p 缓冲区是否还有剩余内容(即文档末尾的段落) if current_p_buffer: content_items.append({ 'Title': "35.23.060 - DR Zone Standards", 'Content': "".join(current_p_buffer) }) # 打印提取的数据 print(json.dumps(content_items, indent=4, ensure_ascii=False))current_p_buffer:核心缓冲区 这个列表是实现段落内容累积的关键。它在循环外部初始化,确保其状态在每次迭代中得以保留。当遇到
标签时,其内容被追加到 current_p_buffer 中。
soup.descendants 与 soup.children
或