17370845950

新闻动态

高效解析HTML：按类型分组提取段落与表格内容

本教程详细阐述了如何使用Python的BeautifulSoup和html2text库，从复杂的HTML结构中准确提取并分组连续的段落（

标签）和表格（

标签）。文章深入分析了在迭代HTML元素时管理状态的关键性，指出了常见的字典初始化陷阱，并提供了一个健壮的解决方案，确保段落内容能够正确累积，并在遇到表格时将其作为独立项分离，最终生成结构清晰的数据列表。

HTML内容解析挑战：段落与表格的混合提取

在处理包含多种类型内容的HTML文档时，常见的需求是将特定类型的元素（如段落）聚合起来，而将另一些元素（如表格）作为独立项处理。例如，我们可能需要将所有连续的段落文本合并成一个逻辑单元，而一旦遇到表格，则将其视为一个新的独立数据块。这要求我们在遍历HTML结构时，能够有效地管理和维护当前解析的状态。

初始尝试与常见陷阱

许多开发者在初次尝试时，可能会采用一种直观的迭代方式，但在处理状态积累时容易陷入误区。考虑以下一个简化的、具有缺陷的初始代码逻辑：

from bs4 import BeautifulSoup
import html2text
import json

# 假设 data3 包含混合的 p 和 table 标签
data3 = """
这是一个段落。
这是第二个段落。

Header A	Header B
Value 1A	Value 1B

表格后的段落。

最后一个段落。

""" converter = html2text.HTML2Text() soup = BeautifulSoup(data3, 'html.parser') content_items = [] for tag in soup.descendants: # 陷阱：在每次循环迭代中都重新初始化 content_dict content_dict = {'Title': "文档标题", 'Content': ''} if tag.name == "p": # 如果 content_dict 每次都被重新创建，这里只会收集当前 p 标签的内容 content_dict['Content'] += converter.handle(str(tag)) elif tag.name == "table": # 如果前面有 p 标签内容，先添加 if content_dict['Content']: content_items.append(content_dict) # 为表格创建一个新的字典，并添加 content_dict = {'Title': "文档标题", 'Content': converter.handle(str(tag))} content_items.append(content_dict) print(json.dumps(content_items, indent=4, ensure_ascii=False))

上述代码的根本问题在于 content_dict 在每次循环迭代时都被重新初始化。这意味着，当循环处理到一个新的标签时，前一个标签（即使是连续的

标签）所累积的内容会丢失，因为 content_dict 被重置为一个空字典。因此，它无法实现将多个连续的

标签内容合并到同一个 Content 字段中。

解决方案：使用缓冲区管理状态

为了正确地实现段落内容的累积和表格的分离，我们需要引入一个临时的缓冲区来存储连续的段落内容，并在遇到非段落元素（特别是表格）时，将缓冲区内容清空并作为独立项添加，然后处理当前非段落元素。

以下是实现此逻辑的修正代码：

from bs4 import BeautifulSoup
import html2text
import json

# 示例 HTML 数据
data3 = """
这是一个段落内容。
这是第二个段落，与上一个段落连续。

    这是一个嵌套在 div 中的段落。


    
        产品 价格
    
    
        笔记本 8000
        鼠标 150
    

表格后的第一个段落。
这是一个span标签。
表格后的第二个段落。
"""

converter = html2text.HTML2Text()
soup = BeautifulSoup(data3, 'html.parser')
content_items = []  # 存储最终结果的列表
current_p_buffer = [] # 临时缓冲区，用于累积连续的 p 标签内容

# 遍历 HTML 文档的所有子孙节点
# 使用 soup.descendants 能够遍历到所有嵌套层级的标签，并大致按照文档顺序
for tag in soup.descendants:
    # 确保只处理 Tag 对象，跳过 NavigableString 等文本节点
    if tag.name == "p":
        # 如果当前标签是 p，则将其内容添加到缓冲区
        current_p_buffer.append(converter.handle(str(tag)))
    elif tag.name == "table":
        # 如果遇到 table 标签，首先检查 p 缓冲区是否有内容
        if current_p_buffer:
            # 将累积的 p 标签内容合并，并作为一个条目添加到结果列表
            content_items.append({
                'Title': "35.23.060 - DR Zone Standards", # 示例标题，可根据实际需求动态设置
                'Content': "".join(current_p_buffer)
            })
            current_p_buffer = []  # 清空 p 缓冲区，准备收集下一组段落

        # 然后，将 table 标签的内容作为一个独立条目添加到结果列表
        content_items.append({
            'Title': "35.23.060 - DR Zone Standards", # 示例标题
            'Content': converter.handle(str(tag))
        })
    # 可以根据需要添加其他标签的处理逻辑，例如忽略 div, span 等
    # else:
    #     # 如果遇到其他非 p 非 table 标签，也可能需要清空 p 缓冲区
    #     # 这取决于具体需求，例如是否只有 p 和 table 才能作为主要内容块
    #     if current_p_buffer:
    #         content_items.append({
    #             'Title': "35.23.060 - DR Zone Standards",
    #             'Content': "".join(current_p_buffer)
    #         })
    #         current_p_buffer = []

# 循环结束后，检查 p 缓冲区是否还有剩余内容（即文档末尾的段落）
if current_p_buffer:
    content_items.append({
        'Title': "35.23.060 - DR Zone Standards",
        'Content': "".join(current_p_buffer)
    })

# 打印提取的数据
print(json.dumps(content_items, indent=4, ensure_ascii=False))

产品	价格
笔记本	8000
鼠标	150

代码解析与最佳实践

current_p_buffer：核心缓冲区 这个列表是实现段落内容累积的关键。它在循环外部初始化，确保其状态在每次迭代中得以保留。当遇到

标签时，其内容被追加到 current_p_buffer 中。
soup.descendants 与 soup.children
- soup.descendants 迭代器会按照文档顺序遍历所有子孙节点，包括嵌套在其他标签内的
  或
  。这对于处理复杂、多层级的HTML结构非常有用。
  如果 HTML 结构相对扁平，且
  和
  
  标签通常是同级兄弟元素，那么使用 soup.children 或 soup.contents 可能会更直接，因为它只遍历直接子节点。然而，对于普遍情况，descendants 更具鲁棒性。
  条件判断与状态转换
  - 当 tag.name == "p" 时，内容被添加到 current_p_buffer。
  - 当 tag.name == "table" 时，这是一个“状态转换点”。此时，首先检查 current_p_buffer 是否有内容。如果有，说明前面累积了一组段落，需要将其合并并添加到 content_items 列表中，然后清空 current_p_buffer。接着，将当前
  的内容作为一个新的独立项添加到 content_items。
  循环结束后的处理：在 for 循环结束后，需要再次检查 current_p_buffer。这是为了捕获文档末尾可能存在的、未被任何
  标签中断的连续段落。
  html2text.HTML2Text() 的作用html2text 库用于将 HTML 片段转换为 Markdown 格式的文本。这在需要从 HTML 中提取纯文本内容，并保留一定的格式（如标题、列表、表格的Markdown表示）时非常有用。converter.handle(str(tag)) 将标签及其内部 HTML 转换为文本。
  json.dumps 的应用 使用 json.dumps(..., indent=4, ensure_ascii=False) 可以将结果列表格式化为易于阅读的 JSON 字符串，其中 indent=4 增加了缩进，ensure_ascii=False 确保中文字符正确显示。
  总结
  正确地从混合内容的HTML中提取和分组数据，关键在于有效地管理迭代过程中的状态。通过引入一个临时缓冲区来累积同类型元素（如段落），并在遇到不同类型或分隔元素（如表格）时处理缓冲区内容，我们可以构建一个健壮且灵活的解析器。这种模式不仅适用于段落和表格，也适用于任何需要按类型分组或合并的HTML元素提取任务。理解并应用状态管理技巧，是高效进行Web数据抓取和内容处理的基础。

17370845950

HTML内容解析挑战：段落与表格的混合提取

初始尝试与常见陷阱

解决方案：使用缓冲区管理状态

代码解析与最佳实践

总结

关于我们

服务项目

广告推广

案例欣赏