html 中 `class="text title"` 表示元素同时拥有 `text` 和 `title` 两个独立 class,而非一个含空格的字符串;goquery 的 css 选择器语法要求用 `.text.title`(无空格、连续点号)来匹配同时具备多个 class 的元素。
在使用 goquery 进行 HTML 解析时,一个常见误区是将 class 属性中的空格误认为是 class 名称的一部分。实际上,根据 HTML 规范,class 属性值是一个以空格分隔的 class 名列表。例如:
Go 等价于该元素同时具有 text 和 title 两个 class,语义上类似于“属于 text 类别,也属于 title 类别”。
因此,若想用 goquery 精确查找同时拥有 text 和 title 两个 class 的元素,必须使用符合 CSS 选择器标准的写法:.text.title(注意:中间无空格,每个 class 前加 .,连续拼接)。错误写法如 .text title(含空格)会被解析为“后代选择器”,即查找
✅ 正确示例:
doc.Find(".text.title").Each(func(i int, s *goquery.Selection) {
class, _ := s.Attr("class")
fmt.Printf("class=%q, text=%q\n", class, s.Text())
})
// 输出:class="text title", text="Go "✅ 若只需匹配任意包含 title 的元素(不管是否还有其他 class),可单独使用:
doc.Find(".title").Each(func(i int, s *goquery.Selection) {
class, _ := s.Attr("class")
fmt.Printf("class=%q, text=%q\n", class, s.Text())
})
// 输出:class="text title", text="Go "⚠️ 注意事项:
3C CSS 选择器规范,不支持自定义或模糊匹配(如正则、子串匹配);doc.Find("span").Filter(func(i int, s *goquery.Selection) bool {
class, exists := s.Attr("class")
return exists && strings.Contains(class, "text title") // 仅当 class 属性值字面量含该子串时成立
}).Each(/* ... */)总结:理解 HTML class 属性的语义本质(空格分隔的 token 列表)是正确使用 goquery 选择器的前提;多 class 精确匹配 = 连续点号语法(.a.b.c),零空格、零歧义。