17370845950

新闻动态

Python爬虫进阶教程_反爬机制与数据清洗

应对反爬需分三类策略：请求头模拟（如User-Agent）、IP代理池防封、解析JS渲染接口；数据清洗包括去噪、数值标准化、去重；运维强调异常捕获、日志记录、编码与会话管理。

应对常见反爬机制的实用策略

网站反爬不是铁板一块，多数基于请求特征、行为模式和前端渲染三类逻辑。识别后针对性绕过，比盲目试错更高效。

User-Agent 与请求头模拟：很多站点仅校验基础请求头。用 requests 发送请求时，必须设置真实的 User-Agent、Accept、Referer 等字段。可从浏览器开发者工具的 Network 面板中复制完整请求头，或使用 fake-useragent 库动态生成：

安装：pip install fake-useragent
使用：from fake_useragent import UserAgent; headers = {"User-Agent": UserAgent().random}
注意：避免高频调用 UserAgent().random，建议初始化一次复用，防止触发 UA 获取接口限流

IP 限制与代理池：单 IP 短时间内大量请求易被封禁。本地调试可用免费代理（如 http://www.89ip.cn/），但稳定性差；生产环境推荐付费代理服务（如芝麻代理、讯代理）或自建私有代理池（结合 Redis + 定时检测）。

requests 中使用代理：proxies = {"http": "http://user:pass@123.45.67.89:8080"}
务必搭配 time.sleep() 或指数退避（如 random.uniform(1, 3)），降低请求密度
遇到 429 或 503 响应码时，主动暂停并切换代理，而非硬刷

JavaScript 渲染内容（如 Ajax、Vue/React）：若页面关键数据由 JS 动态加载，requests 获取的 HTML 中不包含目标内容。此时需分析 Network 面板，找到真实数据接口（常为 .json 或 api/xxx 路径），直接请求该接口。

立即学习“Python免费学习笔记（深入）”；

优先走接口：比启动浏览器快 5–10 倍，资源占用低
若接口带签名、时间戳、加密参数，需逆向 JS（用 Chrome 的 Sources 面板断点调试，定位生成逻辑）
实在无法绕过才考虑 Selenium 或 Playwright，但务必禁用图片、关闭日志、启用无头模式以提速

结构化数据清洗的关键步骤

爬下来的数据常混杂空格、换行、HTML 标签、乱码、重复项等。清洗不是“删脏数据”，而是按业务规则标准化，确保后续分析或入库可用。

文本清洗：去噪与归一化：针对字符串字段（如标题、简介、价格）。

去除不可见字符：text.replace('\u200b', '').strip()（零宽空格）、re.sub(r'[\r\n\t]+', ' ', text)
清理 HTML 标签：import re; re.sub(r']+>', '', html_str)，或更稳妥地用 BeautifulSoup(html_str, 'lxml').get_text()
统一空格与标点：re.sub(r'\s+', ' ', text)、text.replace('，', ',').replace('。', '.')（视需求决定是否中英文标点转换）

数值与日期标准化：价格、评分、时间等字段极易格式混乱。

价格（含¥、万、亿、逗号）：re.findall(r'[\d.]+', '¥12,999.5万元') → ['12', '999.5'] → float(''.join(...)) * 10000
日期（“今天”、“3小时前”、“2025-05-12”）：用 dateparser 库统一解析：dateparser.parse("昨天") 返回标准 datetime 对象
评分（“4.8分（满分5分）”、“★★★★☆”）：正则提取数字或统计星号数量，统一转为 0–5 浮点数

去重与唯一性保障：尤其在增量爬取中，避免重复入库或分析偏差。

内存级去重（小数据量）：seen = set(); if item_id not in seen: seen.add(item_id); yield item
数据库级去重（推荐）：MySQL 用 INSERT IGNORE 或 ON DUPLICATE KEY UPDATE；MongoDB 用 update_one(..., upsert=True)
URL 去重建议存入 Redis 的 SET，O(1) 判断，且支持跨进程共享

实战建议：让爬虫稳定又可持续

写一个能跑通的爬虫容易，写一个能长期运行、易维护、抗变化的爬虫才是进阶核心。

把请求逻辑封装成函数，参数化 URL、headers、timeout、proxy，方便调试和复用
所有网络操作加异常捕获：try/except requests.RequestException，记录错误日志而非崩溃退出
用 logging 替代 print，区分 INFO/WARNING/ERROR 级别，便于后期排查
定期检查目标网站结构变更（如 class 名更新、接口路径调整），可设置简单断言：assert 'price' in response.text，失败即告警
遵守 robots.txt，控制并发数（concurrent.futures.ThreadPoolExecutor(max_workers=3)），尊重网站资源

不复杂但容易忽略的细节

很多爬虫中途失效，不是技术卡点，而是栽在细节上。

编码问题：requests 默认用 ISO-8859-1 解码非 UTF-8 页面，导致中文乱码。务必显式指定：response.encoding = 'utf-8' 或用 response.content.decode('utf-8')
Cookies 会话维持：登录后爬个人页，需复用 session = requests.Session()，自动管理 cookies
HTTPS 证书验证：内网或测试环境可能报 SSL 错误，临时禁用：verify=False（仅调试），同时加 urllib3.disable_warnings()
JSON 接口响应含 Unicode 转义（如 "\u4f60\u597d"），json.loads() 会自动解码，无需额外处理

17370845950

应对常见反爬机制的实用策略

结构化数据清洗的关键步骤

实战建议：让爬虫稳定又可持续

不复杂但容易忽略的细节

关于我们

服务项目

广告推广

案例欣赏