传统爬虫的"阿喀琉斯之踵"
做过网页抓取的朋友都有过这样的经历:好不容易写好了正则表达式或 CSS 选择器,脚本运行得完美无缺。然而,某天早上醒来,目标网站悄悄更新了前端框架,或者只是调整了商品价格的 DOM 结构,你的程序瞬间报错,返回一堆空值。这时候,你不得不重新打开浏览器开发者工具,定位新节点,修改代码,再次部署。这种"猫鼠游戏"在传统基于规则的爬虫开发中几乎无法避免,尤其是面对电商、新闻等高频变动的站点时,维护成本往往超过了开发成本。
问题的核心在于,传统爬虫依赖的是精确的结构匹配 ,而网页的本质是语义内容的呈现。当结构服务于呈现时,一旦呈现方式改变,结构就失效了。解决之道,在于引入"理解能力",让程序不再死记硬背"价格在第 3 个 div 的第 2 个 span 里",而是学会识别"这是价格"。这正是 Python 结合大语言模型(LLM)带来的范式转变。
从"规则匹配"到"语义理解"的工作流
新的解决方案并非完全抛弃 Python 生态,而是重新划分了职责边界。在这个架构中,Python 依然负责它最擅长的部分:网络请求、并发控制、重试机制以及数据持久化。而原本最脆弱、最耗时的 HTML 解析与字段提取环节,则交给了 AI 模型。
整个流程可以概括为三个步骤:获取与清洗 、语义提取 、验证与存储。
首先,利用 requests 库获取页面源码。但这步之后,我们不再直接编写复杂的 XPath。相反,我们使用 BeautifulSoup 进行"降噪"处理。网页中大量的 <script>、<style> 标签以及无关的广告代码,不仅占用 Token,还会干扰模型的判断。通过简单的遍历删除这些噪声,我们能得到一个只保留核心文本和基础结构的"干净 HTML"。
接下来是关键一步:将清洗后的 HTML 作为上下文输入给大模型。我们需要设计一段清晰的 Prompt,告诉模型:"这是一段商品页面的 HTML,请从中提取商品名称、价格和货币单位,并以严格的 JSON 格式返回。"模型基于其强大的语义理解能力,能够忽略标签 class 名的变化,直接锁定内容含义。即使网站将价格从 <span class="price"> 改成了 <div data-val="price">,对人类来说这只是换了一种写法,对 AI 而言,语义未变,提取结果依然稳定。
实战:构建抗变的电商数据提取器
让我们通过一个具体的电商商品页抓取案例,看看代码是如何落地的。假设我们要抓取某演示站点的宝可梦商品信息。
环境准备与依赖安装
你需要安装基础的 HTTP 请求库、HTML 解析库以及大模型 SDK:
bash
pip install requests beautifulsoup4 openai
核心代码实现
以下是一个完整的极简实现,展示了如何串联上述流程:
python
import json
import re
import requests
from bs4 import BeautifulSoup
from openai import OpenAI
# 配置项
TARGET_URL = "https://scrapeme.live/shop/Bulbasaur/"
OUTPUT_FILE = "products.jsonl"
MAX_TOKENS_LIMIT = 120000 # 防止 HTML 过长超出模型限制
def fetch_and_clean_html(url):
"""获取页面并清洗噪声"""
headers = {"User-Agent": "Mozilla/5.0 (compatible; AIScraper/1.0)"}
response = requests.get(url, headers=headers, timeout=30)
response.raise_for_status()
soup = BeautifulSoup(response.text, "html.parser")
# 移除脚本和样式标签,减少干扰
for tag in soup(["script", "style", "noscript", "header", "footer"]):
tag.decompose()
# 获取 body 内容并压缩空白字符
clean_text = re.sub(r"\s+", " ", soup.body.get_text(separator=" ", strip=True))
return clean_text[:MAX_TOKENS_LIMIT]
def extract_with_ai(html_content):
"""调用 AI 模型进行结构化提取"""
client = OpenAI() # 需配置 OPENAI_API_KEY 环境变量
# 定义期望的 JSON 结构
json_schema = {
"type": "object",
"properties": {
"product_name": {"type": "string"},
"price": {"type": "string"},
"currency": {"type": "string"}
},
"required": ["product_name", "price", "currency"],
"additionalProperties": False
}
response = client.chat.completions.create(
model="gpt-4o", # 或其他支持 JSON Mode 的模型
messages=[
{"role": "system", "content": "你是一个数据提取助手。请从提供的 HTML 文本中提取商品信息,仅返回符合 Schema 的 JSON,不要包含 Markdown 标记或其他解释。"},
{"role": "user", "content": f"URL: {TARGET_URL}\n\nHTML Content:\n{html_content}"}
],
response_format={"type": "json_object", "schema": json_schema}
)
return json.loads(response.choices[0].message.content)
def main():
try:
# 1. 获取与清洗
print("正在获取并清洗页面...")
clean_html = fetch_and_clean_html(TARGET_URL)
# 2. AI 语义提取
print("正在调用 AI 进行语义分析...")
data = extract_with_ai(clean_html)
# 3. 持久化存储
with open(OUTPUT_FILE, "a", encoding="utf-8") as f:
f.write(json.dumps(data, ensure_ascii=False) + "\n")
print(f"提取成功:{data}")
except Exception as e:
print(f"发生错误:{e}")
if __name__ == "__main__":
main()
方案对比与优势分析
在这个例子中,如果网站明天将价格标签从 div.product-price 改为 span.cost-value,传统的 BeautifulSoup 或 Scrapy 代码必须修改选择器逻辑才能运行。而在上述 AI 方案中,只要页面上依然清晰展示了价格数字和货币符号,模型就能准确识别并输出 JSON,代码无需任何改动。
这种基于语义的提取方式,将开发者的精力从"维护选择器"转移到了"设计 Prompt"和"验证数据质量"上。虽然单次调用的成本略高于本地解析,但考虑到大幅降低的维护人力和时间成本,特别是在面对反爬策略复杂、页面结构频繁迭代的场景时,这种"以算力换稳定性"的策略显得尤为划算。
通过将 Python 的工程化能力与大模型的认知能力结合,我们不再是编写脆弱的规则脚本,而是在构建具备一定"容错性"和"适应性"的智能数据管道。这不仅是技术的升级,更是解决数据采集痛点的一种更优雅的思维路径。