AI 智能爬虫实战

1 概述

构建基于 AI 大模型的智能爬虫。

AI 智能爬虫的主要优势在于自主获取数据和抗干扰性强。

传统的爬虫依赖固定的 CSS 选择器或 XPath 等,一旦网页改版,代码就会失效。而基于 AI 的爬虫则是让模型去"读"网页,像人一样找到目标数据在哪里,而不是依赖固定的数据获取和解析代码。

2 实战案例

2.1 需求

百度热搜 AI 爬虫:使用 python ,基于 AI 大模型实现一个爬虫,爬虫内容为:获取百度首页(即 https://www.baidu.com/)中"百度热搜"里的标题列表

2.2 核心思路

  • 获取网页内容 (Fetch): 使用 requests 库获取 HTML(需伪装 User-Agent)。
  • 预处理 (Pre-process): 网页 HTML 极其庞大,直接扔给大模型会消耗大量 Token 且容易超长。我们需要用 BeautifulSoup 进行粗略清洗,只保留文本或大致的容器。
  • AI 提取 (AI Parse): 将清洗后的内容投喂给大模型(这里以 OpenAI 格式的 API 为例,你可以换成 DeepSeek、阿里通义等兼容 OpenAI 协议的模型),让它输出 JSON 格式的标题列表。

2.3 依赖

requests

beautifulsoup4

openai

2.4 代码实现

(1)代码实现如下所示

python 复制代码
import json
import os

import requests
from bs4 import BeautifulSoup
from openai import OpenAI

# --- 配置区域 ---
# 这里以 OpenAI 官方 API 为例,你也可以换成 DeepSeek / 通义千问 / kimi 的 API Key 和 Base URL
# API_KEY = "your-api-key-here"
# BASE_URL = "https://api.openai.com/v1"  # 如果用别的模型,修改这里
# MODEL_NAME = "gpt-4o-mini"  # 或者是 deepseek-chat, qwen-turbo 等

# 读取环境变量中配置的模型信息
BASE_URL = os.getenv("BASE_URL")
API_KEY = os.getenv("API_KEY")
MODEL_NAME = os.getenv("MODEL_NAME")


def fetch_baidu_html():
    """
    步骤 1: 获取百度首页的 HTML
    """
    url = "https://www.baidu.com/"
    # 必须添加 Header 伪装成浏览器,否则百度会拦截
    headers = {
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36",
        "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8"
    }

    try:
        response = requests.get(url, headers=headers, timeout=10)
        response.encoding = 'utf-8'  # 确保中文不乱码
        if response.status_code == 200:
            return response.text
        else:
            print(f"请求失败,状态码: {response.status_code}")
            return None
    except Exception as e:
        print(f"发生错误: {e}")
        return None


def preprocess_html(html_content):
    """
    步骤 2: 清洗 HTML (为了节省 Token)
    """
    if not html_content:
        return None

    soup = BeautifulSoup(html_content, 'html.parser')

    # 为了减少模型的token消耗,可以只获取热搜模块的信息
    # 获取 id=s-hotsearch-wrapper 的 div内容
    hot_search_div = soup.find('div', {'id': 's-hotsearch-wrapper'})
    return hot_search_div


def extract_titles_with_ai(clean_text):
    """
    步骤 3: 调用 AI 大模型提取数据
    """
    client = OpenAI(api_key=API_KEY, base_url=BASE_URL)

    # 构造 Prompt
    prompt = f"""
    你是一个智能爬虫助手。
    请从下面的网页文本中,提取出百度热搜内容的标题。

    要求:
    1. 结果为 JSON 格式,包含 title。
    2. 如果找不到热搜内容,返回空json。

    网页文本内容如下:
    {clean_text}
    """

    try:
        response = client.chat.completions.create(
            model=MODEL_NAME,
            messages=[
                {"role": "system", "content": "You are a helpful data extraction assistant."},
                {"role": "user", "content": prompt}
            ],
            temperature=0.1,  # 低温度保证输出稳定
        )

        content = response.choices[0].message.content
        # 清理可能存在的 markdown 格式
        content = content.replace("```json", "").replace("```", "").strip()
        return json.loads(content)

    except Exception as e:
        print(f"AI 提取失败: {e}")
        return []


def main():
    print("正在访问百度首页...")
    html = fetch_baidu_html()

    if html:
        print("网页获取成功,正在预处理数据...")
        # 注意:百度首页是动态加载的,有时 requests 拿到的静态 HTML 可能不包含完整热搜
        # 如果 requests 拿不到,通常需要用 Selenium
        clean_text = preprocess_html(html)

        print("正在调用 AI 模型进行分析...")
        hot_titles = extract_titles_with_ai(clean_text)

        print("-" * 30)
        print(f"成功提取到 {len(hot_titles)} 条热搜:")
        print("-" * 30)

        for idx, title in enumerate(hot_titles, 1):
            print(f"{idx}. {title}")
    else:
        print("流程终止。")


#
if __name__ == "__main__":
    main()

(2)结果打印

相关推荐
AlfredZhao5 小时前
AI 编程工作总结:从体验问题到模块能力建设
ai·codex
aqi009 小时前
15天学会AI应用开发(八)使用向量数据库实现RAG功能
人工智能·python·大模型·ai编程·ai应用
cup111 天前
[技术复盘] Windows Python 打包实战:Nuitka 环境踩坑总结与 CI 自动化构建全指南
python·ai·环境变量·ci·nuitka·skill
aqi001 天前
15天学会AI应用开发(七)有了大模型为什么还要引入RAG
人工智能·python·大模型·ai编程·ai应用
IT王师傅1 天前
从 豆包 到 Codex CLI:一名普通开发者的 AI 工具进化路线
ai·codex cli·openclaw
岳小哥AI2 天前
Siri要接入AI了,苹果手机上一句话让GPT写文案、DeepSeek写代码的时刻来了
ai·ai基础
Artech2 天前
[MAF预定义的AIContextProvider-03]ChatHistoryMemoryProvider——赋予Agent从经验中学习的能力
ai·c#·agent·memory·maf
哥布林学者2 天前
深度学习进阶(三十一)FlashAttention:IO 感知的精确注意力
机器学习·ai
岳小哥AI3 天前
AI大模型"幻觉"从何而来?解密GPT-4、DeepSeek一本正经胡说八道的真相
ai·ai基础
vivo互联网技术3 天前
CVPR 2026 | 全新强化学习框架 BeautyGRPO:重塑真实人像
算法·大模型·cvpr·影像