AI 智能爬虫实战

1 概述

构建基于 AI 大模型的智能爬虫。

AI 智能爬虫的主要优势在于自主获取数据和抗干扰性强。

传统的爬虫依赖固定的 CSS 选择器或 XPath 等,一旦网页改版,代码就会失效。而基于 AI 的爬虫则是让模型去"读"网页,像人一样找到目标数据在哪里,而不是依赖固定的数据获取和解析代码。

2 实战案例

2.1 需求

百度热搜 AI 爬虫:使用 python ,基于 AI 大模型实现一个爬虫,爬虫内容为:获取百度首页(即 https://www.baidu.com/)中"百度热搜"里的标题列表

2.2 核心思路

  • 获取网页内容 (Fetch): 使用 requests 库获取 HTML(需伪装 User-Agent)。
  • 预处理 (Pre-process): 网页 HTML 极其庞大,直接扔给大模型会消耗大量 Token 且容易超长。我们需要用 BeautifulSoup 进行粗略清洗,只保留文本或大致的容器。
  • AI 提取 (AI Parse): 将清洗后的内容投喂给大模型(这里以 OpenAI 格式的 API 为例,你可以换成 DeepSeek、阿里通义等兼容 OpenAI 协议的模型),让它输出 JSON 格式的标题列表。

2.3 依赖

requests

beautifulsoup4

openai

2.4 代码实现

(1)代码实现如下所示

python 复制代码
import json
import os

import requests
from bs4 import BeautifulSoup
from openai import OpenAI

# --- 配置区域 ---
# 这里以 OpenAI 官方 API 为例,你也可以换成 DeepSeek / 通义千问 / kimi 的 API Key 和 Base URL
# API_KEY = "your-api-key-here"
# BASE_URL = "https://api.openai.com/v1"  # 如果用别的模型,修改这里
# MODEL_NAME = "gpt-4o-mini"  # 或者是 deepseek-chat, qwen-turbo 等

# 读取环境变量中配置的模型信息
BASE_URL = os.getenv("BASE_URL")
API_KEY = os.getenv("API_KEY")
MODEL_NAME = os.getenv("MODEL_NAME")


def fetch_baidu_html():
    """
    步骤 1: 获取百度首页的 HTML
    """
    url = "https://www.baidu.com/"
    # 必须添加 Header 伪装成浏览器,否则百度会拦截
    headers = {
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36",
        "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8"
    }

    try:
        response = requests.get(url, headers=headers, timeout=10)
        response.encoding = 'utf-8'  # 确保中文不乱码
        if response.status_code == 200:
            return response.text
        else:
            print(f"请求失败,状态码: {response.status_code}")
            return None
    except Exception as e:
        print(f"发生错误: {e}")
        return None


def preprocess_html(html_content):
    """
    步骤 2: 清洗 HTML (为了节省 Token)
    """
    if not html_content:
        return None

    soup = BeautifulSoup(html_content, 'html.parser')

    # 为了减少模型的token消耗,可以只获取热搜模块的信息
    # 获取 id=s-hotsearch-wrapper 的 div内容
    hot_search_div = soup.find('div', {'id': 's-hotsearch-wrapper'})
    return hot_search_div


def extract_titles_with_ai(clean_text):
    """
    步骤 3: 调用 AI 大模型提取数据
    """
    client = OpenAI(api_key=API_KEY, base_url=BASE_URL)

    # 构造 Prompt
    prompt = f"""
    你是一个智能爬虫助手。
    请从下面的网页文本中,提取出百度热搜内容的标题。

    要求:
    1. 结果为 JSON 格式,包含 title。
    2. 如果找不到热搜内容,返回空json。

    网页文本内容如下:
    {clean_text}
    """

    try:
        response = client.chat.completions.create(
            model=MODEL_NAME,
            messages=[
                {"role": "system", "content": "You are a helpful data extraction assistant."},
                {"role": "user", "content": prompt}
            ],
            temperature=0.1,  # 低温度保证输出稳定
        )

        content = response.choices[0].message.content
        # 清理可能存在的 markdown 格式
        content = content.replace("```json", "").replace("```", "").strip()
        return json.loads(content)

    except Exception as e:
        print(f"AI 提取失败: {e}")
        return []


def main():
    print("正在访问百度首页...")
    html = fetch_baidu_html()

    if html:
        print("网页获取成功,正在预处理数据...")
        # 注意:百度首页是动态加载的,有时 requests 拿到的静态 HTML 可能不包含完整热搜
        # 如果 requests 拿不到,通常需要用 Selenium
        clean_text = preprocess_html(html)

        print("正在调用 AI 模型进行分析...")
        hot_titles = extract_titles_with_ai(clean_text)

        print("-" * 30)
        print(f"成功提取到 {len(hot_titles)} 条热搜:")
        print("-" * 30)

        for idx, title in enumerate(hot_titles, 1):
            print(f"{idx}. {title}")
    else:
        print("流程终止。")


#
if __name__ == "__main__":
    main()

(2)结果打印

相关推荐
AI360labs_atyun1 天前
腾讯推出电子牛马Marvis,好用吗?
人工智能·科技·ai
Front思1 天前
AI前端工程师需要具备能力+
前端·人工智能·ai
weixin_468466851 天前
MoneyPrinterTurbo 短视频自动化生产实战指南
运维·人工智能·自动化·大模型·音视频·moneyprinter
Smartdaili China1 天前
OpenClaw赋能AI智能体:实时联网与网页抓取
人工智能·爬虫·ai·爬取·openclaw·open claw
运维栈记1 天前
API Error: 400 Request body format invalid
linux·ai
实在智能RPA1 天前
AI Agent在制造业预测性维护上的算法精度怎样验证?深度拆解2026工业智能体实测表现
人工智能·ai
我是大AI1 天前
搜极星 GEO:让 AI 精准推荐,品牌不再隐形
大数据·人工智能·ai
Mr.Daozhi1 天前
RAG 进阶实战:跑通 Demo 后我连续翻了 6 次车,逐一修复才真正可用(含 Gradio Web 版)
前端·数据库·langchain·大模型·gradio·rag·科研工具
Agent手记1 天前
电信运营商如何用AI实现携号转网自动处理?基于实在Agent的业务自动化落地与TARS大模型解析方案
运维·人工智能·ai·自动化
实在智能RPA1 天前
AI Agent是否能处理医药研发数据中多种格式的文档?深度解析2026年智能体在生物医药领域的应用边界
人工智能·ai