GraphQL接口采集：自动化发现和提取隐藏数据字段

本文将围绕 GraphQL接口采集 展开，重点介绍如何自动化发现和提取隐藏数据字段，使用 requests + Session 来构造 GraphQL 请求，配合爬虫代理、Cookie 和 User-Agent 设置，实现对 Yelp 商家信息的精准抓取。文章分为以下五个部分：

错误示例：展示常见盲目爬取方式及其弊端
正确姿势：基于 GraphQL API 的最佳实践步骤和示例代码
原因解释：解析 GraphQL 抓取相比传统抓取的优势
陷阱提示：讲解可能遇到的反爬与限流陷阱
模板推荐：提供可复用的代码模板，方便中高级用户快速上手

通过本文，你将掌握从调试网络请求到高效采集隐藏字段的全流程技巧，避免常见误区，并获得一份可直接投入使用的 Python 模板。

错误示例

盲目解析页面 HTML

很多用户在不了解 GraphQL 机制时，仍然用传统的 BeautifulSoup 解析 Yelp HTML 页面，然后通过正则或 CSS Selector 抽取数据。这种方式弊端明显：

无法获取隐藏字段：Yelp 许多数据（如商家详细属性、内部 ID）仅在 GraphQL 响应中存在，HTML 中压根不包含。
解析成本高：页面嵌套层级多，维护成本极高，一次页面结构调整可能导致抓取全部失效。
带宽浪费：下载整页 HTML，提取部分数据，浪费网络与 IO 资源。

python 复制代码

# 错误示例：直接抓取 HTML，再用 BeautifulSoup 解析
import requests
from bs4 import BeautifulSoup

resp = requests.get('https://www.yelp.com/search?find_desc=coffee&find_loc=San%20Francisco')
soup = BeautifulSoup(resp.text, 'html.parser')
for card in soup.select('.container__09f24__21w3G'):
    name = card.select_one('.link__09f24__1kwXV').text
    rating = card.select_one('.i-stars__09f24__1T6rz')['aria-label']
    # 隐藏字段无法获取......
    print(name, rating)

正确姿势

1. 利用浏览器调试定位 GraphQL 请求

打开浏览器开发者工具，切换到 Network → XHR/Fetch，输入关键词后观察到向 https://www.yelp.com/graphql 的 POST 请求，里面包含 operationName、query、variables 三部分内容。

2. 构造 GraphQL 查询

在抓包中复制请求体或手动构造，只请求所需字段（商家名称、评分、评论、地址及隐藏字段）。

3. 使用 `requests.Session` 设置爬虫代理、Cookie 和 User-Agent

python 复制代码

import requests, random
import json

# 1. 配置爬虫代理（亿牛云爬虫代理示例 www.16yun.cn）
proxy_host = "proxy.16yun.cn"
proxy_port = "31111"
proxy_user = "16YUN"
proxy_pass = "16IP"
proxy_meta = f"http://{proxy_user}:{proxy_pass}@{proxy_host}:{proxy_port}"

proxies = {
    "http": proxy_meta,
    "https": proxy_meta
}

# 2. 创建会话，并设置 Cookie 和 UA
session = requests.Session()
session.proxies.update(proxies)
session.headers.update({
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 "
                  "(KHTML, like Gecko) Chrome/90.0.4430.85 Safari/537.36",
    "Content-Type": "application/json",
    # 如需模拟登录后的 Cookie，可通过 session.cookies.update(...)
})
# 可选：保持或强制切换 IP
session.headers["Proxy-Tunnel"] = str(random.randint(1, 100000))

# 4. 构造 GraphQL 查询体
graphql_query = """
query SearchBusiness($term: String!, $location: String!, $limit: Int!) {
  search(term: $term, location: $location, limit: $limit) {
    business {
      id
      name
      rating
      location { address1 city state zip_code }
      review_count
      # 隐藏字段示例
      hiddenFields { fieldKey fieldValue }
    }
  }
}
"""
variables = {
    "term": "coffee",
    "location": "San Francisco, CA",
    "limit": 10
}
payload = {"query": graphql_query, "variables": variables}

# 5. 发送请求并解析结果
resp = session.post("https://www.yelp.com/graphql", json=payload)
data = resp.json()
for biz in data["data"]["search"]["business"]:
    print(json.dumps(biz, ensure_ascii=False, indent=2))

该方案中，使用 Session 自动管理连接池和 Cookie（ session.cookies ，并可持久化保存），通过精确的 GraphQL 查询一次获取所有目标字段，避免无效下载和解析。

原因解释

精确请求：GraphQL 允许客户端声明所需字段，减少数据量和网络开销。
高效维护：接口稳定，返回结构化 JSON，不易因前端 HTML 改动而失效。
支持隐藏数据 ：GraphQL 查询可访问 API 内部字段（如 hiddenFields），传统解析方法难以获取。

陷阱提示

API 限速：Yelp GraphQL 按数据点（points）限流，每 24h 限额 25000 点，超额后请求会被拒绝。
禁用 Introspection：部分生产环境关闭 introspection，需要逆向抓包获取请求模板。
Auth/Header 校验 ：Yelp 可能校验 Authorization 或自定义头部，抓包时需完整复制所有请求头。
Cookie 失效 ：若需登录状态，可先用 session.get 模拟登录，或手动设置 session.cookies，否则部分字段可能为空。

模板推荐

以下是可直接复用的测试模板，适合中高级用户集成到项目中：

python 复制代码

import requests, random, json

def create_session_with_proxy():
    # 亿牛云代理配置 www.16yun.cn
    proxy_meta = "http://{user}:{pass}@{host}:{port}".format(
        host="proxy.16yun.cn", port="31111",
        user="16YUN", pass="16IP"
    )
    session = requests.Session()
    session.proxies = {"http": proxy_meta, "https": proxy_meta}
    session.headers.update({
        "User-Agent": "你的UA",
        "Content-Type": "application/json",
        "Proxy-Tunnel": str(random.randint(1,999999))
    })
    return session

def fetch_yelp_businesses(term, location, limit=20):
    session = create_session_with_proxy()
    query = """
    query SearchBusiness($term: String!, $location: String!, $limit: Int!) {
      search(term: $term, location: $location, limit: $limit) {
        business {
          id name rating review_count
          location { address1 city }
          hiddenFields { fieldKey fieldValue }
        }
      }
    }
    """
    payload = {"query": query, "variables": {
        "term": term, "location": location, "limit": limit
    }}
    resp = session.post("https://www.yelp.com/graphql", json=payload)
    return resp.json().get("data", {}).get("search", {}).get("business", [])

if __name__ == "__main__":
    results = fetch_yelp_businesses("pizza", "New York, NY", 5)
    print(json.dumps(results, ensure_ascii=False, indent=2))

通过上述模板，你可以灵活调整查询字段、关键词和位置，迅速构建高效稳定的爬虫工程。适合将此模块化后嵌入到更复杂的分布式框架或调度系统中。

GraphQL接口采集：自动化发现和提取隐藏数据字段

错误示例

盲目解析页面 HTML

正确姿势

1. 利用浏览器调试定位 GraphQL 请求

2. 构造 GraphQL 查询

3. 使用 requests.Session 设置爬虫代理、Cookie 和 User-Agent

原因解释

陷阱提示

模板推荐

3. 使用 `requests.Session` 设置爬虫代理、Cookie 和 User-Agent