Python 爬虫获得淘宝商品详情数据【淘宝商品API】

电商数据girl2025-08-26 9:11

使用 Python 爬取淘宝商品详情数据需要注意合法性 和反爬机制。淘宝有严格的反爬虫策略，直接爬取可能导致 IP 被封、账号受限等，且需遵守《电子商务法》及网站 robots 协议。以下是技术实现思路（仅供学习参考，请勿用于商业用途）：

一、核心挑战与应对

反爬机制：淘宝会检测 User-Agent、Cookie、请求频率，甚至使用验证码、滑块验证。
动态加载：商品数据多通过 JavaScript 动态渲染，直接请求 HTML 难以获取完整信息。
登录限制：部分商品详情需登录后查看，需处理登录状态。

淘宝/天猫获得淘宝商品详情 API 返回值说明

item_get-获得淘宝商品详情

taobao.item_get

公共参数

名称	类型	必须	描述
key	String	是	调用key（必须以GET方式拼接在URL中）
secret	String	是	调用密钥
api_name	String	是	API接口名称（包括在请求地址中） $item_search,item_get,item_search_shop等$
cache	String	否	$yes,no$ 默认yes，将调用缓存的数据，速度比较快
result_type	String	否	$json,jsonu,xml,serialize,var_export$ 返回数据格式，默认为json，jsonu输出的内容中文可以直接阅读
lang	String	否	$cn,en,ru$ 翻译语言，默认cn简体中文
version	String	否	API版本

请求参数

请求参数：num_iid=652874751412&is_promotion=1

参数说明：num_iid:淘宝商品ID

is_promotion:是否获取取促销价

响应参数

Version: Date:2022-04-04

名称	类型	必须	示例值	描述
item	item\[\]	1		宝贝详情数据(部分商品获取不到)

二、实现思路（基于 Selenium 模拟浏览器）

使用 Selenium 模拟真实用户浏览行为，绕过部分反爬，步骤如下：

1. 环境准备

安装依赖：

复制代码

pip install selenium webdriver-manager

2. 代码示例（获取商品基本信息）

python

运行

复制代码

from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from webdriver_manager.chrome import ChromeDriverManager
import time
import random

# 初始化浏览器（模拟真实用户）
options = webdriver.ChromeOptions()
# 添加随机User-Agent
user_agents = [
    "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36",
    "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/15.0 Safari/605.1.15"
]
options.add_argument(f"user-agent={random.choice(user_agents)}")
# 禁用自动化控制特征
options.add_experimental_option("excludeSwitches", ["enable-automation"])
options.add_experimental_option("useAutomationExtension", False)

driver = webdriver.Chrome(service=Service(ChromeDriverManager().install()), options=options)
# 规避webdriver检测
driver.execute_cdp_cmd("Page.addScriptToEvaluateOnNewDocument", {
    "source": """
        Object.defineProperty(navigator, 'webdriver', {
            get: () => undefined
        })
    """
})

def get_taobao_item_detail(item_id):
    url = f"https://item.taobao.com/item.htm?id={item_id}"
    driver.get(url)
    
    try:
        # 等待页面加载（处理可能的登录弹窗，若有则手动登录一次后保存Cookie）
        WebDriverWait(driver, 10).until(
            EC.presence_of_element_located((By.CSS_SELECTOR, ".tb-main-title"))
        )
        
        # 随机延迟，模拟人类浏览
        time.sleep(random.uniform(2, 4))
        
        # 提取商品信息（选择器可能随页面更新而变化，需自行调试）
        item = {
            "title": driver.find_element(By.CSS_SELECTOR, ".tb-main-title").text.strip(),
            "price": driver.find_element(By.CSS_SELECTOR, ".tb-rmb-num").text.strip(),
            "sales": driver.find_element(By.CSS_SELECTOR, ".tm-ind-sellCount .tm-count").text.strip(),
            "shop": driver.find_element(By.CSS_SELECTOR, ".tb-shop-name a").text.strip()
        }
        print("商品信息：", item)
        return item
    
    except Exception as e:
        print("获取失败：", str(e))
        return None
    finally:
        # 关闭浏览器（实际使用可保持连接，复用Cookie）
        # driver.quit()
        pass

# 示例：爬取某个商品（替换为实际商品ID）
get_taobao_item_detail("1234567890")  # 此处ID为示例，需替换为真实商品ID

三、关键优化（反爬应对）

Cookie 持久化：手动登录一次后，保存 Cookie 到文件，后续请求携带 Cookie 避免重复登录。
代理 IP 池：使用代理服务（如阿布云）轮换 IP，避免本地 IP 被封。
随机行为模拟 ：
- 随机请求间隔（2-5 秒）
- 模拟鼠标滚动、点击等操作
解析动态接口 ：通过浏览器开发者工具（F12）分析网络请求，找到返回 JSON 数据的接口（如https://h5api.m.taobao.com/h5/mtop.taobao.detail.getdetail/6.0/），直接请求接口效率更高（需破解签名参数，难度较大）。

四、注意事项

合法性：淘宝商品数据受版权保护，未经允许爬取可能涉嫌侵权，建议通过淘宝开放平台（如商品API接口）获取授权数据。
反爬风险：即使优化后，仍可能被检测，导致账号封禁或 IP 限制。
页面变化：淘宝频繁更新页面结构，选择器（CSS/XPath）需定期调试更新。

上一篇：CRC Press CRC 出版社

下一篇：GPIO子系统自主实现（简单版）

热门推荐

01GitHub 镜像站点 02如何新建文件夹？电脑新建文件夹的4种方法 03国内可直接用、免费额度/永久免费的大模型API清单（含 SiliconFlow、火山、阿里、智谱、百度、Kimi、DeepSeek、DMXAPI 等）042026年7月AI圈大地震：GPT-5.6被政府限制、Claude入驻Slack、Anthropic自研芯片 05微信历史版本含下载地址（ Windows PC | 安卓 | MAC ）及设置微信不更新 062026 国产 AI 大模型横评：DeepSeek、通义千问、Kimi、文心一言、星火、豆包谁更能打？07AI 编程 IDE 全景解析 2026：Agent 全面接管开发链路 08Agnes AI 免费 API 接入指南：文本、生图、生视频，一套接口全免费 09历年考研数学一、数学二、数学三真题试卷及答案PDF 102026开年大模型最新对比解析及场景落地指南