使用 Python 爬取淘宝商品详情数据需要注意合法性 和反爬机制。淘宝有严格的反爬虫策略,直接爬取可能导致 IP 被封、账号受限等,且需遵守《电子商务法》及网站 robots 协议。以下是技术实现思路(仅供学习参考,请勿用于商业用途):
一、核心挑战与应对
- 反爬机制:淘宝会检测 User-Agent、Cookie、请求频率,甚至使用验证码、滑块验证。
 - 动态加载:商品数据多通过 JavaScript 动态渲染,直接请求 HTML 难以获取完整信息。
 - 登录限制:部分商品详情需登录后查看,需处理登录状态。
 
淘宝/天猫获得淘宝商品详情 API 返回值说明
item_get-获得淘宝商品详情
taobao.item_get
公共参数
| 名称 | 类型 | 必须 | 描述 | 
|---|---|---|---|
| key | String | 是 | 调用key(必须以GET方式拼接在URL中) | 
| secret | String | 是 | 调用密钥 | 
| api_name | String | 是 | API接口名称(包括在请求地址中)[item_search,item_get,item_search_shop等] | 
| cache | String | 否 | [yes,no]默认yes,将调用缓存的数据,速度比较快 | 
| result_type | String | 否 | [json,jsonu,xml,serialize,var_export]返回数据格式,默认为json,jsonu输出的内容中文可以直接阅读 | 
| lang | String | 否 | [cn,en,ru]翻译语言,默认cn简体中文 | 
| version | String | 否 | API版本 | 
请求参数
请求参数:num_iid=652874751412&is_promotion=1
参数说明:num_iid:淘宝商品ID
is_promotion:是否获取取促销价
响应参数
Version: Date:2022-04-04
| 名称 | 类型 | 必须 | 示例值 | 描述 | 
|---|---|---|---|---|
| item | item[] | 1 | 宝贝详情数据(部分商品获取不到) | 
二、实现思路(基于 Selenium 模拟浏览器)
使用 Selenium 模拟真实用户浏览行为,绕过部分反爬,步骤如下:
1. 环境准备
安装依赖:
pip install selenium webdriver-manager
        2. 代码示例(获取商品基本信息)
python
运行
from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from webdriver_manager.chrome import ChromeDriverManager
import time
import random
# 初始化浏览器(模拟真实用户)
options = webdriver.ChromeOptions()
# 添加随机User-Agent
user_agents = [
    "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36",
    "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/15.0 Safari/605.1.15"
]
options.add_argument(f"user-agent={random.choice(user_agents)}")
# 禁用自动化控制特征
options.add_experimental_option("excludeSwitches", ["enable-automation"])
options.add_experimental_option("useAutomationExtension", False)
driver = webdriver.Chrome(service=Service(ChromeDriverManager().install()), options=options)
# 规避webdriver检测
driver.execute_cdp_cmd("Page.addScriptToEvaluateOnNewDocument", {
    "source": """
        Object.defineProperty(navigator, 'webdriver', {
            get: () => undefined
        })
    """
})
def get_taobao_item_detail(item_id):
    url = f"https://item.taobao.com/item.htm?id={item_id}"
    driver.get(url)
    
    try:
        # 等待页面加载(处理可能的登录弹窗,若有则手动登录一次后保存Cookie)
        WebDriverWait(driver, 10).until(
            EC.presence_of_element_located((By.CSS_SELECTOR, ".tb-main-title"))
        )
        
        # 随机延迟,模拟人类浏览
        time.sleep(random.uniform(2, 4))
        
        # 提取商品信息(选择器可能随页面更新而变化,需自行调试)
        item = {
            "title": driver.find_element(By.CSS_SELECTOR, ".tb-main-title").text.strip(),
            "price": driver.find_element(By.CSS_SELECTOR, ".tb-rmb-num").text.strip(),
            "sales": driver.find_element(By.CSS_SELECTOR, ".tm-ind-sellCount .tm-count").text.strip(),
            "shop": driver.find_element(By.CSS_SELECTOR, ".tb-shop-name a").text.strip()
        }
        print("商品信息:", item)
        return item
    
    except Exception as e:
        print("获取失败:", str(e))
        return None
    finally:
        # 关闭浏览器(实际使用可保持连接,复用Cookie)
        # driver.quit()
        pass
# 示例:爬取某个商品(替换为实际商品ID)
get_taobao_item_detail("1234567890")  # 此处ID为示例,需替换为真实商品ID
        三、关键优化(反爬应对)
- Cookie 持久化:手动登录一次后,保存 Cookie 到文件,后续请求携带 Cookie 避免重复登录。
 - 代理 IP 池:使用代理服务(如阿布云)轮换 IP,避免本地 IP 被封。
 - 随机行为模拟 :
- 随机请求间隔(2-5 秒)
 - 模拟鼠标滚动、点击等操作
 
 - 解析动态接口 :通过浏览器开发者工具(F12)分析网络请求,找到返回 JSON 数据的接口(如
https://h5api.m.taobao.com/h5/mtop.taobao.detail.getdetail/6.0/),直接请求接口效率更高(需破解签名参数,难度较大)。 
四、注意事项
- 合法性:淘宝商品数据受版权保护,未经允许爬取可能涉嫌侵权,建议通过淘宝开放平台(如 商品API接口)获取授权数据。
 - 反爬风险:即使优化后,仍可能被检测,导致账号封禁或 IP 限制。
 - 页面变化:淘宝频繁更新页面结构,选择器(CSS/XPath)需定期调试更新。