【淘宝采集项目经验分享】商品评论采集 |商品详情采集 |关键词搜索商品信息采集

商品评论采集

1、输入商品ID

2、筛选要抓取评论类型

3、填写要抓取的页数

4、立刻提交-启动测试

5、等爬虫结束后就可以到"爬取结果"里面下载数据

商品详情采集

1、输入商品ID

2、立刻提交-启动爬虫

3、等爬虫结束后就可以到"爬取结果"里面下载数据

taobao.item_get

公共参数

名称 类型 必须 描述
key String 调用key(必须以GET方式拼接在URL中)
secret String 调用密钥
api_name String API接口名称(包括在请求地址中)[item_search,item_get,item_search_shop等]
cache String [yes,no]默认yes,将调用缓存的数据,速度比较快
result_type String [json,jsonu,xml,serialize,var_export]返回数据格式,默认为json,jsonu输出的内容中文可以直接阅读
lang String [cn,en,ru]翻译语言,默认cn简体中文
version String API版本

请求参数

请求参数:num_iid=652874751412&is_promotion=1

参数说明:num_iid:淘宝商品ID

is_promotion:是否获取取促销价

响应参数

Version: Date:2022-04-04

名称 类型 必须 示例值 描述
item item[] 1 宝贝详情数据

关键词搜索商品信息采集关键词搜索商品信息采集

1、搜索关键词

2、相关分类id(选填)

3、价格开始区间(选填)

4、价格结束区间(选填)

5、获取页数(选填)

6、排序(选填)

7、立刻提交-启动爬虫

8、等爬虫结束后就可以到"爬取结果"里面下载数据

公共参数

名称 类型 必须 描述
key String 调用key(必须以GET方式拼接在URL中)
secret String 调用密钥
api_name String API接口名称(包括在请求地址中)[item_search,item_get,item_search_shop等]
cache String [yes,no]默认yes,将调用缓存的数据,速度比较快
result_type String [json,jsonu,xml,serialize,var_export]返回数据格式,默认为json,jsonu输出的内容中文可以直接阅读
lang String [cn,en,ru]翻译语言,默认cn简体中文
version String API版本

请求参数

请求参数:q=女装&start_price=0&end_price=0&page=1&cat=0&discount_only=&sort=&page_size=&seller_info=&nick=&ppath=&imgid=&filter=

参数说明:q:搜索关键字

page:页数

响应参数

Version: Date:

名称 类型 必须 示例值 描述
title String 0 法式复古山本超仙chic仙女赫本网红初春很仙法国小众裙子两件套装 商品标题
pic_url String 0 //img.alicdn.com/bao/uploaded/i3/3083218865/O1CN012FMDaiwxkenJGaM_!!0-item_pic.jpg 宝贝图片
promotion_price Float 0 178.00 优惠价
price Float 0 178.00 价格
num_iid Bigint 0 577437133060 宝贝ID
area String 0 山东 店铺所在地
detail_url String 0 //detail.tmall.com/item.htm?id=586794298909&ns=1&abbucket=0 宝贝链接
相关推荐
满昕欢喜5 小时前
SQL Server从入门到项目实践(超值版)读书笔记 20
数据库·sql·sqlserver
烛阴6 小时前
简单入门Python装饰器
前端·python
好开心啊没烦恼6 小时前
Python 数据分析:numpy,说人话,说说数组维度。听故事学知识点怎么这么容易?
开发语言·人工智能·python·数据挖掘·数据分析·numpy
面朝大海,春不暖,花不开6 小时前
使用 Python 实现 ETL 流程:从文本文件提取到数据处理的全面指南
python·etl·原型模式
失败又激情的man7 小时前
Scrapy进阶封装(第四阶段:中间件设置,动态UA,ip代理池)
爬虫·scrapy·中间件
2301_805054568 小时前
Python训练营打卡Day59(2025.7.3)
开发语言·python
JAVA学习通8 小时前
Mybatis--动态SQL
sql·tomcat·mybatis
万千思绪8 小时前
【PyCharm 2025.1.2配置debug】
ide·python·pycharm
微风粼粼9 小时前
程序员在线接单
java·jvm·后端·python·eclipse·tomcat·dubbo
云天徽上10 小时前
【PaddleOCR】OCR表格识别数据集介绍,包含PubTabNet、好未来表格识别、WTW中文场景表格等数据,持续更新中......
python·ocr·文字识别·表格识别·paddleocr·pp-ocrv5