Ozon 商品页数据解析与提取 API

Ozon 官方 Seller API 没有直接提供 "关键词搜索商品页" 的公开接口 ,只能获取自己店铺 的商品数据。要实现 "关键词→商品列表→详情解析提取",主流方案是:第三方采集 API(无需卖家权限)自建爬虫。下面是完整方案与可用接口。


一、第三方关键词商品页数据 API(推荐,开箱即用)

1. TMAPI(Ozon 关键词搜索 + 详情采集)

  • 接口GET https://api.tmapi.top/ozon/search
  • 参数
    • keyword:俄语关键词(如 ноутбук
    • page:页码(默认 1)
    • limit:每页数量(默认 50)
    • token:你的密钥
  • 返回:关键词搜索结果列表(商品 ID、标题、价格、主图、店铺、评分、销量、是否广告)
  • 详情补全 :拿到 product_id 后,调用 https://api.tmapi.top/ozon/item/detail?product_id=xxx 拉取完整详情(属性、描述、多图、规格、库存、评论)

2. OzonRobots(萝卜头)关键词采集 API

  • 接口POST https://api.ozontool.com/v1/search/keyword
  • 参数keywordpagesort(价格 / 销量 / 评分)
  • 返回:商品列表 + 排名、广告位、物流时效、评价数、评分
  • 优势:支持批量关键词、自动翻页、导出 Excel/JSON

3. iWeb Data Scraping Ozon Keyword API

  • 接口GET https://api.iwebdatascraping.com/ozon/keyword-search
  • 参数qcountrypage
  • 返回:结构化商品数据,含价格、库存、卖家、类目、URL

二、自建方案:关键词搜索页爬虫 + 详情解析(技术可控)

1. 关键词搜索页抓取(示例 URL)

  • 搜索 URL:https://www.ozon.ru/search/?from_global=true&text={俄语关键词}
  • 翻页:&page={n}
  • 排序:&sorting={price/price_desc/score/activity}

2. 商品详情页抓取(示例 URL)

  • 详情 URL:https://www.ozon.ru/product/{product_id}-{slug}/

3. 解析提取核心字段(JSON 结构示例)

json

复制代码
{
  "keyword": "ноутбук",
  "page": 1,
  "products": [
    {
      "product_id": 12345678,
      "title": "Ноутбук Lenovo IdeaPad 5 15ITL05",
      "price": 59990,
      "old_price": 69990,
      "discount": 14,
      "brand": "Lenovo",
      "category": "Ноутбуки",
      "images": ["https://..."],
      "rating": 4.7,
      "reviews_count": 1245,
      "seller": "ООО ТехноМаркет",
      "is_ad": false,
      "stock": "В наличии",
      "attributes": {
        "Процессор": "Intel Core i5-1135G7",
        "Оперативная память": "16 ГБ",
        "Накопитель": "512 ГБ SSD"
      },
      "description": "Полное описание товара..."
    }
  ]
}

4. 技术栈建议

  • Pythonrequests + BeautifulSoup / parsel(轻量)
  • Scrapy:适合大规模批量采集
  • 代理:必须使用俄罗斯 / 欧洲住宅代理(防封)
  • 反爬:随机 UA、请求间隔≥3 秒、验证码处理(可接入 2Captcha)
相关推荐
anzhxu1 天前
maxun爬虫机器人介绍与部署
爬虫
小心我捶你啊1 天前
提升爬虫稳定性的关键,Python爬虫代理IP解析与轮换策略
爬虫·python·tcp/ip
带娃的IT创业者1 天前
WeClaw WebSocket 连接中断诊断:从频繁掉线到稳定长连的优化之路
python·websocket·网络协议·php·fastapi·实时通信
ECT-OS-JiuHuaShan1 天前
朱梁万有递归元定理,解构西方文明中心论幻觉
开发语言·人工智能·php
xdl25992 天前
【Python学习】网络爬虫-爬取豆瓣电影评论
爬虫·python·学习
袁袁袁袁满2 天前
基于亮数据MCP与LangGraph集成实现爬虫自动化
爬虫·python·网络爬虫·数据采集·爬虫实战·自动化采集·爬虫案例
码农时代者2 天前
拒绝重复造轮子!开发者如何靠“高质量源码”实现项目高效交付?
java·python·php
前端小趴菜~时倾2 天前
python爬虫学习第二课-流程控制
爬虫·python·学习
历程里程碑2 天前
39. 从零实现UDP服务器实战(带源码) V1版本 - Echo server
服务器·开发语言·网络·c++·网络协议·udp·php
谪星·阿凯2 天前
CSRF&SSRF漏洞攻击:溯源解析与实战指南
安全·web安全·php·csrf