Ozon 商品页数据解析与提取 API

Ozon 官方 Seller API 没有直接提供 "关键词搜索商品页" 的公开接口 ,只能获取自己店铺 的商品数据。要实现 "关键词→商品列表→详情解析提取",主流方案是:第三方采集 API(无需卖家权限)自建爬虫。下面是完整方案与可用接口。


一、第三方关键词商品页数据 API(推荐,开箱即用)

1. TMAPI(Ozon 关键词搜索 + 详情采集)

  • 接口GET https://api.tmapi.top/ozon/search
  • 参数
    • keyword:俄语关键词(如 ноутбук
    • page:页码(默认 1)
    • limit:每页数量(默认 50)
    • token:你的密钥
  • 返回:关键词搜索结果列表(商品 ID、标题、价格、主图、店铺、评分、销量、是否广告)
  • 详情补全 :拿到 product_id 后,调用 https://api.tmapi.top/ozon/item/detail?product_id=xxx 拉取完整详情(属性、描述、多图、规格、库存、评论)

2. OzonRobots(萝卜头)关键词采集 API

  • 接口POST https://api.ozontool.com/v1/search/keyword
  • 参数keywordpagesort(价格 / 销量 / 评分)
  • 返回:商品列表 + 排名、广告位、物流时效、评价数、评分
  • 优势:支持批量关键词、自动翻页、导出 Excel/JSON

3. iWeb Data Scraping Ozon Keyword API

  • 接口GET https://api.iwebdatascraping.com/ozon/keyword-search
  • 参数qcountrypage
  • 返回:结构化商品数据,含价格、库存、卖家、类目、URL

二、自建方案:关键词搜索页爬虫 + 详情解析(技术可控)

1. 关键词搜索页抓取(示例 URL)

  • 搜索 URL:https://www.ozon.ru/search/?from_global=true&text={俄语关键词}
  • 翻页:&page={n}
  • 排序:&sorting={price/price_desc/score/activity}

2. 商品详情页抓取(示例 URL)

  • 详情 URL:https://www.ozon.ru/product/{product_id}-{slug}/

3. 解析提取核心字段(JSON 结构示例)

json

复制代码
{
  "keyword": "ноутбук",
  "page": 1,
  "products": [
    {
      "product_id": 12345678,
      "title": "Ноутбук Lenovo IdeaPad 5 15ITL05",
      "price": 59990,
      "old_price": 69990,
      "discount": 14,
      "brand": "Lenovo",
      "category": "Ноутбуки",
      "images": ["https://..."],
      "rating": 4.7,
      "reviews_count": 1245,
      "seller": "ООО ТехноМаркет",
      "is_ad": false,
      "stock": "В наличии",
      "attributes": {
        "Процессор": "Intel Core i5-1135G7",
        "Оперативная память": "16 ГБ",
        "Накопитель": "512 ГБ SSD"
      },
      "description": "Полное описание товара..."
    }
  ]
}

4. 技术栈建议

  • Pythonrequests + BeautifulSoup / parsel(轻量)
  • Scrapy:适合大规模批量采集
  • 代理:必须使用俄罗斯 / 欧洲住宅代理(防封)
  • 反爬:随机 UA、请求间隔≥3 秒、验证码处理(可接入 2Captcha)
相关推荐
在放️10 分钟前
Python 爬虫 · PyQuery 模块基础
爬虫·python
我是唐青枫3 小时前
Php Doctrine ORM 实战详解:从实体映射到查询、关联与事务
php
数据知道3 小时前
指纹浏览器本地存储“孤岛化”:IndexedDB、LocalStorage、SessionStorage 的安全隔离
爬虫·安全·数据采集·指纹浏览器
juesdo3 小时前
array_search()函数的用法
web安全·php
ch3nyuyu7 小时前
socket套接字
开发语言·php
leagsoft_10039 小时前
零信任选型五刀法——零信任怎么选?五个问题,五条红线
开发语言·php
yyuuuzz10 小时前
云服务器软件部署的几个常见问题
运维·服务器·开发语言·网络·云计算·php·apache
juesdo10 小时前
青岑CTF web入门 EZCMD系列
web安全·网络安全·php
RisunJan10 小时前
Linux命令-php(PHP语言的命令行接口)
linux·php
艾莉丝努力练剑12 小时前
【Linux网络】NAT、内网穿透、内网打洞
linux·运维·服务器·网络·计算机网络·udp·php