小红书商品笔记抓取:笔记ID与商品关联关系解析

在小红书电商生态中,笔记 ID 是内容唯一标识,商品 ID是货品唯一标识,二者的关联关系是种草归因、选品分析、流量投放的核心数据链路。本文从关联逻辑、抓取路径、字段解析、合规边界四个维度,完整拆解笔记与商品的绑定机制与采集方法。


一、笔记 ID 与商品 ID 的基础定义

  • **笔记 ID(note_id)**小红书单条笔记的唯一字符串标识,出现在 URL、接口返回值、分享链接中,是定位内容的核心主键。
  • **商品 ID(product_id/sku_id)**平台店铺商品或 SKU 的唯一编号,用于商品上架、挂载、交易、数据统计。
  • 核心关系 一条笔记可挂载 1~18 个商品,一个商品可被多篇笔记关联,形成多对多映射。

二、笔记与商品的三种关联形态

1. 官方挂载关联(强关联)

博主在编辑页点击「商品」图标,选择平台内商品完成绑定,笔记内出现可点击商品卡片。

  • 数据特征:接口items/cards字段包含完整商品 ID、标题、价格、店铺信息。
  • 适用场景:带货笔记、商单笔记、店铺自播笔记。

2. 内容提及关联(弱关联)

笔记正文 / 标签 / 图片出现商品名称、型号,但未官方挂载。

  • 数据特征:无商品 ID 字段,需通过 NLP 关键词匹配、图片 OCR 建立关联。
  • 适用场景:纯种草、口碑分析、竞品舆情。

3. 广告投放关联(付费关联)

聚光 / 乘风平台将笔记与商品绑定投放,支持单笔记多商品批量关联。

  • 数据特征:广告接口返回ad_id+product_id+note_id三元组,带投放标记。
  • 适用场景:投流效果分析、转化归因。

三、抓取笔记 ID 与商品关联的实操路径

1. 手动获取 ID(适合小批量)

  • 笔记 ID:分享链接中explore/后字符串,或详情页 URL 末尾字段。
  • 商品 ID:商品详情页 URL、购物车、订单页提取。

2. 接口抓包获取(适合批量)

  • 笔记详情接口:传入 note_id,返回items数组,直接提取关联商品 ID 列表。
  • 商品关联笔记接口:传入 product_id,返回绑定的 note_id 列表。
  • 搜索接口:按关键词检索,批量获取笔记 + 挂载商品数据。

3. 页面渲染获取(备用方案)

使用 Selenium/Playwright 渲染页面,提取 DOM 中的商品卡片 data-id,适合接口加密复杂场景。


四、核心字段解析与关联提取规则

笔记详情返回关键字段

  • note_id:笔记唯一 ID
  • items:关联商品数组,包含 product_id、sku_id、title、price、shop_id
  • type:标记是否为带货笔记
  • interact:互动数据,用于关联质量评分

提取规则

  1. 遍历items ,建立note_id → [product_id1, product_id2...]映射。
  2. 无 items 字段则判定为无官方挂载,转入文本匹配。
  3. 广告笔记优先取ad_products字段,避免数据遗漏。

五、抓取与关联分析的典型应用

  1. 种草归因按商品 ID 聚合笔记 ID,计算单商品种草笔记数量、互动均值、转化率。
  2. 爆款选品按笔记 ID 反查商品,筛选高互动低竞争货品。
  3. 投放优化定位高转化笔记 - 商品对,加大相似素材投放。
  4. 品牌舆情统计商品被提及 / 挂载的笔记量,监测口碑变化。

六、合规与反爬边界(必看)

  1. 遵守平台用户协议,禁止未经授权批量商业采集
  2. 控制请求频率,避免 IP / 账号封禁。
  3. 不采集用户隐私、未公开交易数据。
  4. 商业用途优先通过开放平台 / 官方数据工具获取授权数据。

七、总结

笔记 ID 与商品 ID 的关联,是小红书从内容到交易的关键桥梁。官方挂载通过 items 字段直连 ,精准可靠;内容提及需文本匹配,灵活但误差较高。

无论是数据分析、投放优化还是竞品调研,先理清关联关系,再设计抓取与清洗逻辑,才能构建稳定可用的商品笔记数据体系。

相关推荐
ZC跨境爬虫5 小时前
通俗易懂讲解分布式爬虫基础概念(附Scrapy-Redis实操教程)
redis·分布式·爬虫·python·scrapy
画堂秋9 小时前
网站爬取实例操作
数据库·爬虫
HP-Patience12 小时前
【Python爬虫】验证码识别技术
爬虫·python
Cha0~1 天前
搜索引擎爬虫语言识别机制详解
爬虫·搜索引擎
遇事不決洛必達1 天前
某方数据库protobuf详解
爬虫·python·protobuf
ZC跨境爬虫2 天前
纯requests+Redis实现分布式爬虫(可视化4终端,模拟4台电脑联合爬取)
redis·分布式·爬虫·python
以神为界2 天前
Python入门实操:基础语法+爬虫入门+模块使用全指南
开发语言·网络·爬虫·python·安全·web
ZC跨境爬虫2 天前
Scrapy实战:5sing原创音乐网多页数据爬取(完整可运行,附避坑指南)
爬虫·python·scrapy·html
llm大模型算法工程师weng2 天前
Python爬虫实现指南:从入门到实战
开发语言·爬虫·python