跨境IT应用（4）：用爬虫把产品关键词排名存进数据库，让运营随时回溯

一、痛点：产品太多，人工查不过来

最初，运营部的同事将各自负责的产品的关键词排名页面链接保存在浏览器的收藏夹中，每天上午批量打开这些链接，然后挨个标签去看，找到自己产品和竞品的产品位和广告位，数一下在第几名，看看有没有AC/BS标识，有没有促销标识，最后记录在Excel表格中。

后来，公司业务规模扩张，产品数量在一年内从800多增长到数千个，还增加了4个售卖渠道，每个产品有1至10个核心关键词，虽然有"多个产品共用同一个核心关键词"的情况，但关键词总数还是来到了5w+。运营部同事叫苦，即便增加了一倍的人手，还是没法按时下班，总是需要占用休息时间对数据进行整理，加班只给调休，有些同事的调休积攒了超过200多个小时，因为工作太忙，根本没时间用。

二、方案：爬虫+数据库

每天定时抓取指定产品和竞品的关键词排名，存入数据库，并提供查询和导出成Excel功能。

这个方案的优势

定时自动运行，解放人力

这一点最直观，也最重要。

人工方案需要运营每天花不少时间手动查排名，既枯燥又容易出错。第三方工具虽然能查到实时排名，但同样需要人工去登录、查询、导出、整理。

爬虫配置好定时任务后，每天凌晨自动运行，运营上班时数据已经在库里了。他们只需要打开后台页面，看一眼趋势和异常提醒即可。从"主动查"变成了"被动看"，效率的提升是质的飞跃。

数据私有

关键词排名数据某种程度上是公司的商业情报------哪些词我们重点推，哪些竞品我们在盯，这些信息如果交给第三方平台，难保数据不会被用于其他用途。

爬虫抓取的数据完全存于公司自己的数据库，权限可控，不存在第三方看到或泄露的风险。

灵活定制，完全匹配业务需求

第三方工具通常是通用产品，只能提供标准化的功能。而我们的业务需求在不断变化：

某天运营想多跟踪一个长尾关键词 → 爬虫在配置表里加一行即可
想增加对某个新竞品的监控 → 同样改配置，无需改代码
想同时查看排名和该关键词下的搜索量变化 → 可以自行扩展，爬虫结合其他接口

爬虫的灵活性只受限于公司产品运营的水平，而不受限于第三方工具的功能边界。

数据粒度更细，历史可完整保留

第三方工具只保留有限时间范围内的历史数据，或者需要额外付费才能查看更早的记录。而我们的业务场景恰恰需要长期回溯------比如分析去年旺季同一时期的排名变化规律。

爬虫方案没有这个限制。只要数据库空间够用，可以保留每一天的排名快照，随时回溯到任意一天的数据。这种完整的时间序列是做趋势分析和复盘时的宝贵资产。

与内部系统无缝集成

人工查排名得到的是Excel文件，第三方工具导出的也是Excel文件，运营需要额外花时间整理、上传、归档。

而爬虫抓取的数据直接进入公司的数据库，可以：

自动触发异常告警（排名骤降自动发企业微信通知）
与ERP系统关联，查看排名变化是否与库存、价格调整有关
生成自动化周报，定时发送到运营邮箱

这些集成能力是人工和第三方工具难以做到的。

三、爬虫抓取逻辑

需人工维护一张sku关键词映射表，记录每个产品（自家产品和竞品）及其对应的核心关键词；
爬虫对关键词进行去重，然后按关键词挨个请求对应的搜索页面；
解析搜索页面，提取前100每个产品的ASIN、排名位置、AC/BS标识、促销标识、coupon等，并记录当天日期；
根据sku关键词映射表，筛选出自家产品和竞品的数据存入数据库。

四、需要注意的地方

法律与合规风险

跨境电商平台的服务条款明确禁止未经授权的爬虫行为。虽然国内跨境电商圈大家都在做，不代表没有风险。轻则封IP，重则封店铺账号（如果爬虫使用了店铺的登录凭证）。

建议：

爬虫使用独立的、未登录账号的IP和环境，绝不使用公司店铺账号的cookie或session。
控制请求频率，模拟人类正常浏览行为，不要暴力抓取。
如果条件允许，考虑使用亚马逊官方API获取部分数据，虽然有限制，但合规安全。
了解目标站点的robots.txt，虽然它没有法律强制力，但能反映站点的态度。

网站的反爬机制

平台的反爬手段一直在进化。我遇到过的情况包括：

验证码：最经典的障碍，短时间大量请求必出验证码。
IP封禁：轻则临时封几分钟，重则永久封。
请求指纹检测：除了User-Agent，还会检测TLS指纹、浏览器特征等。
动态加载：搜索结果页的部分内容可能通过Ajax异步加载，静态解析HTML拿不到数据。

建议：

使用高质量代理IP，轮换使用。
使用支持JavaScript渲染的工具（如Playwright、Puppeteer、Selenium）应对动态加载，但注意性能开销更大。
定期更新请求头，使用fake_useragent库随机生成。
监控抓取成功率，设置告警，一旦异常升高立即人工介入。

数据质量与一致性

排名数据看似简单，但有很多细节会影响它的准确性：

搜索结果的地域性：不同邮编、不同收货地址看到的搜索结果可能不同。需要统一参数（如固定使用10010纽约邮编）。
登录状态：登录账号后，亚马逊会根据历史行为个性化排序。我们选择不登录、清除cookie的方式抓取，获得相对客观的排名。
排名定义：区分自然排名和广告位。拥有Sponsored标识的是广告位，需要与自然排名位区分开来。

建议：

将上述规则文档化，确保所有人理解一致。
在数据库中记录每次抓取的参数（如使用的邮编、是否登录、抓取深度），便于后续数据分析和问题排查。

运营的预期管理

爬虫不是万能的，可能因为各种原因偶尔缺失数据，或者排名出现异常值。如果运营完全依赖爬虫，遇到问题时要让他们知道如何应对。

建议：

在后台页面中标注数据更新时间，对于缺失的日期明确显示"无数据"。
提供手动补录入口，允许运营在某些特殊情况下手工修正或补充排名记录。
建立沟通机制：爬虫出现问题时要及时周知运营，避免他们基于错误数据做决策。

五、查询与回溯

数据进了数据库，但运营同事不会写SQL。搭建一个简单的 Web 后台，提供几个核心功能：

产品排名趋势图

选择产品 → 选择关键词 → 展示该关键词下近30天的排名变化折线图。排名下降（数字变大）一目了然。

竞品对比

选择一个关键词，同时展示自家产品和多个竞品的排名曲线，便于分析竞品动作。

异常提醒

定时任务在抓取完成后，自动检查：如果某个关键词下自家产品的排名比前一天下降过多，发送企业微信通知。

数据导出

支持按日期、产品、关键词导出 CSV，方便运营做周报或月报。

后台做好后，运营同事再也不用每天手动查排名了。他们只需要打开页面，选择产品和关键词，就能看到历史趋势。而且因为数据是持久化存储的，半年前某次大促对排名的影响也可以回溯分析。