JavaScript爬虫应用案例

首先，得明确爬虫的目标。我选的是个大型电商网站，它页面的商品价格经常变动，而且部分数据是通过Ajax异步加载的，传统HTTP请求抓不到完整内容。这时候，Puppeteer就派上用场了------它本质上是一个无头浏览器，能执行JavaScript代码，完美应对这种动态渲染的页面。我用的环境是Node.js 14以上版本，安装Puppeteer很简单，直接npm install puppeteer就行。不过要注意，它自带Chromium，如果网络不好可能会下载失败，可以用puppeteer-core加本地Chrome来替代。

接下来是代码实现部分。我先写了个基本脚本，启动浏览器实例，打开目标页面。这里有个小技巧，设置userAgent和视窗大小，能减少被网站反爬虫机制识别的风险。然后，用page.goto()方法导航到商品列表页，等页面加载完成后，用page.evaluate()函数注入自定义JS代码来提取数据。比如，我通过DOM选择器获取商品名称、价格和折扣标签，把这些信息存入数组。如果页面有分页，还可以用循环自动点击"下一页"按钮，直到抓完所有数据。下面是一段核心代码示例：

在实际操作中，我遇到了几个坑。一个是网站有频率限制，太快了会返回429错误，所以得加个delay，用page.waitForTimeout()在每个请求间暂停几秒。另一个问题是有些元素加载慢，得用page.waitForSelector()确保DOM就绪再抓取。此外，电商网站常有验证码或登录验证，我这里运气好没碰到，但如果遇到的话，可以考虑用代理IP轮换，或者模拟登录会话。Puppeteer还支持截图和PDF导出，挺方便的，我顺便用它生成了数据报告。

数据抓下来后，我存成了JSON文件，后续用Node.js的fs模块写了个简单脚本，定期运行并对比价格变化。这个案例虽然简单，但扩展性很强，比如可以集成到邮件通知系统，价格一降就自动发提醒。总的来说，JavaScript爬虫在Node.js环境下挺强大的，尤其适合处理前端复杂的网站。不过，得提醒一下，爬虫行为要遵守网站robots.txt和法律法规，别滥用导致封IP。

最后，我觉得学习爬虫不光是为了省时间，还能加深对Web工作原理的理解。下次我打算试试用Cheerio解析静态页面，对比下性能差异。如果有朋友想深入，推荐多看看Puppeteer官方文档，里面有很多高级功能，比如拦截网络请求、处理文件下载等。希望这个案例对大家有帮助，欢迎交流指正！