首先,得明确爬虫的目标。我选的是个大型电商网站,它页面的商品价格经常变动,而且部分数据是通过Ajax异步加载的,传统HTTP请求抓不到完整内容。这时候,Puppeteer就派上用场了------它本质上是一个无头浏览器,能执行JavaScript代码,完美应对这种动态渲染的页面。我用的环境是Node.js 14以上版本,安装Puppeteer很简单,直接npm install puppeteer就行。不过要注意,它自带Chromium,如果网络不好可能会下载失败,可以用puppeteer-core加本地Chrome来替代。
接下来是代码实现部分。我先写了个基本脚本,启动浏览器实例,打开目标页面。这里有个小技巧,设置userAgent和视窗大小,能减少被网站反爬虫机制识别的风险。然后,用page.goto()方法导航到商品列表页,等页面加载完成后,用page.evaluate()函数注入自定义JS代码来提取数据。比如,我通过DOM选择器获取商品名称、价格和折扣标签,把这些信息存入数组。如果页面有分页,还可以用循环自动点击"下一页"按钮,直到抓完所有数据。下面是一段核心代码示例:
在实际操作中,我遇到了几个坑。一个是网站有频率限制,太快了会返回429错误,所以得加个delay,用page.waitForTimeout()在每个请求间暂停几秒。另一个问题是有些元素加载慢,得用page.waitForSelector()确保DOM就绪再抓取。此外,电商网站常有验证码或登录验证,我这里运气好没碰到,但如果遇到的话,可以考虑用代理IP轮换,或者模拟登录会话。Puppeteer还支持截图和PDF导出,挺方便的,我顺便用它生成了数据报告。
数据抓下来后,我存成了JSON文件,后续用Node.js的fs模块写了个简单脚本,定期运行并对比价格变化。这个案例虽然简单,但扩展性很强,比如可以集成到邮件通知系统,价格一降就自动发提醒。总的来说,JavaScript爬虫在Node.js环境下挺强大的,尤其适合处理前端复杂的网站。不过,得提醒一下,爬虫行为要遵守网站robots.txt和法律法规,别滥用导致封IP。
最后,我觉得学习爬虫不光是为了省时间,还能加深对Web工作原理的理解。下次我打算试试用Cheerio解析静态页面,对比下性能差异。如果有朋友想深入,推荐多看看Puppeteer官方文档,里面有很多高级功能,比如拦截网络请求、处理文件下载等。希望这个案例对大家有帮助,欢迎交流指正!