安装好node之后,随便找个文件夹,执行node init 初始化一个项目。然后在当前项目下创建.npmrc 可以配置国内源
js
registry=https://registry.npm.taobao.org
如果安装后抓取的页面中文没有显示出来或者乱码,那么需要安装一个字体文件,下面的是centos下的操作,随便找个中文字体就行。
shell
shell sudo yum install wqy-microhei-fonts.noarch -y
sudo yum install wqy-unibit-fonts.noarch -y
sudo yum install wqy-zenhei-fonts.noarch -y
Failed to launch the browser process! without --no-sandbox is not supported
遇到这个错误,启动的时候加上下面这俩参数即可。
js
puppeteer按错信息如下:
Error: Failed to launch the browser process!
[0805/102322.965291:ERROR:zygote_host_impl_linux.cc(90)] Running as root without --no-sandbox is not supported. See <https://crbug.com/638180.>
TROUBLESHOOTING: <https://github.com/puppeteer/puppeteer/blob/main/docs/troubleshooting.md>
解决方案:await puppeteer.launch({args: ['--no-sandbox', '--disable-setuid-sandbox']});
puppeteer-issues-290
# Linux-Centos7安装puppeteer(避免所有的坑)
PhantomJS
这个比较早啦,有些页面的现代css样式可能无法正确抓取