安装 Node.js

首先,我们需要安装 Node.js 和相关的库,如 request 和 cheerio。

bash 复制代码
npm install request cheerio

然后,我们可以使用以下代码来爬取网页内容:

javascript 复制代码
const request = require('request');
const cheerio = require('cheerio');


request({
    url: 'jshk.com.cn',
    headers: {
        'proxy': 'http://' + proxyHost + ':' + proxyPort
    }
}, (error, response, body) => {
    if (!error && response.statusCode == 200) {
        const $ = cheerio.load(body);
        console.log($('h1').text());
    }
});

每行代码的解释如下:

  1. 导入了 request 和 cheerio 库。
  2. 设置了代理信息。
  3. 发送了一个 GET 请求到指定的 URL。
  4. 如果请求成功并且状态码为 200,就加载返回的 HTML 内容。
  5. 使用 cheerio 库来解析 HTML,并打印出所有 h1 标签的文本内容。

这只是一个简单的示例,实际的爬虫程序可能需要处理更复杂的情况,比如处理重定向、处理登录认证、处理分页等等。

相关推荐
子竹聆风19 小时前
Feapder框架UpdateItem使用技巧:如何优雅地实现"只更新有值字段"
爬虫
吴秋霖4 天前
主流反爬虫、反作弊防护与风控对抗手段
爬虫·算法·反爬虫技术
hui函数4 天前
scrapy框架-day02
后端·爬虫·python·scrapy
用户051610461675 天前
爬虫 API 技术全解析:从原理到实战的高效数据采集指南
爬虫·api
xiaoxiongip6666 天前
动态ip适合挂什么项目
网络·爬虫·python·网络协议·tcp/ip·ip
q567315237 天前
自动化拨号爬虫体系:虚拟机集群部署与增量管理
运维·爬虫·网络协议·自动化
电商API_180079052477 天前
淘宝商品视频批量自动化获取的常见渠道分享
java·爬虫·自动化·网络爬虫·音视频
果壳~8 天前
【Python】爬虫html提取内容基础,bs4
爬虫·python·html
jay神8 天前
基于Python的商品爬取与可视化系统
爬虫·python·数据分析·毕业设计·可视化系统
华科云商xiao徐8 天前
如何在C语言环境中借助Linux库构建高效网络爬虫
爬虫·数据挖掘·数据分析