安装 Node.js

首先,我们需要安装 Node.js 和相关的库,如 request 和 cheerio。

bash 复制代码
npm install request cheerio

然后,我们可以使用以下代码来爬取网页内容:

javascript 复制代码
const request = require('request');
const cheerio = require('cheerio');


request({
    url: 'jshk.com.cn',
    headers: {
        'proxy': 'http://' + proxyHost + ':' + proxyPort
    }
}, (error, response, body) => {
    if (!error && response.statusCode == 200) {
        const $ = cheerio.load(body);
        console.log($('h1').text());
    }
});

每行代码的解释如下:

  1. 导入了 request 和 cheerio 库。
  2. 设置了代理信息。
  3. 发送了一个 GET 请求到指定的 URL。
  4. 如果请求成功并且状态码为 200,就加载返回的 HTML 内容。
  5. 使用 cheerio 库来解析 HTML,并打印出所有 h1 标签的文本内容。

这只是一个简单的示例,实际的爬虫程序可能需要处理更复杂的情况,比如处理重定向、处理登录认证、处理分页等等。

相关推荐
冰敷逆向14 小时前
苏宁滑块VMP深入剖析(一):解混淆篇
javascript·爬虫·安全·web
APIshop14 小时前
Java爬虫1688详情api接口实战解析
java·开发语言·爬虫
hugh_oo19 小时前
100 天学会爬虫 · Day 11:如何合理控制爬虫请求频率?让访问行为更像真人
开发语言·爬虫·python
Wpa.wk21 小时前
自动化测试 - 文件上传 和 弹窗处理
开发语言·javascript·自动化测试·经验分享·爬虫·python·selenium
逆向新手1 天前
js逆向-某省特种设备aes加密研究
javascript·爬虫·python·逆向·js
sugar椰子皮1 天前
【node阅读-1】node架构了解
爬虫
Caco.D1 天前
Aneiang.Pa 高阶用法:动态爬虫 SDK 详解与实战
爬虫·aneiang.pa
有味道的男人1 天前
淘宝图片搜索(拍立淘)+ 店铺全商品爬虫 深度实战指南(Python)
开发语言·爬虫·python
一招定胜负2 天前
网络爬虫(第三部)
前端·javascript·爬虫
interception2 天前
爬虫逆向:瑞数5(华能电子)
爬虫