安装 Node.js

首先,我们需要安装 Node.js 和相关的库,如 request 和 cheerio。

bash 复制代码
npm install request cheerio

然后,我们可以使用以下代码来爬取网页内容:

javascript 复制代码
const request = require('request');
const cheerio = require('cheerio');


request({
    url: 'jshk.com.cn',
    headers: {
        'proxy': 'http://' + proxyHost + ':' + proxyPort
    }
}, (error, response, body) => {
    if (!error && response.statusCode == 200) {
        const $ = cheerio.load(body);
        console.log($('h1').text());
    }
});

每行代码的解释如下:

  1. 导入了 request 和 cheerio 库。
  2. 设置了代理信息。
  3. 发送了一个 GET 请求到指定的 URL。
  4. 如果请求成功并且状态码为 200,就加载返回的 HTML 内容。
  5. 使用 cheerio 库来解析 HTML,并打印出所有 h1 标签的文本内容。

这只是一个简单的示例,实际的爬虫程序可能需要处理更复杂的情况,比如处理重定向、处理登录认证、处理分页等等。

相关推荐
喵手11 小时前
Python爬虫零基础入门【第七章:动态页面入门(Playwright)·第3节】优先 API:用 Network 找接口,回到 Requests(更稳定)!
爬虫·python·playwright·python爬虫实战·python爬虫工程化实战·python爬虫零基础入门·优先 api
喵手13 小时前
Python爬虫零基础入门【第六章:增量、去重、断点续爬·第3节】幂等去重:同一条数据反复跑也不会重复入库!
爬虫·python·爬虫实战·python爬虫工程化实战·零基础python爬虫教学·增量、去重、断点续爬·幂等去重
深蓝电商API13 小时前
Selenium多窗口切换与Cookie管理
爬虫·python·selenium·测试工具
喵手14 小时前
Python爬虫零基础入门【第六章:增量、去重、断点续爬·第1节】增量采集:只抓新增/更新(新手也能做)!
爬虫·python·python爬虫实战·python爬虫工程化实战·python爬虫零基础入门·增量、去重·增量采集
0思必得015 小时前
[Web自动化] 爬虫URL去重
运维·爬虫·python·selenium·自动化
介一安全17 小时前
渗透信息收集爬虫工具 Katana 使用指南
爬虫·测试工具·网络安全·安全性测试
喵手17 小时前
Python爬虫零基础入门【第六章:增量、去重、断点续爬·第2节】断点续爬:失败队列、重放、任务状态!
爬虫·python·python爬虫实战·python爬虫工程化实战·python爬虫零基础入门·增量、去重、断点续爬·断点续爬
喵手17 小时前
Python爬虫零基础入门【第七章:动态页面入门(Playwright)·第1节】Playwright 第一次:打开页面、等待元素、拿到渲染后 HTML!
爬虫·python·爬虫实战·动态页面·playwright·python爬虫工程化实战·零基础python爬虫教学
深蓝电商API18 小时前
Selenium处理弹窗、警报和验证码识别
爬虫·python·selenium
深蓝电商API18 小时前
Selenium模拟滚动加载无限下拉页面
爬虫·python·selenium