安装 Node.js

首先,我们需要安装 Node.js 和相关的库,如 request 和 cheerio。

bash 复制代码
npm install request cheerio

然后,我们可以使用以下代码来爬取网页内容:

javascript 复制代码
const request = require('request');
const cheerio = require('cheerio');


request({
    url: 'jshk.com.cn',
    headers: {
        'proxy': 'http://' + proxyHost + ':' + proxyPort
    }
}, (error, response, body) => {
    if (!error && response.statusCode == 200) {
        const $ = cheerio.load(body);
        console.log($('h1').text());
    }
});

每行代码的解释如下:

  1. 导入了 request 和 cheerio 库。
  2. 设置了代理信息。
  3. 发送了一个 GET 请求到指定的 URL。
  4. 如果请求成功并且状态码为 200,就加载返回的 HTML 内容。
  5. 使用 cheerio 库来解析 HTML,并打印出所有 h1 标签的文本内容。

这只是一个简单的示例,实际的爬虫程序可能需要处理更复杂的情况,比如处理重定向、处理登录认证、处理分页等等。

相关推荐
最晚的py7 小时前
Python抓取ZLibrary元数据
爬虫·python
深蓝电商API12 小时前
爬虫遇到AST加密怎么办?AST逆向入门到精通
爬虫
infiniteWei14 小时前
【技术人如何用爬虫+机器学习识别并屏蔽恶意广告】第1课:爬虫与广告反欺诈入门
人工智能·爬虫·机器学习
Adellle15 小时前
Java爬虫入门(2/5)
java·爬虫
嫂子的姐夫16 小时前
005-AES:采招网
爬虫·逆向·aes加密
嫂子的姐夫17 小时前
py连接mysql
数据库·爬虫·mysql
Glommer17 小时前
AST 反混淆处理示例(二)
javascript·爬虫
嫂子的姐夫18 小时前
py连接MongoDB
数据库·爬虫·mongodb
嫂子的姐夫19 小时前
py连接Redis
数据库·redis·爬虫·去重
森焱森20 小时前
当八字命理遇上软件开发:一张“流派架构图”+ 实战爬虫指南
驱动开发·爬虫·python·flask·pygame