安装 Node.js

首先,我们需要安装 Node.js 和相关的库,如 request 和 cheerio。

bash 复制代码
npm install request cheerio

然后,我们可以使用以下代码来爬取网页内容:

javascript 复制代码
const request = require('request');
const cheerio = require('cheerio');


request({
    url: 'jshk.com.cn',
    headers: {
        'proxy': 'http://' + proxyHost + ':' + proxyPort
    }
}, (error, response, body) => {
    if (!error && response.statusCode == 200) {
        const $ = cheerio.load(body);
        console.log($('h1').text());
    }
});

每行代码的解释如下:

  1. 导入了 request 和 cheerio 库。
  2. 设置了代理信息。
  3. 发送了一个 GET 请求到指定的 URL。
  4. 如果请求成功并且状态码为 200,就加载返回的 HTML 内容。
  5. 使用 cheerio 库来解析 HTML,并打印出所有 h1 标签的文本内容。

这只是一个简单的示例,实际的爬虫程序可能需要处理更复杂的情况,比如处理重定向、处理登录认证、处理分页等等。

相关推荐
tang777893 小时前
Python爬虫代理,选短效IP还是长效IP?
爬虫·python·tcp/ip
从负无穷开始的三次元代码生活7 小时前
Python网络爬虫——知识点
爬虫·python
小白学大数据10 小时前
海量小说数据采集:Spark 爬虫系统设计
大数据·开发语言·爬虫·spark
Smartdaili China12 小时前
如何抓取维基百科. 完整初学者教程
爬虫·指南·抓取·wikipedia·抓取api·如何·百科
AI云原生13 小时前
如何解决 pip install 代理报错 SOCKS5 握手失败 ReadTimeoutError 问题
网络·爬虫·python·网络协议·tcp/ip·scikit-learn·pip
java1234_小锋1 天前
[免费]基于Python的天气预报(天气预测分析)(Django+sklearn机器学习+selenium爬虫)可视化系统【论文+源码+SQL脚本】
爬虫·python·selenium·天气预报·天气预测
3824278271 天前
python3网络爬虫开发实战 第2版:使用aiohttp
开发语言·爬虫·python
APIshop1 天前
API 接口文档测试:从“能跑”到“敢上线”的完整闭环
爬虫·python
盼哥PyAI实验室1 天前
[特殊字符]️ 实战爬虫:Python 抓取【采购公告】接口数据(含踩坑解析)
开发语言·爬虫·python
小白学大数据2 天前
Python 网络爬虫:Scrapy 解析汽车之家报价与评测
开发语言·爬虫·python·scrapy