nodejs爬虫系统

课程目录

  1. 爬虫以及robots协议介绍
  2. 配置爬虫系统开发环境
  3. 爬虫实战

爬虫以及robots协议介绍

爬虫,是一种自动获取网页内容的程序。是搜索引擎的重要组成部分,因此搜索引擎优化很大程度上就是针对爬虫而做出的优化。

robots.txt 是一个文本文件,是一个协议不是命令,是爬虫要查看的第一个文件。robots.txt 文件告诉爬虫在服务器上什么文件可以被查看,搜索机器人会按照该文件内容确定访问范围。

配置爬虫系统开发环境

需要用到的Node模块:

  • Express
  • Request
  • Cheerio

本文是使用express创建项目

bash 复制代码
mkdir spider
npm init
npm install express request cheerio

// 或者用express创建项目
express spider
cd spider
npm install request cheerio

爬虫实战

js 复制代码
var express = require('express');
var app = express();
var request = require('request');
var cheerio = require('cheerio');

app.get('/', function(req, res) {
    request('http://www.google.com', function(error, response, body) {
        if (!error && response.statusCode === 200) {
            console.log(body);
            $ = cheerio.load(body); // 当前$是一个拿到了整个body的前端选择器
            res.send('hello world');
        }
    });
});

app.listen(3000);

参考

相关推荐
27669582926 小时前
dy x-tt-session-dtrait 逆向分析
python·node·dy·dy逆向·抖音请求头逆向·session-dtrait·dtrait
小白学大数据6 小时前
Java 异步爬虫高效获取小红书短视频内容
java·开发语言·爬虫·python·音视频
漫游嵌入式6 小时前
《PCI EXPRESS体系结构导读》---(5)PCI总线Device号的分配
express·pcie·pci
我想吃烤肉肉6 小时前
Python 中 asyncio 是什么?
爬虫·python·自动化
@杨某11 小时前
超级鹰的使用
爬虫·selenium
小白学大数据11 小时前
百科词条结构化抓取:Java 正则表达式与 XPath 解析对比
java·开发语言·爬虫·正则表达式
漫游嵌入式12 小时前
《PCI EXPRESS体系结构导读》---(4)PCI总线Bus号初始化
express·pcie·pci
泡泡以安13 小时前
【爬虫教程】第4章:HTTP客户端库深度定制(httpx/aiohttp)
爬虫·http·httpx
搞全栈小苏14 小时前
【Python 爬虫实战】一键批量下载 Python 官网 FTP 所有版本全部文件(多线程 + 断点续传 + 禁用系统代理 完整版)
开发语言·爬虫·python
泡泡以安14 小时前
【爬虫教程】第5章:WebSocket协议解析与长连接管理
爬虫·websocket·网络协议