nodejs爬虫系统

课程目录

  1. 爬虫以及robots协议介绍
  2. 配置爬虫系统开发环境
  3. 爬虫实战

爬虫以及robots协议介绍

爬虫,是一种自动获取网页内容的程序。是搜索引擎的重要组成部分,因此搜索引擎优化很大程度上就是针对爬虫而做出的优化。

robots.txt 是一个文本文件,是一个协议不是命令,是爬虫要查看的第一个文件。robots.txt 文件告诉爬虫在服务器上什么文件可以被查看,搜索机器人会按照该文件内容确定访问范围。

配置爬虫系统开发环境

需要用到的Node模块:

  • Express
  • Request
  • Cheerio

本文是使用express创建项目

bash 复制代码
mkdir spider
npm init
npm install express request cheerio

// 或者用express创建项目
express spider
cd spider
npm install request cheerio

爬虫实战

js 复制代码
var express = require('express');
var app = express();
var request = require('request');
var cheerio = require('cheerio');

app.get('/', function(req, res) {
    request('http://www.google.com', function(error, response, body) {
        if (!error && response.statusCode === 200) {
            console.log(body);
            $ = cheerio.load(body); // 当前$是一个拿到了整个body的前端选择器
            res.send('hello world');
        }
    });
});

app.listen(3000);

参考

相关推荐
IT=>小脑虎12 小时前
Python爬虫零基础学习知识点详解【基础版】
爬虫·python·学习
xiangxiongfly91514 小时前
Koa 使用总结
node·koa
suoh's Blog16 小时前
安装node低版本报错:The system cannot find the file specified.
node·nvm·node安装
深蓝电商API17 小时前
Scrapy ImagesPipeline和FilesPipeline自定义使用
爬虫·python·scrapy
深蓝电商API18 小时前
Scrapy与Splash结合爬取JavaScript渲染页面
javascript·爬虫·python·scrapy
小白学大数据19 小时前
随机间隔在 Python 爬虫中的应用实践
开发语言·c++·爬虫·python
Python大数据分析@19 小时前
我常用的一个爬虫利器,自动采集视频数据
爬虫
电商API&Tina21 小时前
合规电商数据采集 API|多平台实时数据抓取,告别爬虫封号风险
大数据·开发语言·前端·数据库·爬虫·python
这里是杨杨吖21 小时前
SpringBoot+Vue古建筑文化宣传交流系统 附带详细运行指导视频
vue.js·spring boot·系统·古建筑·文化宣传
tang777891 天前
爬虫如何绕过绕过“5秒盾”Cloudflare:从浏览器指纹模拟到Rust求解之不完全指南
开发语言·爬虫·rust·cloudflare