nodejs爬虫系统

课程目录

  1. 爬虫以及robots协议介绍
  2. 配置爬虫系统开发环境
  3. 爬虫实战

爬虫以及robots协议介绍

爬虫,是一种自动获取网页内容的程序。是搜索引擎的重要组成部分,因此搜索引擎优化很大程度上就是针对爬虫而做出的优化。

robots.txt 是一个文本文件,是一个协议不是命令,是爬虫要查看的第一个文件。robots.txt 文件告诉爬虫在服务器上什么文件可以被查看,搜索机器人会按照该文件内容确定访问范围。

配置爬虫系统开发环境

需要用到的Node模块:

  • Express
  • Request
  • Cheerio

本文是使用express创建项目

bash 复制代码
mkdir spider
npm init
npm install express request cheerio

// 或者用express创建项目
express spider
cd spider
npm install request cheerio

爬虫实战

js 复制代码
var express = require('express');
var app = express();
var request = require('request');
var cheerio = require('cheerio');

app.get('/', function(req, res) {
    request('http://www.google.com', function(error, response, body) {
        if (!error && response.statusCode === 200) {
            console.log(body);
            $ = cheerio.load(body); // 当前$是一个拿到了整个body的前端选择器
            res.send('hello world');
        }
    });
});

app.listen(3000);

参考

相关推荐
维他奶糖6122 分钟前
Python 实战:Boss 直聘职位信息爬虫开发全解析
开发语言·爬虫·python
xcLeigh26 分钟前
Python高效数据采集实战:基于IPIDEA代理的全方位教程
爬虫·python·数据采集·代理·request·ipidea
深蓝电商API37 分钟前
Scrapy信号机制:监控爬虫全生命周期
爬虫·python·scrapy
C++实习生37 分钟前
Visual C++ 2005 Express 中文版
express·c++20
张彦峰ZYF6 小时前
QLExpress 字符串能力解析:机制、用法与工程实践
字符串·express·qlexpress规则表达力
biyezuopinvip8 小时前
基于uni-app和Express的问答对战小程序的设计与实现(论文)
小程序·uni-app·毕业设计·论文·express·毕业论文·问答对战小程序的设计与实现
fo安方17 小时前
软考~系统规划与管理师考试——真题篇——章节——第6章 云资源规划——解析版
dubbo·项目管理·系统·软考·pmp·规划
天意pt19 小时前
Idempotency 幂等性 - 点赞和投票功能
前端·javascript·express
天天进步20151 天前
从脚本到服务:5 分钟通过 Botasaurus 将你的爬虫逻辑转化为 Web API
前端·爬虫
深蓝电商API1 天前
Scrapy 爬虫异常处理与重试机制优化
爬虫·python·scrapy