nodejs爬虫系统

课程目录

  1. 爬虫以及robots协议介绍
  2. 配置爬虫系统开发环境
  3. 爬虫实战

爬虫以及robots协议介绍

爬虫,是一种自动获取网页内容的程序。是搜索引擎的重要组成部分,因此搜索引擎优化很大程度上就是针对爬虫而做出的优化。

robots.txt 是一个文本文件,是一个协议不是命令,是爬虫要查看的第一个文件。robots.txt 文件告诉爬虫在服务器上什么文件可以被查看,搜索机器人会按照该文件内容确定访问范围。

配置爬虫系统开发环境

需要用到的Node模块:

  • Express
  • Request
  • Cheerio

本文是使用express创建项目

bash 复制代码
mkdir spider
npm init
npm install express request cheerio

// 或者用express创建项目
express spider
cd spider
npm install request cheerio

爬虫实战

js 复制代码
var express = require('express');
var app = express();
var request = require('request');
var cheerio = require('cheerio');

app.get('/', function(req, res) {
    request('http://www.google.com', function(error, response, body) {
        if (!error && response.statusCode === 200) {
            console.log(body);
            $ = cheerio.load(body); // 当前$是一个拿到了整个body的前端选择器
            res.send('hello world');
        }
    });
});

app.listen(3000);

参考

相关推荐
叫我:松哥14 小时前
基于网络爬虫的在线医疗咨询数据爬取与医疗服务分析系统,技术采用django+朴素贝叶斯算法+boostrap+echart可视化
人工智能·爬虫·python·算法·django·数据可视化·朴素贝叶斯
啊啊啊~~21 小时前
新mac电脑软件安装指南(前端开发用)
macos·node·n·oh my zsh·solarized
bksheng1 天前
【SSL证书校验问题】通过 monkey-patch 关掉 SSL 证书校验
网络·爬虫·python·网络协议·ssl
叫我:松哥1 天前
优秀案例:基于python django的智能家居销售数据采集和分析系统设计与实现,使用混合推荐算法和LSTM算法情感分析
爬虫·python·算法·django·lstm·智能家居·推荐算法
~央千澈~1 天前
Go、Node.js、Python、PHP、Java五种语言的直播推流RTMP协议技术实施方案和思路-优雅草卓伊凡
java·python·go·node
xnglan2 天前
使用爬虫获取游戏的iframe地址
开发语言·爬虫·python·学习
荼蘼2 天前
python爬虫实战-小案例:爬取苏宁易购的好评
开发语言·爬虫·python
27669582922 天前
拼多多小程序 anti_content 分析
java·javascript·python·node·拼多多·anti-content·anti_content
香蕉可乐荷包蛋2 天前
爬虫基础概念
爬虫
小白学大数据3 天前
多线程Python爬虫:加速大规模学术文献采集
开发语言·爬虫·python·自动化