nodejs爬虫系统

课程目录

  1. 爬虫以及robots协议介绍
  2. 配置爬虫系统开发环境
  3. 爬虫实战

爬虫以及robots协议介绍

爬虫,是一种自动获取网页内容的程序。是搜索引擎的重要组成部分,因此搜索引擎优化很大程度上就是针对爬虫而做出的优化。

robots.txt 是一个文本文件,是一个协议不是命令,是爬虫要查看的第一个文件。robots.txt 文件告诉爬虫在服务器上什么文件可以被查看,搜索机器人会按照该文件内容确定访问范围。

配置爬虫系统开发环境

需要用到的Node模块:

  • Express
  • Request
  • Cheerio

本文是使用express创建项目

bash 复制代码
mkdir spider
npm init
npm install express request cheerio

// 或者用express创建项目
express spider
cd spider
npm install request cheerio

爬虫实战

js 复制代码
var express = require('express');
var app = express();
var request = require('request');
var cheerio = require('cheerio');

app.get('/', function(req, res) {
    request('http://www.google.com', function(error, response, body) {
        if (!error && response.statusCode === 200) {
            console.log(body);
            $ = cheerio.load(body); // 当前$是一个拿到了整个body的前端选择器
            res.send('hello world');
        }
    });
});

app.listen(3000);

参考

相关推荐
愚公搬代码4 小时前
【愚公系列】《Python网络爬虫从入门到精通》055-Scrapy_Redis分布式爬虫(安装Redis数据库)
数据库·爬虫·python
患得患失9497 小时前
【后端】【python】Python 爬虫常用的框架解析
开发语言·爬虫·python
愚公搬代码9 小时前
【愚公系列】《Python网络爬虫从入门到精通》058-自定义分布式爬取诗词排行榜数据
分布式·爬虫·python
不会飞的鲨鱼9 小时前
【某比特币网址请求头部sign签名】RSA加密逆向分析
javascript·爬虫·python
北漂程序员学习10 小时前
如何避免被目标网站识别为爬虫?
爬虫·python·scrapy·flask·scipy
是周一吗12 小时前
爬虫入门学习
爬虫·学习
dme.13 小时前
python爬虫复习
开发语言·爬虫·python
亿牛云爬虫专家17 小时前
容器化爬虫部署:基于K8s的任务调度与自动扩缩容设计
爬虫·容器·kubernetes·自动化·k8s·爬虫代理·代理ip
z_mazin1 天前
正则表达式在爬虫中的应用:匹配 HTML 和 JSON 的技巧
javascript·爬虫·正则表达式