nodejs爬虫系统

课程目录

  1. 爬虫以及robots协议介绍
  2. 配置爬虫系统开发环境
  3. 爬虫实战

爬虫以及robots协议介绍

爬虫,是一种自动获取网页内容的程序。是搜索引擎的重要组成部分,因此搜索引擎优化很大程度上就是针对爬虫而做出的优化。

robots.txt 是一个文本文件,是一个协议不是命令,是爬虫要查看的第一个文件。robots.txt 文件告诉爬虫在服务器上什么文件可以被查看,搜索机器人会按照该文件内容确定访问范围。

配置爬虫系统开发环境

需要用到的Node模块:

  • Express
  • Request
  • Cheerio

本文是使用express创建项目

bash 复制代码
mkdir spider
npm init
npm install express request cheerio

// 或者用express创建项目
express spider
cd spider
npm install request cheerio

爬虫实战

js 复制代码
var express = require('express');
var app = express();
var request = require('request');
var cheerio = require('cheerio');

app.get('/', function(req, res) {
    request('http://www.google.com', function(error, response, body) {
        if (!error && response.statusCode === 200) {
            console.log(body);
            $ = cheerio.load(body); // 当前$是一个拿到了整个body的前端选择器
            res.send('hello world');
        }
    });
});

app.listen(3000);

参考

相关推荐
才华是浅浅的耐心20 分钟前
Facebook用户信息爬虫技术分析与实现详解
数据库·爬虫·python·facebook
一个天蝎座 白勺 程序猿2 小时前
Python爬虫(48)基于Scrapy-Redis与深度强化学习的智能分布式爬虫架构设计与实践
爬虫·python·scrapy
Dxy123931021611 小时前
DrissionPage 性能优化实战指南:让网页自动化效率飞升
运维·爬虫·python·性能优化·自动化
华科云商xiao徐16 小时前
分布式爬虫代理IP使用技巧
爬虫
华科云商xiao徐17 小时前
多线程爬虫使用代理IP设计指南
爬虫
layneyao17 小时前
AI数据集构建:从爬虫到标注的全流程指南
人工智能·爬虫
不写八个18 小时前
Express教程【006】:使用Express写接口
express
Dxy123931021619 小时前
DrissionPage 异常处理实战指南:构建稳健的网页自动化防线
运维·爬虫·python·自动化·drissionpage
Python大数据分析@1 天前
py爬虫的话,selenium是不是能完全取代requests?
爬虫·selenium·测试工具
无恃而安1 天前
011课程作业管理系统技术剖析:构建智能化教学管理平台
系统