nodejs爬虫系统

课程目录

  1. 爬虫以及robots协议介绍
  2. 配置爬虫系统开发环境
  3. 爬虫实战

爬虫以及robots协议介绍

爬虫,是一种自动获取网页内容的程序。是搜索引擎的重要组成部分,因此搜索引擎优化很大程度上就是针对爬虫而做出的优化。

robots.txt 是一个文本文件,是一个协议不是命令,是爬虫要查看的第一个文件。robots.txt 文件告诉爬虫在服务器上什么文件可以被查看,搜索机器人会按照该文件内容确定访问范围。

配置爬虫系统开发环境

需要用到的Node模块:

  • Express
  • Request
  • Cheerio

本文是使用express创建项目

bash 复制代码
mkdir spider
npm init
npm install express request cheerio

// 或者用express创建项目
express spider
cd spider
npm install request cheerio

爬虫实战

js 复制代码
var express = require('express');
var app = express();
var request = require('request');
var cheerio = require('cheerio');

app.get('/', function(req, res) {
    request('http://www.google.com', function(error, response, body) {
        if (!error && response.statusCode === 200) {
            console.log(body);
            $ = cheerio.load(body); // 当前$是一个拿到了整个body的前端选择器
            res.send('hello world');
        }
    });
});

app.listen(3000);

参考

相关推荐
b***66612 小时前
Python 爬虫实战案例 - 获取社交平台事件热度并进行影响分析
开发语言·爬虫·python
q***649713 小时前
头歌答案--爬虫实战
java·前端·爬虫
源码之家15 小时前
基于python租房大数据分析系统 房屋数据分析推荐 scrapy爬虫+可视化大屏 贝壳租房网 计算机毕业设计 推荐系统(源码+文档)✅
大数据·爬虫·python·scrapy·数据分析·推荐算法·租房
用户7851278147019 小时前
item_get接口详解:高效获取某鱼商品详情数据
爬虫
喝酒没肉不香20 小时前
重装Windows10 22H2系统开机弹出当前页面脚本发生错误弹窗怎么解决?
系统
孤狼warrior1 天前
公司信息建设库数据 使用调用堆栈的JS逆向爬虫
javascript·爬虫
艾莉丝努力练剑1 天前
【自动化测试实战篇】Web自动化测试实战:从用例编写到报告生成
前端·人工智能·爬虫·python·pycharm·自动化·测试
天蓝色的鱼鱼1 天前
前端小白Express入门:初识Web框架与项目搭建
前端·node.js·express
k***85841 天前
使用Node.js搭配express框架快速构建后端业务接口模块Demo
node.js·express
1***s6322 天前
Python爬虫反爬策略,User-Agent与代理IP
开发语言·爬虫·python