nodejs爬虫系统

课程目录

  1. 爬虫以及robots协议介绍
  2. 配置爬虫系统开发环境
  3. 爬虫实战

爬虫以及robots协议介绍

爬虫,是一种自动获取网页内容的程序。是搜索引擎的重要组成部分,因此搜索引擎优化很大程度上就是针对爬虫而做出的优化。

robots.txt 是一个文本文件,是一个协议不是命令,是爬虫要查看的第一个文件。robots.txt 文件告诉爬虫在服务器上什么文件可以被查看,搜索机器人会按照该文件内容确定访问范围。

配置爬虫系统开发环境

需要用到的Node模块:

  • Express
  • Request
  • Cheerio

本文是使用express创建项目

bash 复制代码
mkdir spider
npm init
npm install express request cheerio

// 或者用express创建项目
express spider
cd spider
npm install request cheerio

爬虫实战

js 复制代码
var express = require('express');
var app = express();
var request = require('request');
var cheerio = require('cheerio');

app.get('/', function(req, res) {
    request('http://www.google.com', function(error, response, body) {
        if (!error && response.statusCode === 200) {
            console.log(body);
            $ = cheerio.load(body); // 当前$是一个拿到了整个body的前端选择器
            res.send('hello world');
        }
    });
});

app.listen(3000);

参考

相关推荐
墨城烟柳Q22 分钟前
python爬取m3u8视频(思路到实现全讲解!!!)
爬虫·python·网络爬虫
API快乐传递者2 小时前
用 Python 爬取淘宝商品价格信息时需要注意什么?
java·开发语言·爬虫·python·json
B站计算机毕业设计超人3 小时前
计算机毕业设计Hadoop+大模型地震预测系统 地震数据分析可视化 地震爬虫 大数据毕业设计 Spark 机器学习 深度学习 Flink 大数据
大数据·hadoop·爬虫·深度学习·机器学习·数据分析·课程设计
墨城烟柳Q4 小时前
自动化爬虫-selenium模块万字详解
爬虫·python·selenium·自动化
B站计算机毕业设计超人8 小时前
计算机毕业设计Hadoop+PySpark深度学习游戏推荐系统 游戏可视化 游戏数据分析 游戏爬虫 Scrapy 机器学习 人工智能 大数据毕设
大数据·人工智能·爬虫·spark·课程设计·数据可视化·推荐算法
i道i11 小时前
python 爬虫 入门 六、Selenium
爬虫·python·selenium
黑金IT14 小时前
Fastify Swagger:自动化API文档生成与展示
nodejs·swagger·fastify
oliveira-time19 小时前
爬虫学习4
c++·爬虫·学习
叫我阿笑就好了1 天前
Python爬虫
ide·爬虫·python
亿牛云爬虫专家1 天前
动态与静态网站抓取的区别:从抓取策略到性能优化
爬虫·爬虫代理·网站·代理ip·抓取·动态·静态