nodejs爬虫系统

课程目录

  1. 爬虫以及robots协议介绍
  2. 配置爬虫系统开发环境
  3. 爬虫实战

爬虫以及robots协议介绍

爬虫,是一种自动获取网页内容的程序。是搜索引擎的重要组成部分,因此搜索引擎优化很大程度上就是针对爬虫而做出的优化。

robots.txt 是一个文本文件,是一个协议不是命令,是爬虫要查看的第一个文件。robots.txt 文件告诉爬虫在服务器上什么文件可以被查看,搜索机器人会按照该文件内容确定访问范围。

配置爬虫系统开发环境

需要用到的Node模块:

  • Express
  • Request
  • Cheerio

本文是使用express创建项目

bash 复制代码
mkdir spider
npm init
npm install express request cheerio

// 或者用express创建项目
express spider
cd spider
npm install request cheerio

爬虫实战

js 复制代码
var express = require('express');
var app = express();
var request = require('request');
var cheerio = require('cheerio');

app.get('/', function(req, res) {
    request('http://www.google.com', function(error, response, body) {
        if (!error && response.statusCode === 200) {
            console.log(body);
            $ = cheerio.load(body); // 当前$是一个拿到了整个body的前端选择器
            res.send('hello world');
        }
    });
});

app.listen(3000);

参考

相关推荐
tang777898 小时前
Python爬虫代理,选短效IP还是长效IP?
爬虫·python·tcp/ip
从负无穷开始的三次元代码生活12 小时前
Python网络爬虫——知识点
爬虫·python
GDAL14 小时前
书签篮:一款基于云端的个人书签管理工具 - 技术实现与优势分析
nodejs·网站开发·书签篮
小新11015 小时前
vscode+nodejs+express 搭建一个简单网站
vscode·node.js·express
小白学大数据16 小时前
海量小说数据采集:Spark 爬虫系统设计
大数据·开发语言·爬虫·spark
曲幽18 小时前
一文理清FastAPI参数:从Query、Path到BaseModel的实战指南
python·fastapi·web·form·request·path·body·query·basemodel
Smartdaili China18 小时前
如何抓取维基百科. 完整初学者教程
爬虫·指南·抓取·wikipedia·抓取api·如何·百科
AI云原生19 小时前
如何解决 pip install 代理报错 SOCKS5 握手失败 ReadTimeoutError 问题
网络·爬虫·python·网络协议·tcp/ip·scikit-learn·pip
胡伯来了1 天前
06 - 数据收集 - 网络采集
数据采集·request·rag
java1234_小锋2 天前
[免费]基于Python的天气预报(天气预测分析)(Django+sklearn机器学习+selenium爬虫)可视化系统【论文+源码+SQL脚本】
爬虫·python·selenium·天气预报·天气预测