nodejs爬虫系统

课程目录

  1. 爬虫以及robots协议介绍
  2. 配置爬虫系统开发环境
  3. 爬虫实战

爬虫以及robots协议介绍

爬虫,是一种自动获取网页内容的程序。是搜索引擎的重要组成部分,因此搜索引擎优化很大程度上就是针对爬虫而做出的优化。

robots.txt 是一个文本文件,是一个协议不是命令,是爬虫要查看的第一个文件。robots.txt 文件告诉爬虫在服务器上什么文件可以被查看,搜索机器人会按照该文件内容确定访问范围。

配置爬虫系统开发环境

需要用到的Node模块:

  • Express
  • Request
  • Cheerio

本文是使用express创建项目

bash 复制代码
mkdir spider
npm init
npm install express request cheerio

// 或者用express创建项目
express spider
cd spider
npm install request cheerio

爬虫实战

js 复制代码
var express = require('express');
var app = express();
var request = require('request');
var cheerio = require('cheerio');

app.get('/', function(req, res) {
    request('http://www.google.com', function(error, response, body) {
        if (!error && response.statusCode === 200) {
            console.log(body);
            $ = cheerio.load(body); // 当前$是一个拿到了整个body的前端选择器
            res.send('hello world');
        }
    });
});

app.listen(3000);

参考

相关推荐
devnullcoffee6 小时前
2026年亚马逊数据采集与反爬虫对抗技术深度解析
爬虫·scrape api·亚马逊数据追踪·亚马逊数据 api·亚马逊反爬虫·爬虫对抗
Irene199112 小时前
nodejs:nvm vs fnm 详细对比
nodejs·nvm·fnm
Irene199112 小时前
已有 WSL 环境的情况下,在 Windows 本地安装 Node.js(附:VSCode 的三种工作模式)
nodejs·开发环境
aiguangyuan13 小时前
Nest 与 TypeORM Cli 集成
node·后端开发·nest
Wang's Blog13 小时前
Nodejs-HardCore: 模块管理与I/O操作详解
开发语言·nodejs
heartbeat..1 天前
JavaWeb 核心:HttpServletRequest 请求行、请求头、请求参数完整梳理
java·网络·web·request
电商API&Tina1 天前
【电商API接口】多电商平台数据API接入方案(附带实例)
运维·开发语言·数据库·chrome·爬虫·python·jenkins
Wang's Blog1 天前
Nodejs-HardCore: 入门指南之从核心特性到流式应用开发
nodejs
code tsunami1 天前
如何将 Helium 与 CapSolver 集成,实现无缝 CAPTCHA 自动化解决
运维·数据库·人工智能·爬虫·python·自动化
电商API_180079052471 天前
淘宝商品数据爬虫技术实践指南
大数据·数据库·人工智能·爬虫