使用 Node.js 和 Cheerio 爬取网站图片

写一个关于图片爬取的小案例

爬取效果

使用插件如下:

复制代码
{
  "dependencies": {
    "axios": "^1.6.0",
    "cheerio": "^1.0.0-rc.12",
    "request": "^2.88.2"
  }
}

新建一个config.js配置文件

复制代码
// 爬取图片网站
const url = 'http://m.hydcd.com/cy/fkccy/index9.htm'//可以自行修改网址
// http://www.hydcd.com/cy/fkccy/index.htm
// http://m.hydcd.com/cy/fkccy/
const path = require('path');
//图片下载文件夹
const imgDir = path.join(__dirname, 'img')
 
module.exports.url = url
module.exports.imgDir = imgDir

找到需要下载的文件原元素位置

复制代码
const cheerio = require('cheerio')

function findImg(dom, callback) {
  let $ = cheerio.load(dom,{decodeEntities: false});

  //找到图片的位置 并获取图片链接
  $('table tbody tr td  img').each(function (i, elem) {

    let imgSrc = $(this).attr('src');
    let alt = $(this).attr('alt');
    callback(imgSrc, i,alt)
  })
}
module.exports.findImg = findImg;

const request = require('request')
const path = require('path')
const config = require('./config')
const analyze = require('./analyze')
const fs = require('fs')
 
function start() {
  request(config.url, function (err, res, body) {
    console.log('start');
    if (!err && res) {
      console.log('start');

      analyze.findImg(body, download,{decodeEntities: false});
    }
  })
}
//这个图片地址链接前缀
let imgUrlPath = "http://m.hydcd.com/cy/fkccy/"
function download(imgUrl, i,alt) {
    console.log(imgUrl,"11111")
  let txt = imgUrl.split('images/')[1];
  request(imgUrlPath+imgUrl).pipe(fs.createWriteStream(path.join(config.imgDir,  txt), {
    'encoding': 'UTF-8',
  }))
}
 
start();

以下是一个使用 Node.js 和 Cheerio 爬取网站图片的示例代码:

复制代码
const axios = require('axios');
const cheerio = require('cheerio');
const fs = require('fs');

// 定义要爬取的网页 URL
const url = 'https://example.com';

// 发起 GET 请求获取网页内容
axios.get(url)
  .then(response => {
    // 使用 Cheerio 加载网页内容
    const $ = cheerio.load(response.data);

    // 定义一个数组来保存图片 URL
    const imageUrls = [];

    // 遍历页面中的图片标签
    $('img').each((index, element) => {
      // 获取图片的 src 属性值
      const imageUrl = $(element).attr('src');
      // 将图片的 URL 添加到数组中
      imageUrls.push(imageUrl);
    });

    // 下载图片
    imageUrls.forEach((imageUrl, index) => {
      // 发起 GET 请求获取图片内容
      axios.get(imageUrl, { responseType: 'stream' })
        .then(response => {
          // 创建一个可写流,将图片内容写入到文件中
          const writeStream = fs.createWriteStream(`image${index+1}.jpg`);
          // 将响应的数据流导向可写流
          response.data.pipe(writeStream);
        })
        .catch(error => {
          console.error(`下载图片失败:${error}`);
        });
    });
  })
  .catch(error => {
    console.error(`获取网页内容失败:${error}`);
  });

请注意,上述示例中的 https://example.com 是一个示例网站的 URL,你需要替换为你要爬取图片的实际网站 URL。

这段代码首先使用 Axios 发起 GET 请求获取网页内容,然后使用 Cheerio 加载网页内容,对图片标签进行遍历,获取图片的 src 属性值并保存到一个数组中。最后,通过循环遍历数组中的图片 URL,使用 Axios 再次发起 GET 请求获取图片内容,并通过可写流将图片内容写入到文件中。你可以自定义文件名和保存路径。

请注意,进行网站爬取时,一定要遵守法律法规,并注意对网站的使用限制和版权保护。同时,不要对不允许爬取的网站进行爬取,以免触犯相关法律法规并造成不良后果!!!!

相关推荐
To_OC6 小时前
LC 207 课程表:刚学图论那会儿,我连这是拓扑排序都没看出来
javascript·算法·leetcode
To_OC7 小时前
LC 208 实现 Trie 前缀树:曾被名字劝退,写完发现是送分题
javascript·算法·leetcode
天渺工作室7 小时前
实现一个adblock/adblock plus等浏览器广告拦截器检测插件
前端·javascript
阳光是sunny8 小时前
Vue 项目怎么做用户行为全链路监控?轻量插件方案详解
前端·面试·架构
ZhengEnCi8 小时前
Q04-Vite禁用CSS代码分割-解决生产环境样式加载顺序混乱问题
前端·vue.js·vite
九酒8 小时前
AI Agent 开发踩坑记:口播功能非得用 APP 原生实现吗?
前端·人工智能·agent
Jackson__9 小时前
做了一段时间的AI coding后,我终于搞清了 CLI 和 MCP 的区别
前端·agent·ai编程
IT_陈寒11 小时前
JavaScript项目实战经验分享
前端·人工智能·后端
用户479492835691512 小时前
6w star,GitHub 趋势第一的 Ponytail,这个agent插件到底在火什么
前端·后端
薛定喵的谔13 小时前
我开源了一个精致的 Next.js 博客模板:Skyplume
前端·前端框架·next.js