nodejs写爬虫

javascript 复制代码
const axios = require('axios');
const fs = require('fs');
const path = require('path');
const cheerio = require('cheerio');
const { str } = require('./dataStr');


async function getImageUrls() {
    const $ = cheerio.load(str)
    let imageUrls = [];
    $('img').each((index, element) => {
        const imgSrc = $(element).attr('src'); // 获取每张图片的源地址
        if (/^https/.test(imgSrc)) { // 判断是否为外部图片
            imageUrls.push(imgSrc);
        } else if (/^\//.test(imgSrc)) { // 判断是否为相对路径
            imageUrls.push(`https:${imgSrc}`);
        }
    });
    return imageUrls;
}

const sleep = time => {
    return new Promise(function (resolve, reject) {
        setTimeout(function () {
            resolve();
        }, time);
    })
}

async function test() {
    try {
        const urls = await getImageUrls();
        console.log('urls', urls)
        if (urls !== null) {
            for (let i = 0; i < urls.length; i++) {
                const fileName = `image_${i}.gif`; // 自定义保存图片的名称及格式
                const filePath = path.join('./images2', fileName); // 构造本地保存路径
                await sleep(1500)
                try {
                    const response = await axios({
                        method: 'get',
                        url: urls[i],
                        responseType: 'stream' // 流式传输图片数据
                    });

                    response.data.pipe(fs.createWriteStream(filePath)); // 将图片数据写入本地文件
                    console.log(`Successfully downloaded ${fileName}`);
                } catch (error) {
                    console.log(`Failed to download ${fileName}: ${error}`);
                }
            }
        }
    } catch (error) {
        console.log(error);
    }
}

test();
相关推荐
TEC_INO4 分钟前
Linux50:ROCKX+RV1126视频流检测人脸
开发语言·前端·javascript
下载居14 分钟前
Node.js(Javascript运行环境) 26.1
开发语言·javascript·node.js
S1998_1997111609•X1 小时前
哈希树函数洪水泛滥污染孪生镜像导致生物量子信息泄露以钩子而爬虫植入ssd探测
爬虫·网络协议·缓存·哈希算法·开闭原则
ZC跨境爬虫2 小时前
跟着 MDN 学 HTML day_32:(AbstractRange 抽象接口与 DOM 范围操作)
前端·javascript·ui·html·音视频
捉鸭子2 小时前
QQ音乐sign vmp逆向
爬虫·python·网络安全·网络爬虫
阿赛工作室2 小时前
PageAgent的价值和使用示例
javascript·html5
盐多碧咸。。2 小时前
echarts折线图矩形选择 框选图表
前端·javascript·echarts
MXN_小南学前端3 小时前
Vue + Element UI 分页器封装:比直接用 el-pagination 更省心的通用方案
javascript·vue.js·elementui
Lkstar3 小时前
ES6+ 必备特性复习:解构、展开运算符、Symbol、Proxy
javascript·面试
半兽先生3 小时前
vue高性能下拉组件 支持上万数据不卡顿
前端·javascript·vue.js