js 逆向爬取报销发票(二)

接上文,没看过的可以点击这里,juejin.cn/post/733240...。继续把上文没完成的内容补充完成。

puppeteer 介绍

Puppeteer 是一个由 Google Chrome 团队开发的 Node 库,它提供了一套高级 API 来通过 DevTools 协议控制无头 Chrome 或 Chromium。无头浏览器是没有图形界面的浏览器,它允许开发者在服务器上运行网页,进行自动化测试、抓取网页内容、生成页面截图或 PDF 等操作。

puppeteer 安装

bash 复制代码
npm i puppeteer

编写 downloadTicket 函数

遍历上文中生成的 data.json,解析出 receiptUrl 并使用 puppeteer 打开,等待页面加载完成后,可以使用 cheeroi 库来获取到发票对应的 dom 元素,然后拿到其 url,示例代码如下:

javascript 复制代码
async function downloadTicket(url) {
  const browser = await puppeteer.launch();
  const page = await browser.newPage();

  await page.goto(url, {
    waitUntil: 'networkidle0',
  });

  const content = await page.content();
  const $ = cheerio.load(content);
  const imgUrl = $('.my-gallery a').attr('href');

  console.log(imgUrl);

  await browser.close();
}

执行后我们就可以拿到这张发票对应的地址了

接下来,我们使用 request 结合 stream 来下载该发票

javascript 复制代码
const filePath = './test.png';

var stream = fs.createWriteStream(filePath);

request(imgUrl)
	.pipe(stream)
	.on('close', function () {
	    console.log('done');
	});

把这段代码放入 downloadTicket 函数中执行后,就可以看到当前目录下多了一个 test.png 的发票文件了

结构化发票文件

按照科室对发票进行分类下载,首先第一步遍历 data.json 获取到所有的科室信息,然后根据科室名称创建对应的目录,将发票下载到相应的目录

javascript 复制代码
async function main() {
  for (let record of recordList) {
    const {payTime, deptName, typeName, money, receiptUrl, receiNo} = record;    
    const dirName = category.includes(deptName) ? deptName : other;
    const filePath = `./${dirName}/${receiNo}.png`;

    if (!fs.existsSync(filePath)) {
      await downloadTicket(receiptUrl, filePath);
    } else {
      console.log('exist');
    }
  }
}

这样就大功告成了~等等,要是再有一个用于统计 excel 就更好了,也很简单

安装 node-xlsx

bash 复制代码
npm i node-xlsx -D

改造一下上面的 main 函数,把数据保存起来,最后一起写入到 excel 中,如下

javascript 复制代码
async function run() {
  const data = [['时间', '科室', '类型', '费用']];

  for (let record of recordList) {
    const {payTime, deptName, typeName, money, receiptUrl, receiNo} = record;
    data.push([payTime, deptName, typeName, money, receiptUrl]);
    const dirName = category.includes(deptName) ? deptName : other;
    const filePath = `./${dirName}/${receiNo}.png`;

    if (!fs.existsSync(filePath)) {
      await downloadTicket(receiptUrl, filePath);
    } else {
      console.log('exist');
    }
  }

  var buffer = xlsx.build([{name: 'sheet', data: data}]);
  fs.writeFileSync('result.xlsx', buffer, {flag: 'w'});
}

执行后就生成了一个 result.xlsx 文件,打开后内容如下
搞定~

相关推荐
threelab5 小时前
Three.js 物理模拟着色器 | 三维可视化 / AI 提示词
开发语言·前端·javascript·人工智能·3d·着色器
武器大师725 小时前
lv_binding_js 代码解读
开发语言·javascript·ecmascript
Patrick_Wilson7 小时前
router.replace 之后紧跟 reload,页面为什么无限刷新?
javascript·react.js·浏览器
mONESY8 小时前
JavaScript 栈、队列、数组与链表核心知识点总结
javascript·面试
ZengLiangYi8 小时前
TypeScript 项目配置:tsconfig、ESM、路径别名
javascript·typescript·aigc
晓13139 小时前
【Cocos Creator 3.x】篇——第二章 入门
前端·javascript·游戏引擎
想要成为糕糕手9 小时前
前端必修课:JavaScript 数组与数据结构底层逻辑全解析
javascript·数据结构·面试
xiaofeichaichai9 小时前
React Hooks
前端·javascript·react.js
数据知道9 小时前
C++ 层拦截:修改 Blink 引擎与 V8 绑定的底层逻辑
javascript·数据采集·指纹浏览器·风控
2301_7736436210 小时前
ceph镜像
前端·javascript·ceph