Puppeteer最新迁移和服务

背景

当前项目采用 Docker 多阶段构建的自动化流水线部署方式。每次前端上线时,都会重新从包含 puppeteer 的镜像中进行构建。由于 puppeteer 镜像体积较大、依赖复杂,导致整体构建时间较长。

然而实际情况是:puppeteer 服务本身逻辑稳定、改动极少,频繁重复构建并无必要。每次构建时都包含 puppeteer,导致资源浪费并拖慢主业务的发布流程。

因此,决定将 puppeteer 服务拆分成独立模块/镜像,与主业务解耦,以此实现如下目标:

  • 缩短主业务构建时间
  • 降低构建复杂度与失败率
  • 提升服务模块复用与独立部署能力

什么是puppeteer

Puppeteer是由Google开发和维护的一款强大的Node.js库,它为开发人员提供了高级API,以编程方式操控Chromium浏览器。与传统的浏览器自动化工具相比,Puppeteer的独特之处在于它可以运行无头浏览器,即在没有UI界面的情况下运行浏览器实例。这意味着你可以在后台运行浏览器,执行各种任务,而无需手动操作浏览器界面。

Puppeteer的背后是Chromium浏览器,这是一款开源的浏览器项目,也是Google Chrome浏览器的基础。因此,Puppeteer具备了与Chrome相同的功能和兼容性。

Puppeteer的设计目标是为开发者提供一种简单而直观的方式来自动化浏览器操作。它提供了丰富的API,可以轻松地进行页面导航、元素查找、表单填写、数据提取等操作。你可以编写脚本来模拟用户在浏览器中的操作,从而实现自动化测试、网页截图、数据爬取等任务。

此外,Puppeteer还支持无头模式,这意味着浏览器在后台运行,不会显示界面。这使得Puppeteer非常适合在服务器环境中运行,例如自动化测试的CI/CD流水线、数据挖掘和网络爬虫等场景。

puppeteer 相关

puppeteer分为puppeteerpuppeteer-core 两种,区别在于我们安装如果是puppeteer则会自动下载一个chromium,而我们安装puppeteer-core则不会下载chromium.我们使用puppeteer-core则要指定chromium路径,但是每个不同的版本,就对应不同的chromium,那我们如何下载对应版本puppeteer所对应的chromium呢?

可以看到下载的puppeteer-core中 revisions.ts中说明了chrome所对应的测试版本信息 Chrome for Testing - 官方博客说明(中文版)

在谷歌的开发帮助文档中 使用puppeteer/browsers来下载对应的chromium 执行命令

js 复制代码
    npx @puppeteer/browsers install chrome@127.0.6533.88

这样就会在当前目录下载一个用于测试版本的chrome

这样就下载好对应版本的chromium

使用puppeteer 实现截图服务

由于使用的puppeteer-core 我们需要制定chromium的路径,我们是将服务迁移出来,因此提前封装了puppeteer的镜像,镜像内包含了chromium的位置,直接写死即可

js 复制代码
const puppeteer = require('puppeteer-core');
const { logger } = require('../utils/logger');
const getScreenshot = async (req, res) => {
    try {
        const executablePath = '/root/.cache/puppeteer/chrome/linux-126.0.6478.126/chrome-linux64/chrome';
        const targetUrl = decodeURIComponent(req.query.url) || 'https://www.bohrium.com/intro';
        let width = parseInt(req.query.w) || 1280; // 默认宽度 1280
        let height = parseInt(req.query.h) || 800; // 默认高度 800
        const selector = req.query.slct || '';
        const browser = await puppeteer.launch({
            args: ['--no-sandbox', '--disable-setuid-sandbox'],
            // 这里需要指定chromium的路径
            executablePath,
        });
        const page = await browser.newPage();
        // 访问目标网页
        await page.goto(targetUrl, { waitUntil: 'networkidle2' });
        if (selector) {
            const el = await page.$('#' + selector);
            const rect = await el.boundingBox();
            width = parseInt(rect.width);
            height = parseInt(rect.height);
        }
        // 设置视口大小
        await page.setViewport({ width, height, deviceScaleFactor: 2 });

        // 截图
        const screenshot = await page.screenshot({ type: 'png' });

        await browser.close();

        // 设置响应头并发送图片
        res.set('Content-Type', 'image/png');
        res.send(screenshot);
    } catch (error) {
        console.error('Error taking screenshot:', error);
        logger.error(`Error taking screenshot: ${JSON.stringify(error)}`);
        res.status(500).send(`Error taking screenshot: ${JSON.stringify(error)}`);
    }
};

module.exports = {
    getScreenshot,
};

最后

感谢mentor给个机会,让我参与到构建优化当中,当然自己很菜只负责了迁移这个服务,,并且有了一次独立构建一个项目,并且上线的经验

相关推荐
电商API大数据接口开发Cris2 分钟前
Node.js + TypeScript 开发健壮的淘宝商品 API SDK
前端·数据挖掘·api
还要啥名字4 分钟前
基于elpis下 DSL有感
前端
一只毛驴10 分钟前
谈谈浏览器的DOM事件-从0级到2级
前端·面试
用户81686947472512 分钟前
封装ajax
前端
pengzhuofan12 分钟前
Web开发系列-第13章 Vue3 + ElementPlus
前端·elementui·vue·web
yvvvy13 分钟前
白嫖 React 性能优化?是的,用 React.memo!
前端·javascript
火车叼位21 分钟前
GSAP 动画开发者的终极利器:像素化风格 API 速查表
前端
袁煦丞41 分钟前
全球热点一键抓取!NewsNow:cpolar内网穿透实验室第630个成功挑战
前端·程序员·远程工作
qq_4591317044 分钟前
前端面试问题
前端
拾光拾趣录1 小时前
从“祖传”构造函数到 `class`
前端·javascript