当学习成为了习惯,知识也就变成了常识。 感谢各位的 关注 、点赞 、收藏 和评论。
新视频和文章会第一时间在微信公众号发送,欢迎关注:李永宁lyn
文章已收录到 github 仓库 liyongning/blog,欢迎 Watch 和 Star。
回顾
前面我们在 PDF 生成(1)--- 开篇 讲了业务背景、技术调研、技术决策和整个方案的技术架构设计。知道了为什么做,也知道了最后的成果,接下来我们就进入实操阶段,带大家从零开始逐步实现整套架构。
简介
本文我们以 百度新闻 为例,讲解如何通过 puppeteer 将百度新闻页打印成一份完整的 PDF 文件。
构建项目
- 执行
mkdir generate-pdf && cd generate-pdf && npm init -y
命令,初始化项目,然后用 vscode 打开创建项目目录。 - 执行
npm i puppeteer
安装 puppeteer - 分别创建
/server
、/fe
两个目录来存放 Node 和 前端代码,项目目录结构如下:
生成 PDF 文件
创建 /server/index.mjs
文件,进行代码编写,这里我们以 百度新闻 为例,生成一份 PDF 文件。代码主要意思是:
- 以界面化模式打开一个浏览器(browser)
- 浏览器上新开一个 Tab 页(page)
- 当前 Tab 页打开
https://news.baidu.com
链接 - 调用
page.pdf
方法将当前页打印成 PDF 文件 - 关闭浏览器
代码如下:
csharp
import puppeteer from "puppeteer";
/**
* 生成 PDF 文件
*/
async function generatePDF() {
// 启动浏览器。为了演示效果,暂时关闭无头模式,以浏览器界面形式运行
const browser = await puppeteer.launch({ headless: false })
// 打开一个新的 Tab 页
const page = await browser.newPage()
// 在当前 Tab 页上打开 "百度新闻" 页。第二个配置参数,意思是当页面触发 load 事件,并且 500ms 内没有新的网络连接,则继续往下执行
await page.goto('https://news.baidu.com', { waitUntil: ['load', 'networkidle0']})
// 将当前页打印成 PDF 文件
await page.pdf({
// PDF 文件的存储路径,如果不设置则会以二进制的形式放到内存中
path: './news.pdf',
// 以 A4 纸的尺寸来打印 PDF
format: 'A4',
// 设置 PDF 文件的页边距,避免内容完全贴边
margin: {
top: 40,
right: 40,
bottom: 40,
left: 40
},
// 打印的时候打印背景色
printBackground: true,
})
// 关闭浏览器
await browser.close()
}
generatePDF()
PDF 效果如下:
短短的 10行 代码就能将一个现成的网页打印成一份 PDF 文件,是不是很简单。
仔细观察,会发现 PDF 文件的内容比网页的实际内容要少,这因为网页随着滚动会再动态加载一些内容(懒加载)
打印完整网页(网页滚动 --- 懒加载场景)
这里我们只处理有限滚动场景,无限滚动虽然原理一样,但处理没有尽头,这块儿可以根据业务需要自行特殊处理,比如打印前 10屏。 这里用 代码来模拟滚动,让浏览器加载完整内容,核心代码如下:
生成的 PDF 文件效果如下(为了节省篇幅,只截取了 开始和结尾 两页)
完整代码:
javascript
import puppeteer from "puppeteer";
/**
* 生成 PDF 文件
*/
async function generatePDF() {
// 启动浏览器。为了演示效果,暂时关闭无头模式,以浏览器界面形式运行
const browser = await puppeteer.launch({ headless: false })
// 打开一个新的 Tab 页
const page = await browser.newPage()
// 在当前 Tab 页上打开 "百度新闻" 页。第二个配置参数,意思是当页面触发 load 事件,并且 500ms 内没有新的网络连接,则继续往下执行
await page.goto('https://news.baidu.com', { waitUntil: ['load', 'networkidle0'] })
// 滚动页面,加载完整内容。evaluate 的回调函数会在浏览器中执行,evalaute 方法的返回值是回调函数的返回值
await page.evaluate(function () {
return new Promise(resolve => {
// 通过递归来滚动页面
function scrollPage() {
// { 浏览器窗口可视区域的高度,页面的总高度,已滚动的高度 }
const { clientHeight, scrollHeight, scrollTop } = document.documentElement
// 如果滚动高度 + 视口高度 < 总高度,则继续滚动,否则就任务滚动到底部了
if (scrollTop + clientHeight < scrollHeight) {
document.documentElement.scrollTo(0, scrollTop + clientHeight)
// 加一个 setTimeout 来保证滚动的稳定性
setTimeout(() => {
scrollPage()
}, 500)
} else {
resolve()
}
}
scrollPage()
})
})
// 将当前页打印成 PDF 文件
await page.pdf({
// PDF 文件的存储路径,如果不设置则会以二进制的形式放到内存中
path: './news.pdf',
// 以 A4 纸的尺寸来打印 PDF
format: 'A4',
// 设置 PDF 文件的页边距,避免内容完全贴边
margin: {
top: 40,
right: 40,
bottom: 40,
left: 40
},
// 打印的时候打印背景色
printBackground: true,
})
// 关闭浏览器
await browser.close()
}
generatePDF()
页眉、页脚
我们经常能在 PDF 文件中看到页眉、页脚。页眉、页脚可以展示文件的作者、日期、版权、页码等信息,对于读者了解和阅读 PDF 文件有很大的帮助。那在当前技术方案下该如何为打印的 PDF 文件设置页眉、页脚呢?
puppeteer 的 page.pdf
方法提供了相应的配置参数。只需要一个 displayHeaderFooter: true
的配置项就可以
效果如下:
可以看到,页眉的左边是 PDF 文件生成的时间,中间位置是页面的 title,页脚的左边是当前页面的 URL,右边是当前页码/总页码。说实话,展示的效果还是不错的,但它的能力不止于此。
puppeteer 还提供了两个配置项,分别是 headerTemplate 和 footerTemplate,可以让使用者通过有效的 HTML 字符串来自定义页眉、页脚,并且其中还内置了一些特殊的变量,比如 date、title、url、pageNumber、totalPages,分别对应默认的页眉、页脚信息。
接下来我们实现如下效果的页眉、页脚:
核心代码如下:
在实现页眉页脚时,需要注意如下内容:
- 所有内容都需要放在模版字符串中,不能从外部引入,比如 CSS、图片,可以看到 img 的 src 值是 base64 之后的内容
- 页眉天生会有 20px 的上边距,需要处理掉。如果不知道的话,会发现无法很难做到垂直居中,甚至看到页眉页脚空白
- 页脚天生会有 18px 的下边距,需要处理掉
完整代码:
javascript
import puppeteer from "puppeteer";
import { footerTemplate, headerTemplate } from "./header-footer-template.mjs";
/**
* 生成 PDF 文件
*/
async function generatePDF() {
// 启动浏览器。为了演示效果,暂时关闭无头模式,以浏览器界面形式运行
const browser = await puppeteer.launch({ headless: false })
// 打开一个新的 Tab 页
const page = await browser.newPage()
// 在当前 Tab 页上打开 "百度新闻" 页。第二个配置参数,意思是当页面触发 load 事件,并且 500ms 内没有新的网络连接,则继续往下执行
await page.goto('https://news.baidu.com', { waitUntil: ['load', 'networkidle0'] })
// 滚动页面,加载完整内容。evaluate 的回调函数会在浏览器中执行,evalaute 方法的返回值是回调函数的返回值
await page.evaluate(function () {
return new Promise(resolve => {
// 通过递归来滚动页面
function scrollPage() {
// { 浏览器窗口可视区域的高度,页面的总高度,已滚动的高度 }
const { clientHeight, scrollHeight, scrollTop } = document.documentElement
// 如果滚动高度 + 视口高度 < 总高度,则继续滚动,否则就任务滚动到底部了
if (scrollTop + clientHeight < scrollHeight) {
document.documentElement.scrollTo(0, scrollTop + clientHeight)
// 加一个 setTimeout 来保证滚动的稳定性
setTimeout(() => {
scrollPage()
}, 500)
} else {
resolve()
}
}
scrollPage()
})
})
// 将当前页打印成 PDF 文件
await page.pdf({
// PDF 文件的存储路径,如果不设置则会以二进制的形式放到内存中
path: './news.pdf',
// 以 A4 纸的尺寸来打印 PDF
format: 'A4',
// 设置 PDF 文件的页边距,避免内容完全贴边
margin: {
top: 40,
right: 40,
bottom: 40,
left: 40
},
// 开启页眉、页脚
displayHeaderFooter: true,
// 通过 HTML 模版字符串自定义页眉、页脚
headerTemplate: headerTemplate(),
footerTemplate: footerTemplate(),
// 打印的时候打印背景色
printBackground: true,
})
// 关闭浏览器
await browser.close()
}
generatePDF()
新建 /server/header-footer-template.mjs
文件
css
/**
* 页眉页脚
* 需要注意的点:
* 1. 所有内容都需要放在模版字符串中,不能从外部引入,比如 CSS、图片,可以看到 img 的 src 值是 base64 之后的内容
* 2. 页眉天生会有 20px 的上边距,需要处理掉。如果不知道的话,会发现无法很难做到垂直居中,甚至看到页眉页脚空白
* 3. 页脚天生会有 18px 的下边距,需要处理掉
*/
import crypto from 'crypto'
// 页眉
export function headerTemplate() {
return `<div style="box-sizing: border-box; width: 100%; height: 40px; text-align: right; margin-right: 40px; margin-top: -20px; display: flex; justify-content: flex-end; align-items: center;">
<img style="width: 83px; height: 16px;" src=''></img>
</div>`
}
// 页脚
export function footerTemplate() {
return `<div style="box-sizing: border-box; width: 100%; height: 40px; display: flex; justify-content: space-between; align-items: center; margin-bottom: -18px; padding: 0 40px; font-family: PingFangSC-Regular; font-size: 12px;">
<div style="color: #fafafa;">${crypto.randomUUID()}</div>
<div style="display: flex; justify-content: space-between; align-items: center; width: 70px; color: #666666;">
<div><span>共</span> <span class="totalPages"></span> <span>页</span></div>
<div class="pageNumber" style="font-family: PingFangSC-Semibold; font-weight: bold; color: #BFBFBF;"></div>
</div>
</div>`
}
效果如下:
总结
本文我们以百度新闻页为例为大家展示了 puppeteer 的基本使用:
- 通过短短的 10行 代码将百度新闻页打印成一份 PDF 文件
- 通过 puppeteer 的 page.evaluate 方法为浏览器注入一段 JS 代码,用代码来模拟页面滚动,以解决懒加载的问题,从而保证 PDF 文件内容的完整性
- 通过自定义页眉、页脚的方式讲解了 puppeteer 中关于页眉、页脚相关选项的基本使用和其中的坑
随着本文的结束,基于 puppeteer 的 PDF 文件生成基本架子就搭起来了,而 puppeteer 在 PDF 文件生成场景下的能力也基本到头了,但现有内容在我们的技术架构中只是九牛一毛,所以,接下来的内容就全是基于 puppeteer 的增量开发了,也是整套架构的核心 和难点。
链接
- PDF 生成(1)--- 开篇 中讲解了 PDF 生成的技术背景、方案选型和决策,以及整个方案的技术架构图,所以后面的几篇一直都是在实现整套技术架构
- PDF 生成(2)--- 生成 PDF 文件 中我们通过 puppeteer 来生成 PDF 文件,并讲了自定义页眉、页脚的使用和其中的坑 。本文结束之后 puppeteer 在 PDF 文件生成场景下的能力也基本到头了,所以,接下来的内容就全是基于 puppeteer 的增量开发了,也是整套架构的核心 和难点
- PDF 生成(3)--- 封面、尾页 通过 PDF 文件合并技术让一份 PDF 文件包含封面、内容页和尾页三部分。
- PDF 生成(4)--- 目录页 通过在内容页的开始位置动态插入 HTML 锚点、页面缩放、锚点元素高度计算、换页高度补偿等技术让 PDF 文件拥有了包含准确页码 + 页面跳转能力的目录页
- PDF 生成(5)--- 内容页支持由多页面组成 通过多页面合并技术 + 样式沙箱解决了用户在复杂 PDF 场景下前端代码维护问题,让用户的开发更自由、更符合业务逻辑
- PDF 生成(6)--- 服务化、配置化 就是本文了,本系列的最后一篇,以服务化的方式对外提供 PDF 生成能力,通过配置服务来维护接入方的信息,通过队列来做并发控制和任务分类
- 代码仓库 欢迎 Star
当学习成为了习惯,知识也就变成了常识。 感谢各位的 关注 、点赞 、收藏 和评论。
新视频和文章会第一时间在微信公众号发送,欢迎关注:李永宁lyn
文章已收录到 github 仓库 liyongning/blog,欢迎 Watch 和 Star。