通过代码实现Excel转Pdf

序言

在数字化时代,数据的转换和呈现方式对于提高工作效率和信息共享至关重要。Excel作为微软推出的一款功能强大的电子表格软件,广泛应用于数据处理、分析和可视化。然而,Excel文件的格式限制了其在不同平台和设备上的通用性。PDF(Portable Document Format)文件格式以其跨平台兼容性和稳定性而广受欢迎,能够确保文档在不同设备和操作系统上保持原貌。 不过在.net平台下,想要实现 Excel 转 Pdf确有一些麻烦,网上资源不少,但都不是很完美,本人找了很久,要么收费,要么转换时无法保留Excel的样式,或者平台兼容性不好。前段时间在github上闲逛,还真被我发现了一些宝贝,今天分享出来,希望能帮到需要的朋友。

实现思路

如果要直接将Excel转为Pdf比较困难,至少我没有发现好的方法,如果有人知道更直接的方法,还请大家评论区告诉我一声。网上一般的做法是,先将Excel转换为Html,在将Html转换为Pdf,我也采取这一思路。 Excel转Html的过程,用的是这个库:ExccelToHtml.Core,可惜没人给Star,我先给一个。Html转Pdf用的是 ChromeHtmlToPdf,这个库依赖Chrome浏览器,因此需要先安装Chrome浏览器,它的特点是跨平台,还可以将url地址直接转成Pdf。

调用代码

csharp 复制代码
using ChromiumHtmlToPdfLib;
using ChromiumHtmlToPdfLib.Enums;
using ChromiumHtmlToPdfLib.Settings;
using Excel2PdfDemo.Excel2Html;

await Excel2Pdf("test.xlsx", "test.pdf");

async Task Excel2Pdf(string excelFileName, string savedFileName)
{
    var html = await Excel2Html(excelFileName, "test.html");

    await Html2Pdf(savedFileName, html, null);
}

async ValueTask Html2Pdf(string savedFileName, string? html, string? url)
{
    if (string.IsNullOrWhiteSpace(html) && string.IsNullOrWhiteSpace(url)) return;
    var pageSettings = new PageSettings
    {
        PrintBackground = true
    };
    
    await using var converter = new Converter();
    if (!string.IsNullOrWhiteSpace(url))
        await converter.ConvertToPdfAsync(new ConvertUri(url), savedFileName, pageSettings);
    else
        await converter.ConvertToPdfAsync(html, savedFileName, pageSettings);
}

async Task<string> Excel2Html(string excelFilePath, string? savedFileName = null)
{
    await using var stream = new FileStream(excelFilePath, FileMode.Open,
        FileAccess.ReadWrite);
    var result = await ExcelToHtmlConverter.GenerateUiAsync(stream);
    var html = result.ToString();
    if (!string.IsNullOrWhiteSpace(savedFileName))
        await File.WriteAllTextAsync(savedFileName, result.ToString());

    return html;
}

说明:调用代码没什么好说的,提前准备了一个 test.xlsx 文件,按照 github 说明调用即可。

效果展示

  • 原excel如下图:
  • 转换后的pdf如下图:

问题发现

看截图,大家应该发现了吧,转换之后的pdf完全不是我想要的那个样子,有几个问题:

  1. 左边有一串序号,应该是excel转html时,把excel的序号列给渲染出来了
  2. 转换后的pdf被"限宽"了,本来只有一页,结果硬生生的被"切了一刀"。
  3. 在pdf底部,多了一个 Sheet1字样,这个在大部分场景下是不需要的。

代码改造之旅

针对问题1和3,阅读过源码后,发现了改造的入口点,请看截图及代码:

ini 复制代码
//取消Excel2Html源码中的 序号列
private static string RemoveNumberColumn(string html)
{
    var tableDoc = new HtmlDocument();
    tableDoc.LoadHtml(html);
    var table = tableDoc.DocumentNode.SelectSingleNode("//table");
    var cells = table.SelectNodes("(//td|//th)");
    return cells.Where(IsFirstColumn).Aggregate(html, (current, cell) => current.Replace(cell.OuterHtml, ""));
}

private static bool IsFirstColumn(HtmlNode cell)
{
    var row = cell.ParentNode;
    var firstCell = row.FirstChild;
    var r= Equals(cell, firstCell);
    return r;
}

问题2,看过文档发现没有直接设置pdf横向的相关设置,只能将页面规格,由默认的A4改为A2,请看截图: 改造之后,再看看效果:

结束语

随着代码的调试和问题的逐步解决,我们不仅成功地将Excel文件转换为PDF格式,而且在这个过程中获得了宝贵的经验。这个过程教会我们,面对技术挑战时,耐心和细致的分析是解决问题的关键。 我们通过这次实践,不仅加深了对编程语言和库的理解,还学习了如何高效地处理文件格式转换。这不仅仅是一个技术实现的过程,更是一个不断学习和成长的过程。

相关推荐
红尘散仙2 小时前
我把终端小说阅读器接上了 AI Agent:TRNovel 现在能用 skill 生成书源了
人工智能·后端·rust
卷毛的技术笔记4 小时前
告别硬编码!Spring AI Alibaba 实现 AI Agent 智能工具调用(Tool Calling)
java·人工智能·后端·python·spring·ai编程
会编程的土豆4 小时前
Go 语言反射(Reflection)详解
开发语言·后端·golang
喵个咪4 小时前
GoWind Toolkit Go后端代码生成 完整全流程实战
后端·go·orm
basketball6165 小时前
Go 语言从入门到进阶:4. 数组和MAP使用方法总结
开发语言·后端·golang
qq_2518364575 小时前
SpringBoot+Vue 共享电池柜管理系统 完整实现 前后端分离项目实战 完整代码
vue.js·spring boot·后端
zhangxingchao5 小时前
AI 大模型核心六:量化、Workflow 与 Agent、多轮 RAG
前端·人工智能·后端
IT_陈寒6 小时前
Vite打包时遇到的坑,原来问题出在这里
前端·人工智能·后端
ayqy贾杰7 小时前
基层管理的三板斧,在AI时代行不通了
前端·后端·团队管理
Apifox7 小时前
Apifox 5 月更新|Postman 导入优化、Runner 支持非 root 运行、请求代码自动带鉴权
前端·后端·安全