C#学习调用OpenMcdf模块解析ole数据的基本用法(1)

上一篇文章介绍基于openxml的嵌入对象类EmbeddedObjectPart将word文档内的OLE对象提取出来,保存为bin文件。通过百度相关文章及咨询大模型,选用开源模块OpenMcdf解析OLE文件,OpenMCDF是一个.NET开源库,专门用于读写OLE结构化存储文件(复合文档),支持解析和操作.doc、.xls等传统Office文件格式,提供对存储、流和属性的完全访问,无需依赖Microsoft Office,该库轻量高效,常用于文档分析、元数据提取和文件修复场景。
  最开始是通过Nuget包管理器搜索并安装OpenMcdf及OpenMcdf.Extensions包,但用起来感觉不方便,且参考文献1中主要提到的部分类的用法也跟包中对应类不一样,于是下载参考文献1中的源码在本地编译,然后新建Winform项目,添加对OpenMcdf解决方案中的OpenMcdf项目和OpenMcdf.Ole项目的引用。

参考文献6详细介绍了复合文件CFB的存储结构,在OpenMcdf模块中,RootStorage类是复合文档的根存储容器,其下级结构分为Storage、Stream两种类型,Storage类型数据类似文件夹的容器结构,可嵌套包含其他Storage和Stream数据,用于组织文档的逻辑分区,Stream类型数据存储数据的二进制流,类似文件系统中的文件,包含具体内容数据。
  OpenMcdf模块的EntryInfo类用于描述OLE复合文档中的条目(存储Storage或流Stream)的元数据信息。它不直接存储数据,而是提供条目的属性描述,其Type属性(EntryType类型)标识条目类型(Storage或Stream),Name属性存储条目名称。
  通过调用RootStorage类的EnumerateEntries函数获取下级条目信息,示例代码如下所示:

csharp 复制代码
RootStorage rs = RootStorage.Open(txtPath.Text, FileMode.Open);

IEnumerable<EntryInfo> entryInfos = rs.EnumerateEntries();
foreach (EntryInfo entryInfo in entryInfos)
{
    txtFileInfo.Text += $"Name:{entryInfo.Name},Type:{entryInfo.Type}\r\n";
}



  通过查阅资料,通常名称为"\u0003ObjInfo"保存的是嵌入对象信息,为ODT结构,名称为"\u0001Ole10Native"的条目保存的是OLE对象的原始数据。
  通过调用RootStorage的TryOpenStream函数或OpenStream函数,传入条目名称可以获取条目的数据流对象(CfbStream类),然后通过从流中读取数据进一步分析数据格式。

参考文献:

1\]https://github.com/ironfede/openmcdf \[2\]https://blog.csdn.net/gitblog_00043/article/details/142279144 \[3\]https://learn.microsoft.com/en-us/openspecs/office_file_formats/ms-doc/13ba10a8-d8b2-433b-bf3b-ec238dc8f9ce?redirectedfrom=MSDN \[4\]https://wenku.csdn.net/answer/13y75gvusr \[5\]https://wenku.csdn.net/answer/o7oarkndk8 \[6\]https://www.cnblogs.com/dengchj/p/15267390.html

相关推荐
我是唐青枫8 小时前
C#.NET Span 深入解析:零拷贝内存切片与高性能实战
开发语言·c#·.net
咕白m62513 小时前
C# 高效复制 Word 文档内容
后端·c#
Rolay15 小时前
打印功能开发历程,解决百分之九十九的打印需求
c#·打印机·c#打印优化
小曹要微笑16 小时前
c#的异常
microsoft·c#·异常·c#的异常
河西石头18 小时前
powerconfig告别繁琐配置读写---为C#提供了一个快捷的读写配置文件的API
开发语言·c#·高效读写配置文件·c#配置文件·xml读写
Scout-leaf19 小时前
WPF新手村教程(五)— 附魔教学(绑定)
c#·wpf
宝桥南山19 小时前
Microsoft Fabric - 试一下在Blazor应用中使用 GraphQL API去连接Lakehouse
microsoft·c#·asp.net·.netcore·fabric·db
gc_229920 小时前
C#调用Microsoft.ML.OnnxRuntime和YOLO5模型时的输入数据格式分析
yolo·c#·数据预处理
猹叉叉(学习版)20 小时前
【ASP.NET CORE】 11. SignalR
笔记·后端·c#·asp.net·.netcore
bugcome_com21 小时前
C# 匿名方法与 Lambda 表达式全解析
c#