C#学习调用OpenMcdf模块解析ole数据的基本用法(1)

上一篇文章介绍基于openxml的嵌入对象类EmbeddedObjectPart将word文档内的OLE对象提取出来,保存为bin文件。通过百度相关文章及咨询大模型,选用开源模块OpenMcdf解析OLE文件,OpenMCDF是一个.NET开源库,专门用于读写OLE结构化存储文件(复合文档),支持解析和操作.doc、.xls等传统Office文件格式,提供对存储、流和属性的完全访问,无需依赖Microsoft Office,该库轻量高效,常用于文档分析、元数据提取和文件修复场景。
  最开始是通过Nuget包管理器搜索并安装OpenMcdf及OpenMcdf.Extensions包,但用起来感觉不方便,且参考文献1中主要提到的部分类的用法也跟包中对应类不一样,于是下载参考文献1中的源码在本地编译,然后新建Winform项目,添加对OpenMcdf解决方案中的OpenMcdf项目和OpenMcdf.Ole项目的引用。

参考文献6详细介绍了复合文件CFB的存储结构,在OpenMcdf模块中,RootStorage类是复合文档的根存储容器,其下级结构分为Storage、Stream两种类型,Storage类型数据类似文件夹的容器结构,可嵌套包含其他Storage和Stream数据,用于组织文档的逻辑分区,Stream类型数据存储数据的二进制流,类似文件系统中的文件,包含具体内容数据。
  OpenMcdf模块的EntryInfo类用于描述OLE复合文档中的条目(存储Storage或流Stream)的元数据信息。它不直接存储数据,而是提供条目的属性描述,其Type属性(EntryType类型)标识条目类型(Storage或Stream),Name属性存储条目名称。
  通过调用RootStorage类的EnumerateEntries函数获取下级条目信息,示例代码如下所示:

csharp 复制代码
RootStorage rs = RootStorage.Open(txtPath.Text, FileMode.Open);

IEnumerable<EntryInfo> entryInfos = rs.EnumerateEntries();
foreach (EntryInfo entryInfo in entryInfos)
{
    txtFileInfo.Text += $"Name:{entryInfo.Name},Type:{entryInfo.Type}\r\n";
}



  通过查阅资料,通常名称为"\u0003ObjInfo"保存的是嵌入对象信息,为ODT结构,名称为"\u0001Ole10Native"的条目保存的是OLE对象的原始数据。
  通过调用RootStorage的TryOpenStream函数或OpenStream函数,传入条目名称可以获取条目的数据流对象(CfbStream类),然后通过从流中读取数据进一步分析数据格式。

参考文献:

1\]https://github.com/ironfede/openmcdf \[2\]https://blog.csdn.net/gitblog_00043/article/details/142279144 \[3\]https://learn.microsoft.com/en-us/openspecs/office_file_formats/ms-doc/13ba10a8-d8b2-433b-bf3b-ec238dc8f9ce?redirectedfrom=MSDN \[4\]https://wenku.csdn.net/answer/13y75gvusr \[5\]https://wenku.csdn.net/answer/o7oarkndk8 \[6\]https://www.cnblogs.com/dengchj/p/15267390.html

相关推荐
大空大地20262 小时前
面向对象编程
c#
用户298698530145 小时前
C#中如何创建目录(TOC):使用Spire.Doc for .NET实现Word TOC自动化
后端·c#·.net
The️6 小时前
STM32-FreeRTOS操作系统-软件定时器
arm开发·stm32·单片机·嵌入式硬件·mcu·c#
2301_816997888 小时前
Word版本介绍与选择
c#·word·xhtml
cgsthtm12 小时前
使用c#oracle19c和sqlsugar实现erp单据新增时单据编号自增
c#·sqlsugar·oracle19c·单据编号自增·erp单据编号
游乐码12 小时前
c#里氏替换
开发语言·c#
未来之窗软件服务12 小时前
AI人工智能(十二)C# 运行sensevoice onnx—东方仙盟练气期
开发语言·人工智能·c#·仙盟创梦ide·东方仙盟
bugcome_com12 小时前
深入理解 C# 结构体(Struct):原理、对比与最佳实践
c#
游乐码12 小时前
c#继承中的构造函数
开发语言·c#