C#学习调用OpenMcdf模块解析ole数据的基本用法(2)

暂时没有找到OLE文件中\x01Ole10Native流的数据结构,下载了OffVis软件浏览及解析OLE文件。OffVis(Microsoft Office Visualization Tool)是微软官方发布的Office文件格式可视化分析工具,主要用于安全研究、格式解析和文档修复,支持通过树状视图+十六进制联动方式将OLE文件解析为可视化的层级结构。
  使用OffVis打开保存xml文件的OLE文件,双击\x01Ole10Native流所在条目的Data属性,如下图所示,窗口左侧显示OLE文件中Data属性保存的二进制数据,结合大模型给出的从\x01Ole10Native流提取原始数据的示例代码(代码有问题,没法直接运行),对数据流进行分析,开头4个字节应该为流数据大小,接着2个字节不清楚含义,然后就是原始文件名称及路径,这两个字符串都是以00结尾,然后4个字节不清楚含义,再紧跟4个字节,应该是指定后续字符串的字节数(看着也是原始文件临时路径),该字符串后面的4个字节应该是保存的原始文件的字节数,紧接着的就是原始文件的数据。

  根据上述分析,编写了简单的\x01Ole10Native流解析程序,提取原始文件并保存到本地。由于前两个字符串并没有长度说明,只能通过从第7个字节开始查找00结尾的方式读取字符串,也不知道编码方式,暂时写死使用ASCII解码。示例代码及效果如下所示,之前保存到word文档中的xml文件和mp3文件都算小文件,全都可以将原始数据提出来保存,不过由于xml文件的名称不包含中文,可以正常读取和保存,而mp3文件的名称是中文,解析出来的文件名还是乱码,使用Unicode解码也是乱码,只能临时取个其它名字保存。

csharp 复制代码
private string ReadNullTerminatedString(BinaryReader reader, Encoding encoding)
{
    var bytes = new List<byte>();
    byte b;
    while ((b = reader.ReadByte()) != 0)
    {
        bytes.Add(b);
    }
    return encoding.GetString(bytes.ToArray());
}

private void btnReadInfo_Click(object sender, EventArgs e)
{
    RootStorage rs = RootStorage.Open(txtPath.Text, FileMode.Open);
    CfbStream stream;

    if (rs.TryOpenStream("\u0001Ole10Native", out stream))
    {
        byte[] data = new byte[stream.Length]; 
        stream.Read(data, 0, data.Length);

        // 解析Ole10Native流(包含原始文件数据)
        using (MemoryStream ms = new MemoryStream(data))
        using (BinaryReader reader = new BinaryReader(ms))
        {
            // 读取Ole10Native标头
            int nativeDataSize = reader.ReadInt32(); // 原始数据大小
            reader.ReadInt16();//跳过2字节

            // 读取文件名长度和文件名
            string fileName = ReadNullTerminatedString(reader,Encoding.ASCII);
            string filePath = ReadNullTerminatedString(reader, Encoding.ASCII);

            reader.ReadInt32();//跳过4字节

            int filePathLength = reader.ReadInt32();//文件路径长度
            if(filePathLength>0)
            {
                string filePath1= new string(reader.ReadChars(filePathLength));
            }

            int embeddedDataSize=reader.ReadInt32(); // 原始文件大小
            if(embeddedDataSize>0)
            {
                byte[] embeddata=reader.ReadBytes(embeddedDataSize);
                File.WriteAllBytes($"extracted_{fileName}", embeddata);
            }           
        }
    }
}

参考文献:

1\]https://github.com/ironfede/openmcdf \[2\]https://www.cnblogs.com/dengchj/p/15267390.html \[3\]https://learn.microsoft.com/en-us/openspecs/office_file_formats/ms-doc/f7983581-d107-4a1f-b5f7-f3650e777c04 \[3\]https://wenku.csdn.net/answer/o7oarkndk8 \[4\]https://wenku.csdn.net/answer/13y75gvusr

相关推荐
晨星shine3 天前
GC、Dispose、Unmanaged Resource 和 Managed Resource
后端·c#
用户298698530143 天前
.NET 文档自动化:Spire.Doc 设置奇偶页页眉/页脚的最佳实践
后端·c#·.net
用户3667462526743 天前
接口文档汇总 - 2.设备状态管理
c#
用户3667462526743 天前
接口文档汇总 - 3.PLC通信管理
c#
Ray Liang4 天前
用六边形架构与整洁架构对比是伪命题?
java·python·c#·架构设计
Scout-leaf7 天前
WPF新手村教程(三)—— 路由事件
c#·wpf
用户298698530147 天前
程序员效率工具:Spire.Doc如何助你一键搞定Word表格排版
后端·c#·.net
mudtools8 天前
搭建一套.net下能落地的飞书考勤系统
后端·c#·.net
玩泥巴的9 天前
搭建一套.net下能落地的飞书考勤系统
c#·.net·二次开发·飞书
唐宋元明清21889 天前
.NET 本地Db数据库-技术方案选型
windows·c#