C#学习调用OpenMcdf模块解析ole数据的基本用法(2)

暂时没有找到OLE文件中\x01Ole10Native流的数据结构,下载了OffVis软件浏览及解析OLE文件。OffVis(Microsoft Office Visualization Tool)是微软官方发布的Office文件格式可视化分析工具,主要用于安全研究、格式解析和文档修复,支持通过树状视图+十六进制联动方式将OLE文件解析为可视化的层级结构。
  使用OffVis打开保存xml文件的OLE文件,双击\x01Ole10Native流所在条目的Data属性,如下图所示,窗口左侧显示OLE文件中Data属性保存的二进制数据,结合大模型给出的从\x01Ole10Native流提取原始数据的示例代码(代码有问题,没法直接运行),对数据流进行分析,开头4个字节应该为流数据大小,接着2个字节不清楚含义,然后就是原始文件名称及路径,这两个字符串都是以00结尾,然后4个字节不清楚含义,再紧跟4个字节,应该是指定后续字符串的字节数(看着也是原始文件临时路径),该字符串后面的4个字节应该是保存的原始文件的字节数,紧接着的就是原始文件的数据。

  根据上述分析,编写了简单的\x01Ole10Native流解析程序,提取原始文件并保存到本地。由于前两个字符串并没有长度说明,只能通过从第7个字节开始查找00结尾的方式读取字符串,也不知道编码方式,暂时写死使用ASCII解码。示例代码及效果如下所示,之前保存到word文档中的xml文件和mp3文件都算小文件,全都可以将原始数据提出来保存,不过由于xml文件的名称不包含中文,可以正常读取和保存,而mp3文件的名称是中文,解析出来的文件名还是乱码,使用Unicode解码也是乱码,只能临时取个其它名字保存。

csharp 复制代码
private string ReadNullTerminatedString(BinaryReader reader, Encoding encoding)
{
    var bytes = new List<byte>();
    byte b;
    while ((b = reader.ReadByte()) != 0)
    {
        bytes.Add(b);
    }
    return encoding.GetString(bytes.ToArray());
}

private void btnReadInfo_Click(object sender, EventArgs e)
{
    RootStorage rs = RootStorage.Open(txtPath.Text, FileMode.Open);
    CfbStream stream;

    if (rs.TryOpenStream("\u0001Ole10Native", out stream))
    {
        byte[] data = new byte[stream.Length]; 
        stream.Read(data, 0, data.Length);

        // 解析Ole10Native流(包含原始文件数据)
        using (MemoryStream ms = new MemoryStream(data))
        using (BinaryReader reader = new BinaryReader(ms))
        {
            // 读取Ole10Native标头
            int nativeDataSize = reader.ReadInt32(); // 原始数据大小
            reader.ReadInt16();//跳过2字节

            // 读取文件名长度和文件名
            string fileName = ReadNullTerminatedString(reader,Encoding.ASCII);
            string filePath = ReadNullTerminatedString(reader, Encoding.ASCII);

            reader.ReadInt32();//跳过4字节

            int filePathLength = reader.ReadInt32();//文件路径长度
            if(filePathLength>0)
            {
                string filePath1= new string(reader.ReadChars(filePathLength));
            }

            int embeddedDataSize=reader.ReadInt32(); // 原始文件大小
            if(embeddedDataSize>0)
            {
                byte[] embeddata=reader.ReadBytes(embeddedDataSize);
                File.WriteAllBytes($"extracted_{fileName}", embeddata);
            }           
        }
    }
}

参考文献:

1\]https://github.com/ironfede/openmcdf \[2\]https://www.cnblogs.com/dengchj/p/15267390.html \[3\]https://learn.microsoft.com/en-us/openspecs/office_file_formats/ms-doc/f7983581-d107-4a1f-b5f7-f3650e777c04 \[3\]https://wenku.csdn.net/answer/o7oarkndk8 \[4\]https://wenku.csdn.net/answer/13y75gvusr

相关推荐
bugcome_com2 小时前
C# 变量详解(从入门到掌握)
c#
kylezhao20192 小时前
C#中如何防止序列化文件丢失和损坏
c#
玩c#的小杜同学3 小时前
工业级稳定性:如何利用生产者-消费者模型(BlockingCollection)解决串口/网口高频丢包问题?
笔记·学习·性能优化·c#·软件工程
游乐码5 小时前
c#结构体
开发语言·c#
bugcome_com7 小时前
# C# 变量作用域详解
开发语言·c#
三方测试小学徒9 小时前
GB/T 34946-2017《C#语言源代码漏洞测试规范》之整体解读
c#·cma·cnas·34946
光泽雨9 小时前
P/Invok执行时的搜索顺序
c#
用户298698530149 小时前
C# Word自动化:轻松插入特殊符号,告别手动烦恼!
后端·c#·.net