C#学习调用OpenMcdf模块解析ole数据的基本用法(2)

  暂时没有找到OLE文件中\x01Ole10Native流的数据结构,下载了OffVis软件浏览及解析OLE文件。OffVis(Microsoft Office Visualization Tool)是微软官方发布的Office文件格式可视化分析工具,主要用于安全研究、格式解析和文档修复,支持通过树状视图+十六进制联动方式将OLE文件解析为可视化的层级结构。
  使用OffVis打开保存xml文件的OLE文件,双击\x01Ole10Native流所在条目的Data属性,如下图所示,窗口左侧显示OLE文件中Data属性保存的二进制数据,结合大模型给出的从\x01Ole10Native流提取原始数据的示例代码(代码有问题,没法直接运行),对数据流进行分析,开头4个字节应该为流数据大小,接着2个字节不清楚含义,然后就是原始文件名称及路径,这两个字符串都是以00结尾,然后4个字节不清楚含义,再紧跟4个字节,应该是指定后续字符串的字节数(看着也是原始文件临时路径),该字符串后面的4个字节应该是保存的原始文件的字节数,紧接着的就是原始文件的数据。

  根据上述分析,编写了简单的\x01Ole10Native流解析程序,提取原始文件并保存到本地。由于前两个字符串并没有长度说明,只能通过从第7个字节开始查找00结尾的方式读取字符串,也不知道编码方式,暂时写死使用ASCII解码。示例代码及效果如下所示,之前保存到word文档中的xml文件和mp3文件都算小文件,全都可以将原始数据提出来保存,不过由于xml文件的名称不包含中文,可以正常读取和保存,而mp3文件的名称是中文,解析出来的文件名还是乱码,使用Unicode解码也是乱码,只能临时取个其它名字保存。

csharp 复制代码
private string ReadNullTerminatedString(BinaryReader reader, Encoding encoding)
{
    var bytes = new List<byte>();
    byte b;
    while ((b = reader.ReadByte()) != 0)
    {
        bytes.Add(b);
    }
    return encoding.GetString(bytes.ToArray());
}

private void btnReadInfo_Click(object sender, EventArgs e)
{
    RootStorage rs = RootStorage.Open(txtPath.Text, FileMode.Open);
    CfbStream stream;

    if (rs.TryOpenStream("\u0001Ole10Native", out stream))
    {
        byte[] data = new byte[stream.Length]; 
        stream.Read(data, 0, data.Length);

        // 解析Ole10Native流(包含原始文件数据)
        using (MemoryStream ms = new MemoryStream(data))
        using (BinaryReader reader = new BinaryReader(ms))
        {
            // 读取Ole10Native标头
            int nativeDataSize = reader.ReadInt32(); // 原始数据大小
            reader.ReadInt16();//跳过2字节

            // 读取文件名长度和文件名
            string fileName = ReadNullTerminatedString(reader,Encoding.ASCII);
            string filePath = ReadNullTerminatedString(reader, Encoding.ASCII);

            reader.ReadInt32();//跳过4字节

            int filePathLength = reader.ReadInt32();//文件路径长度
            if(filePathLength>0)
            {
                string filePath1= new string(reader.ReadChars(filePathLength));
            }

            int embeddedDataSize=reader.ReadInt32(); // 原始文件大小
            if(embeddedDataSize>0)
            {
                byte[] embeddata=reader.ReadBytes(embeddedDataSize);
                File.WriteAllBytes($"extracted_{fileName}", embeddata);
            }           
        }
    }
}

参考文献:

1https://github.com/ironfede/openmcdf

2https://www.cnblogs.com/dengchj/p/15267390.html

3https://learn.microsoft.com/en-us/openspecs/office_file_formats/ms-doc/f7983581-d107-4a1f-b5f7-f3650e777c04

3https://wenku.csdn.net/answer/o7oarkndk8

4https://wenku.csdn.net/answer/13y75gvusr

相关推荐
影寂ldy9 小时前
C# 类和对象
开发语言·c#
z落落10 小时前
C# 构造函数(无参/有参/重载/this)+析构函数(终结器)|GC 垃圾回收
java·开发语言·c#
z落落11 小时前
C# 字段与属性(get/set访问器、三种属性写法、只读属性)+属性拦截例子(get动态计算 + set数据校验)
开发语言·c#
影寂ldy11 小时前
C#栈和队列
开发语言·c#
魔法阵维护师11 小时前
从零开发游戏需要学习的c#模块,第三十四章(设置界面)
学习·游戏·c#
gc_229911 小时前
学习C#调用OpenXml操作word文档的基本用法(39:学习表格类-1)
c#·word·表格·table·openxml
gc_229912 小时前
C#测试调用Net.Codecrete.QrCodeGenerator库生成二维码的基本用法
c#·二维码·qrcodegenerator
yivifu13 小时前
CSS 自动级联编号有序列表完全指南
前端·css·c#·html·有序列表·级联编号
Ws_14 小时前
C# 桌面端开发工程师面试题 + 参考答案
开发语言·面试·c#
周杰伦fans15 小时前
掌握 MVVM Light:.NET 桌面应用开发的 MVVM 利器,掌握 ObservableObject、RelayCommand 和 Messenger
c#·wpf