暂时没有找到OLE文件中\x01Ole10Native流的数据结构,下载了OffVis软件浏览及解析OLE文件。OffVis(Microsoft Office Visualization Tool)是微软官方发布的Office文件格式可视化分析工具,主要用于安全研究、格式解析和文档修复,支持通过树状视图+十六进制联动方式将OLE文件解析为可视化的层级结构。
使用OffVis打开保存xml文件的OLE文件,双击\x01Ole10Native流所在条目的Data属性,如下图所示,窗口左侧显示OLE文件中Data属性保存的二进制数据,结合大模型给出的从\x01Ole10Native流提取原始数据的示例代码(代码有问题,没法直接运行),对数据流进行分析,开头4个字节应该为流数据大小,接着2个字节不清楚含义,然后就是原始文件名称及路径,这两个字符串都是以00结尾,然后4个字节不清楚含义,再紧跟4个字节,应该是指定后续字符串的字节数(看着也是原始文件临时路径),该字符串后面的4个字节应该是保存的原始文件的字节数,紧接着的就是原始文件的数据。

根据上述分析,编写了简单的\x01Ole10Native流解析程序,提取原始文件并保存到本地。由于前两个字符串并没有长度说明,只能通过从第7个字节开始查找00结尾的方式读取字符串,也不知道编码方式,暂时写死使用ASCII解码。示例代码及效果如下所示,之前保存到word文档中的xml文件和mp3文件都算小文件,全都可以将原始数据提出来保存,不过由于xml文件的名称不包含中文,可以正常读取和保存,而mp3文件的名称是中文,解析出来的文件名还是乱码,使用Unicode解码也是乱码,只能临时取个其它名字保存。
csharp
private string ReadNullTerminatedString(BinaryReader reader, Encoding encoding)
{
var bytes = new List<byte>();
byte b;
while ((b = reader.ReadByte()) != 0)
{
bytes.Add(b);
}
return encoding.GetString(bytes.ToArray());
}
private void btnReadInfo_Click(object sender, EventArgs e)
{
RootStorage rs = RootStorage.Open(txtPath.Text, FileMode.Open);
CfbStream stream;
if (rs.TryOpenStream("\u0001Ole10Native", out stream))
{
byte[] data = new byte[stream.Length];
stream.Read(data, 0, data.Length);
// 解析Ole10Native流(包含原始文件数据)
using (MemoryStream ms = new MemoryStream(data))
using (BinaryReader reader = new BinaryReader(ms))
{
// 读取Ole10Native标头
int nativeDataSize = reader.ReadInt32(); // 原始数据大小
reader.ReadInt16();//跳过2字节
// 读取文件名长度和文件名
string fileName = ReadNullTerminatedString(reader,Encoding.ASCII);
string filePath = ReadNullTerminatedString(reader, Encoding.ASCII);
reader.ReadInt32();//跳过4字节
int filePathLength = reader.ReadInt32();//文件路径长度
if(filePathLength>0)
{
string filePath1= new string(reader.ReadChars(filePathLength));
}
int embeddedDataSize=reader.ReadInt32(); // 原始文件大小
if(embeddedDataSize>0)
{
byte[] embeddata=reader.ReadBytes(embeddedDataSize);
File.WriteAllBytes($"extracted_{fileName}", embeddata);
}
}
}
}


参考文献:
1\]https://github.com/ironfede/openmcdf \[2\]https://www.cnblogs.com/dengchj/p/15267390.html \[3\]https://learn.microsoft.com/en-us/openspecs/office_file_formats/ms-doc/f7983581-d107-4a1f-b5f7-f3650e777c04 \[3\]https://wenku.csdn.net/answer/o7oarkndk8 \[4\]https://wenku.csdn.net/answer/13y75gvusr