Python数据分析与处理（二）：将数据写回.mat文件的不同方法【超详细】

文章目录

前言
一、环境准备
二、基础方法：使用scipy.io.savemat
三、处理大型数据集：使用h5py和hdf5storage
- 使用h5py直接处理
- 使用hdf5storage简化流程
四、高级技巧与最佳实践
- [1. 处理复杂数据结构](#1. 处理复杂数据结构)
- [2. 保存元数据](#2. 保存元数据)
- [3. 分块存储大型数据](#3. 分块存储大型数据)
- [4. 验证写入的数据](#4. 验证写入的数据)
五、常见问题与解决方案
- [1. 维度顺序问题](#1. 维度顺序问题)
- [2. 数据类型不匹配](#2. 数据类型不匹配)
- [3. 大型文件处理](#3. 大型文件处理)
- [4. 复杂对象序列化](#4. 复杂对象序列化)
六、性能优化建议
总结

前言

在科学研究与工程领域，MATLAB和Python是两种最为流行的计算环境。许多项目和研究需要在两者之间切换，这就带来了数据交换的需求。MATLAB的.mat文件格式是存储工作区变量的标准方式，能够在不同平台和MATLAB会话之间高效地传输数据。

Python作为一门通用编程语言，拥有丰富的科学计算库，越来越多的人选择用Python进行数据分析和机器学习。但当需要与使用MATLAB的同事协作，或者需要使用一些MATLAB独有的工具箱时，将Python处理好的数据写回.mat文件就成为了必备技能。

本文将全面介绍如何使用Python将数据保存为MATLAB可读的.mat文件，涵盖从基础的scipy.io.savemat到处理大型数据集的hdf5storage等多种方法，并提供实用示例和最佳实践建议。

一、环境准备

在开始之前，确保已安装以下Python库：

bash 复制代码

pip install scipy numpy h5py hdf5storage

这些库提供了处理.mat文件所需的所有功能：

scipy：提供基础的savemat和loadmat函数
numpy：Python科学计算的基础，提供数组支持
h5py：处理HDF5格式文件（MATLAB v7.3格式）
hdf5storage：专门用于Python和MATLAB之间的数据交换

二、基础方法：使用scipy.io.savemat

对于大多数常规用途，scipy.io库中的savemat函数是最简单直接的选择。

基本示例

python 复制代码

import numpy as np
from scipy import io

# 创建示例数据
matrix_data = np.random.rand(5, 5)  # 5x5随机矩阵
vector_data = np.arange(10)         # 0-9的向量
scalar_value = 42                   # 标量值
string_data = "Hello from Python"   # 字符串

# 将数据保存到.mat文件
data_dict = {
    'matrix_data': matrix_data,
    'vector_data': vector_data,
    'scalar_value': scalar_value,
    'string_data': string_data
}

io.savemat('example_data.mat', data_dict)
print("数据已成功保存到example_data.mat")

在MATLAB中加载数据

保存后，在MATLAB中只需一行代码即可加载所有变量：

matlab 复制代码

load('example_data.mat');
whos  % 查看工作区中的所有变量

数据类型映射

了解Python和MATLAB之间的数据类型映射非常重要：

Python数据类型	MATLAB数据类型	注意事项
numpy.ndarray	double矩阵	默认转换为双精度浮点数
Python int	double标量
Python float	double标量
Python str	char数组
Python list	cell数组	当元素类型不一致时
Python dict	struct结构体	字典键成为结构体字段名
numpy.void	MATLAB对象	复杂对象的表示

三、处理大型数据集：使用h5py和hdf5storage

当数据量超过2GB时，基础的savemat函数会遇到限制。这时需要使用MATLAB的v7.3格式，它基于HDF5标准，可以处理超大文件。

使用h5py直接处理

python 复制代码

import h5py
import numpy as np

# 创建大型数据集
large_matrix = np.random.rand(10000, 5000)  # 10000x5000矩阵

# 使用h5py保存为v7.3格式
with h5py.File('large_data.mat', 'w') as f:
    # 注意：需要处理维度转置问题
    f.create_dataset('large_matrix', data=large_matrix.T)  # 转置以适配MATLAB

重要提示：使用h5py时，由于Python和MATLAB的数组存储顺序不同（C顺序 vs Fortran顺序），必须手动转置数组，否则在MATLAB中维度会颠倒。

使用hdf5storage简化流程

hdf5storage库专门为解决Python和MATLAB之间的数据交换问题而设计，自动处理维度顺序等兼容性问题。

python 复制代码

import hdf5storage
import numpy as np

# 创建大型数据集
large_matrix = np.random.rand(10000, 5000)

# 使用hdf5storage保存 - 自动处理兼容性
hdf5storage.savemat(
    'large_data_compatible.mat',
    {'large_matrix': large_matrix},
    matlab_compatible=True  # 确保与MATLAB兼容
)

四、高级技巧与最佳实践

1. 处理复杂数据结构

对于包含嵌套结构的数据，可以使用Python字典来模拟MATLAB的结构体：

python 复制代码

# 创建嵌套数据结构
patient_data = {
    'name': 'John Doe',
    'age': 35,
    'test_results': {
        'blood_pressure': [120, 80],
        'heart_rate': 72,
        'ecg': np.random.randn(1000)  # 模拟心电图数据
    }
}

# 保存嵌套结构
io.savemat('patient_data.mat', {'patient': patient_data})

2. 保存元数据

除了主要数据，有时还需要保存一些元信息：

python 复制代码

import time

# 创建数据
experiment_data = np.random.rand(100, 100)

# 添加元数据
metadata = {
    'experiment_data': experiment_data,
    'date_performed': time.strftime("%Y-%m-%d %H:%M:%S"),
    'experimenter': 'Researcher Name',
    'description': 'Sample experiment results'
}

io.savemat('experiment_with_metadata.mat', metadata)

3. 分块存储大型数据

对于极大的数据集，可以使用分块存储来提高效率：

python 复制代码

import h5py
import numpy as np

# 创建超大型数据集
huge_array = np.random.rand(50000, 10000)

with h5py.File('huge_data.mat', 'w') as f:
    # 使用分块存储和压缩
    dset = f.create_dataset(
        'huge_array',
        data=huge_array.T,  # 记得转置
        chunks=(1000, 1000),  # 分块大小
        compression='gzip'    # 压缩以节省空间
    )

4. 验证写入的数据

写入数据后，最好验证一下是否正确保存：

python 复制代码

from scipy import io

# 写入数据
io.savemat('test_data.mat', {'test_array': np.arange(12).reshape(3, 4)})

# 读取验证
verified_data = io.loadmat('test_data.mat')
print("验证读取的数据:")
print(verified_data['test_array'])

# 比较原始数据和读取的数据
original_data = np.arange(12).reshape(3, 4)
print("数据一致性:", np.allclose(original_data, verified_data['test_array']))

五、常见问题与解决方案

1. 维度顺序问题

问题：在MATLAB中读取Python保存的数据时，数组维度看起来是转置的。

解决方案：

使用hdf5storage而不是直接的h5py
或者在使用h5py时手动转置数组（使用.T属性）

2. 数据类型不匹配

问题：Python中的整数数组在MATLAB中变成了浮点数。

解决方案：

这是预期行为，MATLAB默认将所有数值数据存储为双精度浮点数
如果必须在MATLAB中保持整数类型，需要在MATLAB端进行转换

3. 大型文件处理

问题：保存大型数据集时出现错误或性能问题。

解决方案：

使用v7.3格式（通过h5py或hdf5storage）
启用压缩以减少文件大小
使用分块存储以提高读写性能

4. 复杂对象序列化

问题：尝试保存Python特有的对象（如自定义类实例）时失败。

解决方案：

MATLAB无法识别Python特有对象
将对象转换为基本数据类型（字典、列表、数组等）后再保存

六、性能优化建议

选择正确的格式：小型数据使用v7格式，大型数据使用v7.3格式
使用压缩：特别是对于稀疏或重复数据多的数据集
分块存储：对于超大文件，分块可以提高读写效率
批量操作：减少文件打开关闭次数，批量读写数据
数据类型优化：使用最适合的内存数据类型，避免不必要的类型转换

总结

Python与MATLAB之间的数据交换是科研和工程中的常见需求。通过本文介绍的方法，你可以轻松地在Python中处理.mat文件：

对于大多数应用 ，scipy.io.savemat是最简单直接的选择，适合中小型数据集。
对于大型数据集（超过2GB），需要使用基于HDF5的v7.3格式：
- 使用hdf5storage可以自动处理兼容性问题，是首选方案
- 直接使用h5py需要手动处理维度转置，但提供更多底层控制
最佳实践包括：
- 始终验证写入的数据
- 注意Python和MATLAB之间的数据类型差异
- 对于超大型数据，使用分块和压缩技术
- 使用字典来模拟MATLAB的结构体
避免常见陷阱：
- 不要尝试保存Python特有的复杂对象
- 注意维度顺序问题（C顺序 vs Fortran顺序）
- 了解MATLAB默认将所有数值数据存储为双精度浮点数

通过掌握这些技术，你可以轻松地在Python和MATLAB之间搭建数据桥梁，充分利用两种环境的优势，提高科研和工程效率。