文章目录
-
- [1. 数据的基本形式](#1. 数据的基本形式)
- [2. 典型数据结构示例](#2. 典型数据结构示例)
- [3. 特征提取后的数据结构](#3. 特征提取后的数据结构)
- [4. 元数据(Metadata)](#4. 元数据(Metadata))
- [5. 总结](#5. 总结)
1. 数据的基本形式
电子鼻本质上是多通道时间序列数据。
- 多通道 → 每个通道对应一个气体传感器
- 时间序列 → 每个传感器在整个采样周期持续输出响应值
因此,原始电子鼻数据通常是一个二维矩阵:
D a t a = [ s 1 ( t 1 ) s 2 ( t 1 ) ... s n ( t 1 ) s 1 ( t 2 ) s 2 ( t 2 ) ... s n ( t 2 ) ⋮ ⋮ ⋱ ⋮ s 1 ( t m ) s 2 ( t m ) ... s n ( t m ) ] Data = \begin{bmatrix} s_{1}(t_1) & s_{2}(t_1) & \dots & s_{n}(t_1) \\ s_{1}(t_2) & s_{2}(t_2) & \dots & s_{n}(t_2) \\ \vdots & \vdots & \ddots & \vdots \\ s_{1}(t_m) & s_{2}(t_m) & \dots & s_{n}(t_m) \\ \end{bmatrix} Data= s1(t1)s1(t2)⋮s1(tm)s2(t1)s2(t2)⋮s2(tm)......⋱...sn(t1)sn(t2)⋮sn(tm)
- n = 传感器数量(例如 8、10、32)
- m = 时间点数量(由采样频率和采样时长决定)
- si(tj) = 第 i 个传感器在时间 tj 的响应值
电子鼻产生的数据属于时序数据,针对这类数据的处理,常见的算法模型包括 循环神经网络(Recurrent Neural Network, RNN)、长短期记忆网络(Long-Short Term Memory, LSTM)、卷积神经网络(Convolutional Neural Network, CNN)、 Transformer等。

2. 典型数据结构示例
以一个 10 传感器的电子鼻为例,如果每秒采样 1 次,总共采集 60 秒,原始数据就像这样:
| Time (s) | Sensor1 | Sensor2 | ... | Sensor10 |
|---|---|---|---|---|
| 0 | 0.01 | 0.02 | ... | 0.05 |
| 1 | 0.10 | 0.15 | ... | 0.30 |
| 2 | 0.25 | 0.35 | ... | 0.65 |
| ... | ... | ... | ... | ... |
| 60 | 0.02 | 0.03 | ... | 0.04 |
| 📌 注意:很多仪器还会包含基线(Background)或参比气体数据,用于做差或归一化。 |
3. 特征提取后的数据结构
在后续建模前,通常不会直接用完整时间序列,而是从每个传感器响应曲线中提取特征,常见方法包括:
- 峰值响应值(最大值)
- 稳态响应值(达到平衡时的值)
- 响应时间(达到某一比例的时间)
- 恢复时间(恢复到基线所需的时间)
- 积分面积(曲线下的面积,反映总吸附量)
特征提取后,数据会变成一个样本 × 特征的矩阵:
| Sample | S1_max | S1_area | S2_max | S2_area | ... | S10_area |
|---|---|---|---|---|---|---|
| 样本1 | 0.82 | 15.2 | 0.45 | 9.3 | ... | 10.1 |
| 样本2 | 0.71 | 13.8 | 0.52 | 10.2 | ... | 11.0 |
| ... | ... | ... | ... | ... | ... | ... |
这种矩阵形式非常适合后续用 PCA、PLS-DA、SVM、RF、神经网络等建模。
4. 元数据(Metadata)
除了传感器响应值,还会有实验附加信息:
- 样品编号、气味类别(标签)
- 浓度、温度、湿度
- 采样时间、流量、气体切换时间点
这些元数据非常重要,用于后续监督建模或控制混杂因素。
5. 总结
电子鼻测得的数据结构本质上是:
- 原始数据:多传感器 × 时间序列矩阵
- 处理后数据:样本 × 特征矩阵 + 标签
- 附加信息:实验条件、样品类别、环境参数
