课题来源: 某省建筑设计院委托项目
案例定位: 面向野外工程地质勘察中岩石岩性分类依赖专家经验、单一视觉特征受光照与风化干扰大、强度物理属性未有效融入智能决策等痛点,开展基于深度迁移学习与音频SVM回归的多模态融合岩性分类技术转化研究
1 项目背景
在公路、隧道、坝基等建筑工程前期勘察阶段,准确识别岩石岩性对工程安全与成本控制至关重要。传统方法依靠地质工程师目视岩石纹理、颜色并辅以锤击听音进行判断,主观性强、一致性差。现有单一图像智能识别方法仅利用光学特征,当样本不足或岩石表面风化时识别率大幅下降;而岩石强度作为关键物理指标,尚未被有效纳入自动化分类流程。脉冲超宽带雷达技术不适用于本领域,取而代之的是基于移动端图像采集与地质锤敲击音频的协同感知方案。本专利提出一种耦合岩石图像深度迁移网络与锤击音频SVM强度回归的多模态融合框架,利用Inception-V3提取图像特征、通过"阈值法"切割锤击片段并建立回弹指数预测模型,最终实现高鲁棒性岩性智能识别。
深度森林从专利挖掘与高价值技术转化的角度切入,围绕"多模态特征对齐-强度区间约束-决策级融合"全链路技术路径,完成了包含基于回弹指数的岩石强度区间标定方法、锤击音频时频域特征提取与SVM回归模型、图像音频耦合决策规则及轻量化移动端部署方案在内的多项发明专利群布局,并同步开展了针对花岗岩、石英岩、板岩等六类典型岩石的野外现场算例验证与工程适配。
2 本专利要解决的问题
(1)野外环境下岩石表面受风化、光照变化及拍摄角度影响,单一图像分类模型泛化能力不足,对纹理相近岩石(如灰岩与白云岩)的区分准确率偏低,传统卷积网络在小样本条件下易过拟合。
(2)锤击音频中蕴含岩石强度信息,但现有方法未系统利用音频特征辅助分类;回弹指数实测成本高,难以在勘察现场快速获取,且音频片段分割依赖人工经验,缺乏自动化处理流程。
(3)图像视觉特征与音频强度特征属于异质模态,直接拼接或简单加权融合无法有效消除模态间置信度冲突,缺乏一套基于强度置信区间与分类置信度排序的耦合决策机制,导致融合后准确率提升有限。
3 专利技术核心价值点
3.1 基于Inception - V3迁移学习的岩石图像深度特征提取方法
本发明采用在ImageNet上预训练的Inception-V3模型作为特征提取器,舍弃原Softmax层,将每张岩石图像映射为2048维特征向量。利用目标域岩石图像数据集(6类共约1200张)对全连接层进行微调,训练过程中采用交叉熵损失函数反向传播更新参数。Softmax函数将全连接层输出转换为概率分布,表达式如下:

其中 x为前一层神经元输入,w为权重,b为偏置,K为类别数。训练时以100张图像为一个批处理,交叉熵损失函数为:

通过最小化交叉熵,模型不断调整权重与偏置,最终在测试集上达到83.5%的初始准确率。

3.2 基于阈值法与SVM的岩石锤击音频强度回归模型
针对地质锤敲击岩石产生的音频信号,利用"阈值法"自动切分单个锤击片段。设定能量阈值,将连续音频中高于阈值的区间标记为有效敲击事件,提取各片段的时频域特征(如频谱质心、短时能量、过零率等)。使用回弹仪测定每块岩石的平均回弹指数作为强度标签(每块岩石测量16次,去掉前后各3次后取平均)。

3.3 基于置信度排序与强度区间约束的多模态融合决策方法
将岩石图像输入迁移学习模型,输出置信度最高的两个类别标签(Top1,Top2)及对应置信度(Score1,Score2)。同时将同一岩石的锤击音频输入SVM回归模型,得到强度预测值Rpred。根据历史实测数据为每类岩石建立强度置信区间[μi−1,μi+1](μi为第i类岩石回弹指数均值)。融合规则如下:
若Rpred落在Top1类别的强度区间内,则最终输出Top1;否则,若Rpred落在Top2类别的强度区间内,则输出Top2;否则输出Top1并标记强度异常。
该耦合决策机制有效解决了模态冲突问题,使最终分类准确率从单图像的83.5%提升至90.5%。对于纹理相近但强度差异显著的岩类(如石英岩与大理岩),提升幅度超过10%。


4 专利转化验证与分析
为验证本发明在野外工程地质勘察中的有效性与先进性,选取某在建高速公路沿线6类典型岩石(白云岩、板岩、花岗岩、石英岩、大理岩、玄武岩柱)进行现场采集实验。共采集图像样本1007张(训练集805张,测试集202张),锤击音频样本1801个(每类约300个),同时使用施密特回弹仪记录每块岩石的回弹指数作为强度基准。图像拍摄距离0.5~1.5 m,覆盖不同光照条件(晴、阴、晨昏);锤击音频采用44.1kHz采样率,16bit量化,双通道录制。
在岩石图像识别方面,基于Inception-V3迁移学习模型在测试集上达到83.5%的准确率。其中玄武岩柱识别率最高(100%),石英岩最低(71.4%)。混淆矩阵显示大理岩易被误分为其他浅色岩石,主要原因在于纹理与颜色特征重叠。

在音频强度回归方面,采用SVM模型对1801个锤击片段进行留一法交叉验证,决策系数R2=0.983,均方误差MSE=0.463,平均绝对误差MAE=0.390。预测值与真实回弹指数差值绝对值在[0,1]区间的样本占比达92%,表明模型具备高精度强度预测能力。
在多模态融合验证中,使用202张图像及对应的耦合音频样本进行测试。单纯图像识别正确167张(准确率83.5%);耦合强度约束后正确181张(准确率90.5%)。石英岩的识别准确率从71.4%提升至82.9%,板岩从84.8%提升至93.9%。对于强度区间重叠较多的白云岩与花岗岩,融合模型仍能依靠Top2强度匹配实现纠错。该耦合方法平均单次推理耗时小于0.5秒(移动端CPU),可满足现场实时辅助决策需求。
5 专利转化成效
相关技术成果已进入实质转化与权属固化阶段。

深度森林公司与某省建筑设计院围绕"基于多模态融合的岩性智能识别"核心技术体系,已完成1项国家发明专利与2项软件著作权(包含移动端岩性识别APP软件、野外音频自动分割与强度预测软件)的组合申请与布局。后续拟结合建筑勘察设计院外业采集平台及智能地质编录系统开展规模化应用部署,预期可将野外初期岩性分类的人工复核成本降低60%以上,单点勘察时间缩短40%,为智慧勘察与岩土工程数字化提供关键技术支撑。
山东深度森林信息科技有限公司是一家面向高质量专利"挖掘-设计-转化"的技术服务团队。



关注"深度森林",查看更多优质案例。