基于神经网络算法的多模态内容分析系统,采用Flask + Bootstrap + ECharts + LSTM-CNN + 注意力机制 + SQLite技术栈。

核心功能
1. 多模态数据采集与处理
- 音频文件上传:支持WAV、MP3、M4A、OGG、FLAC格式
- 语音识别:自动调用语音识别模块提取文本内容
- 文本输入:支持直接输入或上传文本文件
- 批量分析:支持多条文本批量处理
2. 深度文本分析与建模
情感分析
- 基于LSTM-CNN混合模型 + 注意力机制
- 细粒度情感倾向判断(正面、负面、中性)
- 提供置信度和概率分布

主题分析与关键词提取
- 使用LDA(Latent Dirichlet Allocation)进行主题建模
- TF-IDF + TextRank双算法关键词提取
- 自动识别文本核心主题与关键信息

文本聚类分析
- K-means聚类算法
- 对批量文本自动分组
- 发现不同话题或模式
3. 多模态信息融合分析
- 音频转化的文本与其他来源文本数据关联
- 统一的多维度内容洞察
- 支持混合数据分析

4. 交互式可视化呈现
- 情感分布饼图:展示正面/中性/负面情感比例
- 关键词云:可视化关键词及其权重
- 主题分析旭日图:展示主题层次结构
- 聚类树状图:展示文本聚类结果
- 数据下钻:支持数据筛选与详细查看
5. 数据管理与历史回溯
- SQLite数据库存储原始音频、文本、分析结果及模型参数
- 历史记录查询与浏览
- 结果复现
- 分析报告导出(JSON格式)
技术架构
后端技术栈
- Flask 3.0.0:Web框架
- PyTorch:深度学习框架
- scikit-learn:机器学习库
- jieba:中文分词
- SpeechRecognition:语音识别
- librosa:音频处理
深度学习模型
- LSTM-CNN混合模型:结合LSTM序列建模和CNN局部特征提取
- 注意力机制:Attention Layer提高关键信息捕捉能力
- 双向LSTM:捕获前后文信息
- 多尺度CNN:3/4/5不同核大小的卷积层
模型说明
LSTM-CNN-Attention模型
- 输入层:词嵌入层(300维)
- LSTM层:双向LSTM,2层,隐藏层128维
- 注意力层:AttentionLayer,捕获关键信息
- CNN层:多尺度卷积(3/4/5核),100个滤波器
- 输出层:全连接层,输出3个类别(正面/中性/负面)
情感分类
- 正面(positive):积极、正向情感
- 负面(negative):消极、负向情感
- 中性(neutral):客观、中立情感
系统特点
- 深度学习驱动:采用先进的LSTM-CNN混合模型
- 注意力机制:提高关键信息捕捉能力
- 多模态支持:文本和音频输入
- 实时分析:快速响应,实时结果
- 可视化呈现:丰富的图表展示
- 历史追溯:完整的数据记录和查询
- 批量处理:支持大规模文本分析
- 导出功能:结果可导出为JSON格式