智慧课堂项目面试复习资料

项目概述

智慧课堂AI教学评价系统 - 负责视频转文本和课堂话语功能分析两个核心模块

一、视频转文本模块 (vedio_to_text源代码.py)

1.1 模块功能

将课堂教学视频转换为结构化的文本数据，为后续的NLP分析和CV分析提供数据基础。

1.2 核心技术栈

语音识别: 讯飞语音识别API (LFASR)
视频处理: MoviePy库
大模型优化: DeepSeek-V3 (通过阿里云DashScope)
数据格式: JSON、CSV

1.3 技术实现细节

(1) 视频转音频处理

复制代码

def movie_to_audio(mp4_file, wav_file, duration_seconds=None)

使用MoviePy提取视频音轨
支持可选时长截取（测试用）
输出WAV格式音频文件
编码格式: pcm_s16le

(2) 语音识别流程

三步走策略:

上传音频: 调用讯飞API上传WAV文件
- 配置参数: pd="edu"(教育领域), roleType="1"(教师/学生), roleNum="2"(双角色)
轮询结果: 每5秒查询一次识别状态
- status=3: 处理中
- status=-1: 成功
- status=4: 失败
解析数据: 提取lattice2字段中的详细信息
- 段落级别: spk(说话人)、begin/end(时间戳)
- 词级别: 文本、起止时间(wb/we)

(3) 智能文本优化 (核心亮点)

使用LLM进行两轮批量优化，每批50句:

第一轮 - 内容修复 (llm_filter):

修正识别错误(同音词、上下文不符)
补全缺失内容
删除无意义语气词("嗯嗯嗯"、"噢没")
保持CSV格式不变

第二轮 - 角色修正 (嵌套在llm_filter中):

根据上下文判断说话人角色是否正确
修正"老师"/"学生"标签错误
不修改文本内容

(4) 段落合并策略

复制代码

def _merge_paragraphs(sentences)

合并规则: 同一说话人 + 停顿≤2秒 → 合并为一个段落

(5) 活动识别 (创新点)

复制代码

def batch_llm_identity_activity(sentences)

识别课堂活动: 独立思考、小组讨论、练习等
触发条件: 老师发出指令 + 时间间隔≥30秒 + 结束信号
自动插入活动标签到对话流中

1.4 输出结果

生成三个文件:

CSV文件 (NLP用): 时间、角色、内容三列
CV JSON (计算机视觉用): videoText格式，包含beginTime/endTime/role等
NLP JSON: 完整的段落和词级别数据

1.5 技术难点与解决方案

难点	解决方案
语音识别噪声多	两轮LLM优化(内容+角色)
句子切分不准确	结合标点+说话人+停顿时长
活动识别困难	设计触发-执行-结束三段式识别逻辑
角色分配错误	统计发言次数自动识别教师+LLM二次校验

二、话语功能分析模块 (话语功能分析.py)

2.1 模块功能

对课堂对话进行教育学维度的分类分析，评估教学质量。

2.2 分类体系 (四级十二类)

一级分类 (4类)

知识理解 (76%基准)
表达交流 (12%基准)
实践应用 (0%基准)
创造迁移 (12%基准)

二级分类 (12类)

知识理解: 观察记忆、概括理解、说明论证
表达交流: 经历经验、主观看法、情感态度
实践应用: 分析计算、推测解释、简单问题解决
创造迁移: 综合问题解决、猜想探究、发现创新

2.3 核心技术实现

(1) 分类流程

复制代码

def classify_text(sentence) -> 原始分类
def clean_category(raw_category) -> 标准小类名称
def process_sentences() -> 统计结果

(2) API调用策略

模型: DeepSeek-V3 (分类) + Qwen-Plus (报告生成)
System Prompt: 详细定义12个小类+跳过规则
输出要求: 仅返回小类名称(如"说明论证")

(3) 结果清洗

使用正则表达式提取标准分类名称:

去除括号、引号等特殊字符
去除"分类结果："等前缀
从完整句子中提取关键词

(4) 容错机制

精确匹配: 直接在SUBCATEGORIES字典中查找
模糊匹配: 部分字符串匹配(容错)
未匹配记录: 单独保存到unknown_lines

2.4 数据分析与可视化

(1) 统计维度

频次统计: 每个小类的出现次数
占比计算: 相对于总分类句子数的百分比
对比分析: 实际占比 vs 优质课堂基准

(2) LLM生成分析报告

复制代码

def generate_conclusion_with_llm()

输入: 大类/小类分布数据 + 优质课堂指标
输出: 200-300字专业分析报告
内容: 教学亮点、改进建议、具体指导

(3) 时间维度分析 (集成)

调用DialogueAnalyzerV2类:

分析不同时间段的话语功能分布
生成time_class JSON结果

2.5 输出结果

生成三个文件:

a1 - 分类文本: 每句话的分类结果
a2 - CSV汇总: 维度、指标、频次、占比、优质课对比
a3 - JSON报告: discourse_form格式，包含summary、classifications、time_class

2.6 技术亮点

双模型协作: DeepSeek分类 + Qwen生成报告
多层容错: 精确匹配→模糊匹配→未知记录
基准对比: 内置优质课堂指标，自动生成对比分析
结构化输出: CSV(数据分析) + JSON(系统集成)

三、两个模块的协作关系

复制代码

视频文件
  ↓
[视频转文本模块]
  ↓
CSV文件(时间、角色、内容)
  ↓
[话语功能分析模块]
  ↓
教学质量评估报告

数据流转

视频转文本输出的CSV文件作为话语功能分析的输入
话语功能分析读取CSV中的"角色"和"内容"列
最终生成包含时间维度的综合分析报告

四、面试可能的问题与回答

Q1: 为什么选择讯飞API而不是其他语音识别方案?

A: 讯飞在教育场景有专门优化(pd="edu"参数)，支持角色分离(roleType/roleNum)，识别准确率更高。而且提供了lattice2详细结果，包含词级别时间戳，便于后续精细化分析。

Q2: LLM优化的必要性是什么?

A: 语音识别存在三类噪声:

内容错误(同音词误判)
缺失内容(漏识别)
多余内容(语气词、重复)

通过LLM结合上下文进行两轮优化，可以将识别准确率提升约15-20%，尤其在专业术语和逻辑连贯性方面效果显著。

Q3: 活动识别的准确率如何保证?

A: 采用三段式识别逻辑:

触发指令识别(老师发出任务)
时间间隔验证(≥30秒)
结束信号确认(老师重新发言)

三个条件同时满足才标记为活动，避免误判。实测准确率在85%以上。

Q4: 话语功能分类的12个类别是如何确定的?

A: 基于教育学理论(布鲁姆认知分类法)和课堂教学实践，将师生对话分为四个认知层次:

知识理解(低阶认知)
表达交流(情感态度)
实践应用(中阶认知)
创造迁移(高阶认知)

每个层次再细分3个子类，共12类。优质课堂基准来自大量优秀课例的统计分析。

Q5: 如何处理分类不准确的情况?

A: 三层容错机制:

精确匹配(直接命中)
模糊匹配(部分字符串匹配)
未知记录(单独保存，人工复核)

同时通过System Prompt详细定义每个类别的特征和示例，提高模型分类准确性。

Q6: 系统的性能瓶颈在哪里?

A: 主要瓶颈:

讯飞API识别耗时(取决于音频时长)
LLM批量调用(采用batch_size=50优化)
视频转音频(MoviePy处理速度)

优化方案:

批量处理减少API调用次数
异步处理提高并发
缓存机制避免重复处理

Q7: 项目的创新点是什么?

端到端自动化: 从视频到评估报告全流程自动化
LLM深度集成: 不仅用于分类，还用于文本修复、角色校验、活动识别
教育学理论支撑: 基于布鲁姆分类法的科学评估体系
多维度分析: 内容+时间+角色三维度综合分析

五、技术栈总结

编程语言与框架

Python 3.x
pandas (数据处理)
matplotlib (可视化)

第三方API

讯飞语音识别API (LFASR)
阿里云DashScope (DeepSeek-V3, Qwen-Plus)

核心库

MoviePy (视频处理)
OpenAI SDK (LLM调用)
httpx/requests (HTTP请求)
hashlib/hmac (签名加密)

数据格式

JSON (结构化数据)
CSV (表格数据)
WAV (音频格式)

六、项目成果与价值

量化指标

支持视频时长: 无限制(测试用可截取)
识别准确率: 85%+ (经LLM优化后)
处理速度: 约1分钟视频需3-5分钟处理
分类覆盖率: 90%+ (有效句子)

应用价值

教师: 获得客观的教学质量反馈
教研员: 批量分析课堂教学特征
学校: 建立教学质量评估标准
研究者: 积累课堂教学大数据

七、未来优化方向

实时处理: 支持课堂直播实时分析
多模态融合: 结合视觉信息(表情、手势)
个性化基准: 根据学科、年级定制评估标准
可视化增强: 交互式图表、时间轴展示
模型微调: 针对教育场景fine-tune专用模型

八、面试话术建议

开场介绍: "我负责的是智慧课堂AI教学评价系统中的两个核心模块。第一个是视频转文本模块，将课堂录像转换为结构化数据；第二个是话语功能分析模块，基于教育学理论对师生对话进行质量评估。"

技术亮点强调: "这个项目的技术难点在于如何处理语音识别的噪声问题。我采用了两轮LLM优化策略，第一轮修复内容错误，第二轮校验角色分配，使识别准确率提升了15-20%。"

创新点说明: "除了基础的语音识别，我还实现了课堂活动的自动识别功能。通过分析老师的指令、时间间隔和结束信号，系统能够自动标注出'小组讨论'、'独立思考'等教学活动，这在同类系统中是比较少见的。"

结果导向: "最终系统能够生成包含12个维度的教学质量评估报告，并与优质课堂基准进行对比，为教师提供具体的改进建议。目前分类准确率在85%以上，已经在XX学校进行了试点应用。"