从“录音”到“决策”:一套会议总结与智能分析体系的技术落地实践

在实际项目中,我们经常遇到一个很现实的问题:会议很多,但真正沉淀下来的信息很少

录音有了、转写也有了,但真正有价值的"纪要、待办、决策点",依然靠人手动整理。这不仅效率低,而且很容易遗漏关键内容。

熙瑾会悟做的「会议总结与智能分析体系」,目标很明确:

  • 1 小时会议,20 分钟内产出完整总结
  • 自动进行多主题分段
  • 输出结构化纪要(可直接进入业务系统)

熙瑾会悟就结合实际落地,聊一聊核心技术方案和一些踩坑经验。

一、整体架构设计

先给一个整体流程图(逻辑层面):

音频输入 → ASR转写 → 语义切分 → 多层聚类 → LLM总结 → 结构化输出

可以拆成 6 个核心模块:

二、主题分段:解决"会议一坨文本"的问题

1. 为什么要做主题分段?

ASR 转写后的内容,本质是时间序列文本流

A:我们先讨论项目进度...

B:我这边接口还没完成...

A:那下一个问题是预算...

如果直接丢给 LLM,总结效果通常很差:

  • 上下文过长(超 token)
  • 主题混杂
  • 总结不聚焦

2. 技术方案

这里我们采用的是:语义相似度 + 滑动窗口切分

核心步骤:

  1. 每句话生成 embedding(向量化)
  2. 计算相邻句子的语义相似度
  3. 当相似度低于阈值 → 判定为"主题切换点"

简单示意:

3. 使用技术

  • 向量模型:bge-large-zh / text-embedding-3-large
  • 相似度计算:余弦相似度
  • 分段策略:动态阈值 + 最小段落长度控制

三、多层聚类:让主题更"干净"

单纯切分还不够,因为:

👉 同一主题可能被多次打断

所以我们引入 多层聚类(Hierarchical Clustering)

1. 思路

  • 第一层:时间切分(粗粒度)
  • 第二层:语义聚类(细粒度)

2. 聚类方法

常用两种:

  • KMeans(适合已知主题数量)
  • 层次聚类(推荐)

我们最终选择:

👉 Agglomerative Clustering(凝聚层次聚类)

优点:

  • 不需要预设 K
  • 更符合会议"逐步展开"的特点

3. 聚类效果

主题A:

  • 进度讨论

  • 人员安排

主题B:

  • 预算问题

  • 成本评估

四、纪要生成:不是简单"总结"

很多人一开始会这么做:

请帮我总结这段会议内容

效果通常是:

  • 空洞
  • 不结构化
  • 不可用

1. 正确做法:结构化 Prompt

我们定义统一输出格式:

{

"主题": "",

"结论": "",

"关键讨论": [],

"风险点": [],

"待办事项": []

}

2. Prompt 设计(关键)

你是一个会议纪要助手,请按照以下结构输出:

  1. 主题

  2. 关键结论

  3. 讨论要点(列表)

  4. 风险点

  5. 待办事项(必须包含责任人)

五、待办事项抽取:核心价值点

这是业务最关心的能力之一。

1. 难点

待办事项通常是隐式表达:

  • "这个你下周跟一下"
  • "我们后面再确认一下接口"
  • "这个需要王总拍板"

2. 技术方案

采用两阶段:

第一阶段:候选句抽取
  • 基于规则 + 关键词(如:需要、安排、确认、跟进)
第二阶段:LLM 精抽取

输出结构:

{

"task": "",

"owner": "",

"deadline": ""

}

六、时序总结:还原会议"过程"

普通总结的问题是:

👉 只有结果,没有过程

解决方案

按照时间线输出:

10:00 - 项目进度讨论

10:20 - 技术方案分歧

10:45 - 达成初步共识

技术点

  • 时间戳对齐(ASR 提供)
  • 分段结果映射回时间轴

七、角色总结:谁说了什么

这是提升可读性的关键。

实现方式

依赖:

👉 声纹识别 + 说话人分离(Speaker Diarization)

输出:

张三:

  • 负责接口开发

  • 提出延期风险

李四:

  • 提供解决方案

  • 确认资源支持

八、LLM 流程优化(性能关键)

目标:

👉 1 小时会议,20 分钟内完成总结

1. 常见问题

  • Token 超限
  • 单次调用太慢
  • 成本高

2. 优化策略

(1)分块并行处理
(2)Map-Reduce 架构
  • Map:每段总结
  • Reduce:全局汇总
(3)缓存机制
  • 相同片段不重复计算
  • embedding 结果缓存
(4)模型组合
  • 小模型:分类 / 抽取
  • 大模型:总结 / 推理

九、效果总结

最终系统可以做到:

  • ✅ 多主题自动分段
  • ✅ 结构化纪要输出
  • ✅ 待办事项自动提取
  • ✅ 角色/时序总结
  • ✅ 1 小时会议 20 分钟内完成分析

熙瑾会悟以"离线AI会议秘书"为核心形态,支持私有化部署,确保数据在本地闭环处理,满足高安全与高保密场景需求。同时,系统支持灵活的服务模式:服务器版可实现多会议并发处理,适用于企业级集中部署;单机版具备指令控制、即插即用与轻量化特点,适合中小规模快速接入;此外也可通过SDK/API形式输出单项能力,如纪要生成或知识问答能力,方便嵌入现有业务系统。

相关推荐
电子科技圈1 天前
SmartDV展示完整的边缘与连接IP解决方案,以高速和低功耗特性赋能移动、物联网和媒体处理设备创新
人工智能·嵌入式硬件·mcu·物联网·智能家居·智能硬件·iot
Rubin智造社1 天前
04月17日AI每日参考:Claude Opus 4.7正式发布,智元机器人大会今日开幕
大数据·人工智能·机器学习·claude code·智元机器人·deepseek v4·claude opus 4.7
Raink老师1 天前
【AI面试临阵磨枪】详细解释 Transformer 架构的核心组件与工作流程。
人工智能·深度学习·transformer·ai 面试·ai 应用开发
qcx231 天前
【AI Agent实战】OpenClaw 安全加固完全指南:安全攻击手段与五步防护实践(2026最新)
人工智能·安全
码农小白AI1 天前
AI报告审核进入技术驱动时代:IACheck如何从规则引擎走向深度学习,构建检测报告审核“技术矩阵”
人工智能·深度学习
song150265372981 天前
视觉检测设备:自动识别缺陷、尺寸、瑕疵、装配错误,一键全检
人工智能·计算机视觉·视觉检测
智能化咨询1 天前
(163页PPT)某著名企业K3生产制造售前营销指导方案P164(附下载方式)
大数据·人工智能
Zzj_tju1 天前
大语言模型技术指南:SFT、RLHF、DPO 怎么串起来?对齐训练与关键参数详解
人工智能·深度学习·语言模型
金智维科技官方1 天前
RPA技术赋能电信运营商话单稽核:金智维如何驱动高精度自动化转型
人工智能·自动化·数字化·rpa·智能体·电信
2501_948114241 天前
2026模型能力分化加剧:多模型聚合架构的技术解析与工程落地思考
人工智能·ai·chatgpt·架构