在实际项目中,我们经常遇到一个很现实的问题:会议很多,但真正沉淀下来的信息很少 。
录音有了、转写也有了,但真正有价值的"纪要、待办、决策点",依然靠人手动整理。这不仅效率低,而且很容易遗漏关键内容。
熙瑾会悟做的「会议总结与智能分析体系」,目标很明确:
- 1 小时会议,20 分钟内产出完整总结
- 自动进行多主题分段
- 输出结构化纪要(可直接进入业务系统)
熙瑾会悟就结合实际落地,聊一聊核心技术方案和一些踩坑经验。
一、整体架构设计
先给一个整体流程图(逻辑层面):
音频输入 → ASR转写 → 语义切分 → 多层聚类 → LLM总结 → 结构化输出
可以拆成 6 个核心模块:

二、主题分段:解决"会议一坨文本"的问题
1. 为什么要做主题分段?
ASR 转写后的内容,本质是时间序列文本流 :
A:我们先讨论项目进度...
B:我这边接口还没完成...
A:那下一个问题是预算...
如果直接丢给 LLM,总结效果通常很差:
- 上下文过长(超 token)
- 主题混杂
- 总结不聚焦
2. 技术方案
这里我们采用的是:语义相似度 + 滑动窗口切分
核心步骤:
- 每句话生成 embedding(向量化)
- 计算相邻句子的语义相似度
- 当相似度低于阈值 → 判定为"主题切换点"
简单示意:

3. 使用技术
- 向量模型:bge-large-zh / text-embedding-3-large
- 相似度计算:余弦相似度
- 分段策略:动态阈值 + 最小段落长度控制
三、多层聚类:让主题更"干净"
单纯切分还不够,因为:
👉 同一主题可能被多次打断
所以我们引入 多层聚类(Hierarchical Clustering) 。
1. 思路
- 第一层:时间切分(粗粒度)
- 第二层:语义聚类(细粒度)
2. 聚类方法
常用两种:
- KMeans(适合已知主题数量)
- 层次聚类(推荐)
我们最终选择:
👉 Agglomerative Clustering(凝聚层次聚类)
优点:
- 不需要预设 K
- 更符合会议"逐步展开"的特点
3. 聚类效果
主题A:
-
进度讨论
-
人员安排
主题B:
-
预算问题
-
成本评估
四、纪要生成:不是简单"总结"
很多人一开始会这么做:
请帮我总结这段会议内容
效果通常是:
- 空洞
- 不结构化
- 不可用
1. 正确做法:结构化 Prompt
我们定义统一输出格式:
{
"主题": "",
"结论": "",
"关键讨论": [],
"风险点": [],
"待办事项": []
}
2. Prompt 设计(关键)
你是一个会议纪要助手,请按照以下结构输出:
-
主题
-
关键结论
-
讨论要点(列表)
-
风险点
-
待办事项(必须包含责任人)
五、待办事项抽取:核心价值点
这是业务最关心的能力之一。
1. 难点
待办事项通常是隐式表达:
- "这个你下周跟一下"
- "我们后面再确认一下接口"
- "这个需要王总拍板"
2. 技术方案
采用两阶段:
第一阶段:候选句抽取
- 基于规则 + 关键词(如:需要、安排、确认、跟进)
第二阶段:LLM 精抽取
输出结构:
{
"task": "",
"owner": "",
"deadline": ""
}
六、时序总结:还原会议"过程"
普通总结的问题是:
👉 只有结果,没有过程
解决方案
按照时间线输出:
10:00 - 项目进度讨论
10:20 - 技术方案分歧
10:45 - 达成初步共识
技术点
- 时间戳对齐(ASR 提供)
- 分段结果映射回时间轴
七、角色总结:谁说了什么
这是提升可读性的关键。
实现方式
依赖:
👉 声纹识别 + 说话人分离(Speaker Diarization)
输出:
张三:
-
负责接口开发
-
提出延期风险
李四:
-
提供解决方案
-
确认资源支持
八、LLM 流程优化(性能关键)
目标:
👉 1 小时会议,20 分钟内完成总结
1. 常见问题
- Token 超限
- 单次调用太慢
- 成本高
2. 优化策略
(1)分块并行处理

(2)Map-Reduce 架构
- Map:每段总结
- Reduce:全局汇总
(3)缓存机制
- 相同片段不重复计算
- embedding 结果缓存
(4)模型组合
- 小模型:分类 / 抽取
- 大模型:总结 / 推理
九、效果总结
最终系统可以做到:
- ✅ 多主题自动分段
- ✅ 结构化纪要输出
- ✅ 待办事项自动提取
- ✅ 角色/时序总结
- ✅ 1 小时会议 20 分钟内完成分析
熙瑾会悟以"离线AI会议秘书"为核心形态,支持私有化部署,确保数据在本地闭环处理,满足高安全与高保密场景需求。同时,系统支持灵活的服务模式:服务器版可实现多会议并发处理,适用于企业级集中部署;单机版具备指令控制、即插即用与轻量化特点,适合中小规模快速接入;此外也可通过SDK/API形式输出单项能力,如纪要生成或知识问答能力,方便嵌入现有业务系统。