引言:从会后记录到会中参与,AI 会议产品的范式转移
当前主流 AI 会议产品的技术路径高度一致:录制 → 转写 → 摘要 → 交付。这条路径成熟、风险低、用户接受度高。但它有一个结构性限制:无论做得多快,反馈都在决策之后到达。
会议的核心价值不是产出一份文档,而是在有限时间内做出高质量判断。如果 AI 只能在会后提供帮助,它永远触及不到"决策质量"这个核心问题。
明略科技的 Octic 产品选择了另一条路:让 AI 在会议进行中实时辅助。这篇文章解析这套方案的设计逻辑------不是具体的系统实现细节,而是产品和架构层面的设计思考:为什么这样设计,解决什么问题,做了哪些取舍。
一、会中介入的核心矛盾:有用 vs 不打扰
会中 AI 面临一个根本性的设计矛盾:
- 要有用,就要在关键时刻提供信息
- 要不打扰,就要在大部分时候保持沉默
如果偏向"有用",AI 会变成一个不断弹通知的噪声源,破坏会议节奏。如果偏向"不打扰",AI 就沦为摆设,用户逐渐忘记它的存在。
这个矛盾不是靠调参数能解决的。它需要一种结构性的设计方案------让"什么时候说"和"说什么"成为两个独立可控的维度。
二、人设系统:解决"什么时候说话"的问题
Octic 的方案是引入**人设(Persona)**概念。三种人设代表三种截然不同的介入策略:
Advocate(倡导者)
行为模式:主动支持发言者,补充数据和论据。
设计意图:在方案汇报、提案讨论等场景中,发言者需要支持而非质疑。AI 作为"助攻手"存在。
Challenger(挑战者)
行为模式:对未经验证的断言做核查,提供反面视角。
设计意图:在投资决策、风险评估等场景中,需要有人唱反调。很多团队缺乏敢于质疑的声音,AI 补上这个位置。
Observer(观察者)
行为模式:全程沉默,只记录不输出,仅在被明确询问时响应。
设计意图:头脑风暴、创意讨论需要自由流动的氛围,任何打断都会抑制创造力。
为什么用人设而不是开关?
一种显而易见的替代方案是:让用户逐个开关每种能力。但这种设计对用户的认知负荷过高。用户很难在会前预判"这场会我需要事实查验吗?需要论点强化吗?氛围调谐开不开?"
人设把这些细粒度的配置压缩成一个直觉级选择:"这场会我希望 AI 帮我还是挑刺还是闭嘴。"一次选择,背后数十个参数联动调整。这是面向用户心智的设计,不是面向技术参数的设计。
人设的本质是什么?
从产品设计角度看,人设是一组行为策略的预设组合。它决定了每种 Skill 在当前状态下是主动触发、被动响应还是完全关闭。不同人设下,同样的 Skill 有不同的激活条件和输出方式。
三、七种 Skill:解决"能说什么"的问题
人设控制了介入的边界,Skill 定义了介入的内容。Octic 的七种 Skill 覆盖了会议中最常见的信息缺口:
| Skill | 解决的问题 | 典型场景 |
|---|---|---|
| 事实查验 | 有人说的不准确 | "去年营收增长 40%"(实际是 28%) |
| 反方质疑 | 所有人都在点头但没人质疑 | "这个方案风险很低"(真的吗?) |
| 论点强化 | 有观点但缺乏支撑数据 | "用户满意度在下降"(具体数据呢?) |
| 信息助手 | 需要即时查询历史信息 | "上次定的方案是什么?" |
| 议题捕捉 | 重要话题被一笔带过 | "对了那个合规的事..."(然后被岔开了) |
| 氛围调谐 | 讨论过热或跑偏 | 两个人争论了 15 分钟忘了正题 |
| 执行追踪 | 口头分配但没人记录 | "这个你来跟进一下" |
设计思考:为什么是这七种?
这七种不是拍脑袋定的。回看任何一场效率不高的会议,问题几乎都可以归入以下几类:
- 信息不准确(事实查验解决)
- 思考不全面(反方质疑 + 论点强化解决)
- 信息不可得(信息助手解决)
- 重要信息被遗漏(议题捕捉 + 执行追踪解决)
- 过程失控(氛围调谐解决)
七种 Skill 不是为了"多",而是为了完备地覆盖会议中可能出现的信息缺口。同时,它们之间边界清晰,不存在两种 Skill 试图解决同一个问题的情况。
Skill 之间的协作关系
七种 Skill 不是孤立运行的。举几个协作场景:
- 事实查验发现数据有误 → 如果当前是 Challenger 人设,直接输出质疑;如果是 Observer 人设,只做标记
- 议题捕捉识别到新话题 → 执行追踪关注是否有人领下这个话题
- 信息助手被查询 → 结果可能同时触发事实查验(发现查到的信息与刚才的讨论不一致)
四、Private AI 记忆:为什么个性化是必须的
通用 AI 模型(即使是最强的)有一个致命短板:它不认识你。
它不知道你公司内部"Phase 2"指的是哪个项目,不知道你的 CFO 关注的核心指标是什么,不知道上次董事会定了什么结论。没有这些上下文,会中辅助的准确度和相关性都会大幅下降。
Octic 的设计是让 AI 基于用户自己的数据持续积累上下文。数据来源包括:历史会议录音、用户文档、Octo(明略的 AI 协作平台)中的会话记录等。
这种积累带来的好处是多维度的:
ASR 层面:随着使用时间增长,语音识别能自动纠正用户环境中常出现的人名、术语、项目代号。不是靠用户手动添加词库,而是从上下文中自动学习。
输出层面:同一场会议,面向不同角色的参会者可以生成不同侧重的输出。CFO 看到的是财务影响和 ROI,CTO 看到的是技术风险和资源需求。这种个性化不是模板切换,而是基于 AI 对每个人关注点的长期理解。
触发层面:AI 知道哪些信息对你来说是"已知"(不需要提醒),哪些是"盲区"(需要特别注意)。避免用已知信息打扰用户,也避免在用户的知识盲区沉默。
隐私设计:数据不出设备
会议是企业最敏感的信息场景之一。谁说了什么、讨论了什么方向、做了什么决定------这些内容的价值和风险都极高。
Octic 的核心隐私原则是所有数据留在本地。记忆积累在设备上完成,推理在设备上执行,原始音频不离开硬件。这不是一个附加的安全功能,而是产品架构的基础约束。
端侧 AI 在隐私层面有结构性优势:不是靠政策承诺"我们不会看你的数据",而是在架构上做到"数据物理上就不出去"。
五、硬件形态与场景适配
会中 AI 的输入质量直接决定了输出质量。AI 再聪明,如果输入是一段充满噪声和混响的音频,它也无能为力。
Octic 针对不同场景设计了不同的硬件形态:
Octic Note(MagSafe 磁吸):面向会议室场景。远场拾音需要覆盖整个房间内的多人发言,解决的核心问题是多说话人分离和远场降噪。
Octic Badge / Octic Pin:面向通话和 1v1 场景。振动拾音通过骨传导原理采集单人语音,天然屏蔽环境噪声。
两种形态不是简单的"大小不同",而是对应完全不同的声学处理策略。这种硬件差异化的设计思路是:在信号源头就解决质量问题,而不是在后端靠算法硬补。
六、行业分析:为什么现在做会中 AI
几个条件在最近两年趋于成熟:
- 端侧推理能力提升:新一代芯片在合理功耗下已经能跑有意义的 LLM 推理,不再需要所有事都上云
- 长上下文理解能力提升:基础模型对长对话、多话轮的理解能力显著增强
- 用户需求真实存在:会后 AI 的渗透率已经很高,但用户反馈"有用但有限"------这说明市场已经准备好接受更进一步的方案
明略科技在这个时间点切入,从产品定位上做了明确的差异化:不参与会后处理的红海竞争,直接瞄准会中辅助这个更高价值但更高难度的赛道。
小结
Octic 的 3 种人设 × 7 种 Skill 设计不是技术炫技,而是对一个真实产品问题的结构性回答:
- 人设回答了"AI 什么时候该说话"------最难的不是说什么,而是什么时候闭嘴
- Skill回答了"AI 能说什么"------不是无限制的通用能力,而是对会议场景信息缺口的精确覆盖
- Private AI 记忆回答了"AI 凭什么说得准"------没有个性化上下文,通用模型做不好这件事
三者协同,构成了会中 AI 辅助的完整设计逻辑。方向清晰:让 AI 从会后的记录员,变成会中的参谋。