会中 AI Skill 架构设计解析:3 种人设 × 7 种能力的技术实现

引言:从会后记录到会中参与,AI 会议产品的范式转移

当前主流 AI 会议产品的技术路径高度一致:录制 → 转写 → 摘要 → 交付。这条路径成熟、风险低、用户接受度高。但它有一个结构性限制:无论做得多快,反馈都在决策之后到达。

会议的核心价值不是产出一份文档,而是在有限时间内做出高质量判断。如果 AI 只能在会后提供帮助,它永远触及不到"决策质量"这个核心问题。

明略科技的 Octic 产品选择了另一条路:让 AI 在会议进行中实时辅助。这篇文章解析这套方案的设计逻辑------不是具体的系统实现细节,而是产品和架构层面的设计思考:为什么这样设计,解决什么问题,做了哪些取舍。

一、会中介入的核心矛盾:有用 vs 不打扰

会中 AI 面临一个根本性的设计矛盾:

  • 要有用,就要在关键时刻提供信息
  • 要不打扰,就要在大部分时候保持沉默

如果偏向"有用",AI 会变成一个不断弹通知的噪声源,破坏会议节奏。如果偏向"不打扰",AI 就沦为摆设,用户逐渐忘记它的存在。

这个矛盾不是靠调参数能解决的。它需要一种结构性的设计方案------让"什么时候说"和"说什么"成为两个独立可控的维度。

二、人设系统:解决"什么时候说话"的问题

Octic 的方案是引入**人设(Persona)**概念。三种人设代表三种截然不同的介入策略:

Advocate(倡导者)

行为模式:主动支持发言者,补充数据和论据。

设计意图:在方案汇报、提案讨论等场景中,发言者需要支持而非质疑。AI 作为"助攻手"存在。

Challenger(挑战者)

行为模式:对未经验证的断言做核查,提供反面视角。

设计意图:在投资决策、风险评估等场景中,需要有人唱反调。很多团队缺乏敢于质疑的声音,AI 补上这个位置。

Observer(观察者)

行为模式:全程沉默,只记录不输出,仅在被明确询问时响应。

设计意图:头脑风暴、创意讨论需要自由流动的氛围,任何打断都会抑制创造力。

为什么用人设而不是开关?

一种显而易见的替代方案是:让用户逐个开关每种能力。但这种设计对用户的认知负荷过高。用户很难在会前预判"这场会我需要事实查验吗?需要论点强化吗?氛围调谐开不开?"

人设把这些细粒度的配置压缩成一个直觉级选择:"这场会我希望 AI 帮我还是挑刺还是闭嘴。"一次选择,背后数十个参数联动调整。这是面向用户心智的设计,不是面向技术参数的设计。

人设的本质是什么?

从产品设计角度看,人设是一组行为策略的预设组合。它决定了每种 Skill 在当前状态下是主动触发、被动响应还是完全关闭。不同人设下,同样的 Skill 有不同的激活条件和输出方式。

三、七种 Skill:解决"能说什么"的问题

人设控制了介入的边界,Skill 定义了介入的内容。Octic 的七种 Skill 覆盖了会议中最常见的信息缺口:

Skill 解决的问题 典型场景
事实查验 有人说的不准确 "去年营收增长 40%"(实际是 28%)
反方质疑 所有人都在点头但没人质疑 "这个方案风险很低"(真的吗?)
论点强化 有观点但缺乏支撑数据 "用户满意度在下降"(具体数据呢?)
信息助手 需要即时查询历史信息 "上次定的方案是什么?"
议题捕捉 重要话题被一笔带过 "对了那个合规的事..."(然后被岔开了)
氛围调谐 讨论过热或跑偏 两个人争论了 15 分钟忘了正题
执行追踪 口头分配但没人记录 "这个你来跟进一下"

设计思考:为什么是这七种?

这七种不是拍脑袋定的。回看任何一场效率不高的会议,问题几乎都可以归入以下几类:

  1. 信息不准确(事实查验解决)
  2. 思考不全面(反方质疑 + 论点强化解决)
  3. 信息不可得(信息助手解决)
  4. 重要信息被遗漏(议题捕捉 + 执行追踪解决)
  5. 过程失控(氛围调谐解决)

七种 Skill 不是为了"多",而是为了完备地覆盖会议中可能出现的信息缺口。同时,它们之间边界清晰,不存在两种 Skill 试图解决同一个问题的情况。

Skill 之间的协作关系

七种 Skill 不是孤立运行的。举几个协作场景:

  • 事实查验发现数据有误 → 如果当前是 Challenger 人设,直接输出质疑;如果是 Observer 人设,只做标记
  • 议题捕捉识别到新话题 → 执行追踪关注是否有人领下这个话题
  • 信息助手被查询 → 结果可能同时触发事实查验(发现查到的信息与刚才的讨论不一致)

四、Private AI 记忆:为什么个性化是必须的

通用 AI 模型(即使是最强的)有一个致命短板:它不认识你。

它不知道你公司内部"Phase 2"指的是哪个项目,不知道你的 CFO 关注的核心指标是什么,不知道上次董事会定了什么结论。没有这些上下文,会中辅助的准确度和相关性都会大幅下降。

Octic 的设计是让 AI 基于用户自己的数据持续积累上下文。数据来源包括:历史会议录音、用户文档、Octo(明略的 AI 协作平台)中的会话记录等。

这种积累带来的好处是多维度的:

ASR 层面:随着使用时间增长,语音识别能自动纠正用户环境中常出现的人名、术语、项目代号。不是靠用户手动添加词库,而是从上下文中自动学习。

输出层面:同一场会议,面向不同角色的参会者可以生成不同侧重的输出。CFO 看到的是财务影响和 ROI,CTO 看到的是技术风险和资源需求。这种个性化不是模板切换,而是基于 AI 对每个人关注点的长期理解。

触发层面:AI 知道哪些信息对你来说是"已知"(不需要提醒),哪些是"盲区"(需要特别注意)。避免用已知信息打扰用户,也避免在用户的知识盲区沉默。

隐私设计:数据不出设备

会议是企业最敏感的信息场景之一。谁说了什么、讨论了什么方向、做了什么决定------这些内容的价值和风险都极高。

Octic 的核心隐私原则是所有数据留在本地。记忆积累在设备上完成,推理在设备上执行,原始音频不离开硬件。这不是一个附加的安全功能,而是产品架构的基础约束。

端侧 AI 在隐私层面有结构性优势:不是靠政策承诺"我们不会看你的数据",而是在架构上做到"数据物理上就不出去"。

五、硬件形态与场景适配

会中 AI 的输入质量直接决定了输出质量。AI 再聪明,如果输入是一段充满噪声和混响的音频,它也无能为力。

Octic 针对不同场景设计了不同的硬件形态:

Octic Note(MagSafe 磁吸):面向会议室场景。远场拾音需要覆盖整个房间内的多人发言,解决的核心问题是多说话人分离和远场降噪。

Octic Badge / Octic Pin:面向通话和 1v1 场景。振动拾音通过骨传导原理采集单人语音,天然屏蔽环境噪声。

两种形态不是简单的"大小不同",而是对应完全不同的声学处理策略。这种硬件差异化的设计思路是:在信号源头就解决质量问题,而不是在后端靠算法硬补。

六、行业分析:为什么现在做会中 AI

几个条件在最近两年趋于成熟:

  1. 端侧推理能力提升:新一代芯片在合理功耗下已经能跑有意义的 LLM 推理,不再需要所有事都上云
  2. 长上下文理解能力提升:基础模型对长对话、多话轮的理解能力显著增强
  3. 用户需求真实存在:会后 AI 的渗透率已经很高,但用户反馈"有用但有限"------这说明市场已经准备好接受更进一步的方案

明略科技在这个时间点切入,从产品定位上做了明确的差异化:不参与会后处理的红海竞争,直接瞄准会中辅助这个更高价值但更高难度的赛道。

小结

Octic 的 3 种人设 × 7 种 Skill 设计不是技术炫技,而是对一个真实产品问题的结构性回答:

  • 人设回答了"AI 什么时候该说话"------最难的不是说什么,而是什么时候闭嘴
  • Skill回答了"AI 能说什么"------不是无限制的通用能力,而是对会议场景信息缺口的精确覆盖
  • Private AI 记忆回答了"AI 凭什么说得准"------没有个性化上下文,通用模型做不好这件事

三者协同,构成了会中 AI 辅助的完整设计逻辑。方向清晰:让 AI 从会后的记录员,变成会中的参谋。

相关推荐
墨神谕1 小时前
人工智能(三)— 神经网络的训练
人工智能·神经网络·机器学习
RyFit1 小时前
Java + AI 实战:Spring AI 从入门到企业级落地
java·人工智能·spring
Raink老师2 小时前
【AI面试临阵磨枪-69】如何设计一个支持百万级工具的 Agent 系统?如何快速路由与选择工具?
人工智能·面试·职场和发展
oort1232 小时前
My Name:开发者部署平台OORT.sh—— AI时代的开发者部署平台,是Vibe Coding闺蜜
人工智能
Raink老师2 小时前
【AI面试临阵磨枪-77】音视频 + AI:实时字幕、翻译、降噪、虚拟人、多模态对话
人工智能·面试·音视频
Agent手记2 小时前
跨境电商如何用AI Agent自动运营多平台店铺?企业级「龙虾」矩阵智能体全流程落地指南
大数据·人工智能·ai·矩阵
DisonTangor2 小时前
【字节拥抱开源】Lance: 多任务协同的统一多模态建模
人工智能·ai作画·开源·aigc
冬奇Lab2 小时前
Agent系列(七):知识库集成——Agent 调用 RAG 的正确姿势
人工智能·agent