会中 AI Skill 架构设计解析：3 种人设 × 7 种能力的技术实现

引言：从会后记录到会中参与，AI 会议产品的范式转移

当前主流 AI 会议产品的技术路径高度一致：录制 → 转写 → 摘要 → 交付。这条路径成熟、风险低、用户接受度高。但它有一个结构性限制：无论做得多快，反馈都在决策之后到达。

会议的核心价值不是产出一份文档，而是在有限时间内做出高质量判断。如果 AI 只能在会后提供帮助，它永远触及不到"决策质量"这个核心问题。

明略科技的 Octic 产品选择了另一条路：让 AI 在会议进行中实时辅助。这篇文章解析这套方案的设计逻辑------不是具体的系统实现细节，而是产品和架构层面的设计思考：为什么这样设计，解决什么问题，做了哪些取舍。

一、会中介入的核心矛盾：有用 vs 不打扰

会中 AI 面临一个根本性的设计矛盾：

要有用，就要在关键时刻提供信息
要不打扰，就要在大部分时候保持沉默

如果偏向"有用"，AI 会变成一个不断弹通知的噪声源，破坏会议节奏。如果偏向"不打扰"，AI 就沦为摆设，用户逐渐忘记它的存在。

这个矛盾不是靠调参数能解决的。它需要一种结构性的设计方案------让"什么时候说"和"说什么"成为两个独立可控的维度。

二、人设系统：解决"什么时候说话"的问题

Octic 的方案是引入**人设（Persona）**概念。三种人设代表三种截然不同的介入策略：

Advocate（倡导者）

行为模式：主动支持发言者，补充数据和论据。

设计意图：在方案汇报、提案讨论等场景中，发言者需要支持而非质疑。AI 作为"助攻手"存在。

Challenger（挑战者）

行为模式：对未经验证的断言做核查，提供反面视角。

设计意图：在投资决策、风险评估等场景中，需要有人唱反调。很多团队缺乏敢于质疑的声音，AI 补上这个位置。

Observer（观察者）

行为模式：全程沉默，只记录不输出，仅在被明确询问时响应。

设计意图：头脑风暴、创意讨论需要自由流动的氛围，任何打断都会抑制创造力。

为什么用人设而不是开关？

一种显而易见的替代方案是：让用户逐个开关每种能力。但这种设计对用户的认知负荷过高。用户很难在会前预判"这场会我需要事实查验吗？需要论点强化吗？氛围调谐开不开？"

人设把这些细粒度的配置压缩成一个直觉级选择："这场会我希望 AI 帮我还是挑刺还是闭嘴。"一次选择，背后数十个参数联动调整。这是面向用户心智的设计，不是面向技术参数的设计。

人设的本质是什么？

从产品设计角度看，人设是一组行为策略的预设组合。它决定了每种 Skill 在当前状态下是主动触发、被动响应还是完全关闭。不同人设下，同样的 Skill 有不同的激活条件和输出方式。

三、七种 Skill：解决"能说什么"的问题

人设控制了介入的边界，Skill 定义了介入的内容。Octic 的七种 Skill 覆盖了会议中最常见的信息缺口：

Skill	解决的问题	典型场景
事实查验	有人说的不准确	"去年营收增长 40%"（实际是 28%）
反方质疑	所有人都在点头但没人质疑	"这个方案风险很低"（真的吗？）
论点强化	有观点但缺乏支撑数据	"用户满意度在下降"（具体数据呢？）
信息助手	需要即时查询历史信息	"上次定的方案是什么？"
议题捕捉	重要话题被一笔带过	"对了那个合规的事..."（然后被岔开了）
氛围调谐	讨论过热或跑偏	两个人争论了 15 分钟忘了正题
执行追踪	口头分配但没人记录	"这个你来跟进一下"

设计思考：为什么是这七种？

这七种不是拍脑袋定的。回看任何一场效率不高的会议，问题几乎都可以归入以下几类：

信息不准确（事实查验解决）
思考不全面（反方质疑 + 论点强化解决）
信息不可得（信息助手解决）
重要信息被遗漏（议题捕捉 + 执行追踪解决）
过程失控（氛围调谐解决）

七种 Skill 不是为了"多"，而是为了完备地覆盖会议中可能出现的信息缺口。同时，它们之间边界清晰，不存在两种 Skill 试图解决同一个问题的情况。

Skill 之间的协作关系

七种 Skill 不是孤立运行的。举几个协作场景：

事实查验发现数据有误 → 如果当前是 Challenger 人设，直接输出质疑；如果是 Observer 人设，只做标记
议题捕捉识别到新话题 → 执行追踪关注是否有人领下这个话题
信息助手被查询 → 结果可能同时触发事实查验（发现查到的信息与刚才的讨论不一致）

四、Private AI 记忆：为什么个性化是必须的

通用 AI 模型（即使是最强的）有一个致命短板：它不认识你。

它不知道你公司内部"Phase 2"指的是哪个项目，不知道你的 CFO 关注的核心指标是什么，不知道上次董事会定了什么结论。没有这些上下文，会中辅助的准确度和相关性都会大幅下降。

Octic 的设计是让 AI 基于用户自己的数据持续积累上下文。数据来源包括：历史会议录音、用户文档、Octo（明略的 AI 协作平台）中的会话记录等。

这种积累带来的好处是多维度的：

ASR 层面：随着使用时间增长，语音识别能自动纠正用户环境中常出现的人名、术语、项目代号。不是靠用户手动添加词库，而是从上下文中自动学习。

输出层面：同一场会议，面向不同角色的参会者可以生成不同侧重的输出。CFO 看到的是财务影响和 ROI，CTO 看到的是技术风险和资源需求。这种个性化不是模板切换，而是基于 AI 对每个人关注点的长期理解。

触发层面：AI 知道哪些信息对你来说是"已知"（不需要提醒），哪些是"盲区"（需要特别注意）。避免用已知信息打扰用户，也避免在用户的知识盲区沉默。

隐私设计：数据不出设备

会议是企业最敏感的信息场景之一。谁说了什么、讨论了什么方向、做了什么决定------这些内容的价值和风险都极高。

Octic 的核心隐私原则是所有数据留在本地。记忆积累在设备上完成，推理在设备上执行，原始音频不离开硬件。这不是一个附加的安全功能，而是产品架构的基础约束。

端侧 AI 在隐私层面有结构性优势：不是靠政策承诺"我们不会看你的数据"，而是在架构上做到"数据物理上就不出去"。

五、硬件形态与场景适配

会中 AI 的输入质量直接决定了输出质量。AI 再聪明，如果输入是一段充满噪声和混响的音频，它也无能为力。

Octic 针对不同场景设计了不同的硬件形态：

Octic Note（MagSafe 磁吸）：面向会议室场景。远场拾音需要覆盖整个房间内的多人发言，解决的核心问题是多说话人分离和远场降噪。

Octic Badge / Octic Pin：面向通话和 1v1 场景。振动拾音通过骨传导原理采集单人语音，天然屏蔽环境噪声。

两种形态不是简单的"大小不同"，而是对应完全不同的声学处理策略。这种硬件差异化的设计思路是：在信号源头就解决质量问题，而不是在后端靠算法硬补。

六、行业分析：为什么现在做会中 AI

几个条件在最近两年趋于成熟：

端侧推理能力提升：新一代芯片在合理功耗下已经能跑有意义的 LLM 推理，不再需要所有事都上云
长上下文理解能力提升：基础模型对长对话、多话轮的理解能力显著增强
用户需求真实存在：会后 AI 的渗透率已经很高，但用户反馈"有用但有限"------这说明市场已经准备好接受更进一步的方案

明略科技在这个时间点切入，从产品定位上做了明确的差异化：不参与会后处理的红海竞争，直接瞄准会中辅助这个更高价值但更高难度的赛道。

小结

Octic 的 3 种人设 × 7 种 Skill 设计不是技术炫技，而是对一个真实产品问题的结构性回答：

人设回答了"AI 什么时候该说话"------最难的不是说什么，而是什么时候闭嘴
Skill回答了"AI 能说什么"------不是无限制的通用能力，而是对会议场景信息缺口的精确覆盖
Private AI 记忆回答了"AI 凭什么说得准"------没有个性化上下文，通用模型做不好这件事

三者协同，构成了会中 AI 辅助的完整设计逻辑。方向清晰：让 AI 从会后的记录员，变成会中的参谋。