《10 分钟学习法学习增强助手:基于 Rokid AR 与灵珠 Agent 的实践探索》
摘要
时代背景从来都是影响着人们行为的重要因素。而时代的不断变化,需要我们人类不断地学习来适应它。在信息爆炸与碎片化学习成为常态的当下,往往人们渴望在各种空隙时间来多学一点,多懂得世界一点。
"如何让知识在 10 分钟里真正被吸收?"成为无数学习者的难题。
而如今,在AI的时代背景下,我们学习AI,能够让学习也变得更加高效。此项目正是基于这样的条件与需求,应运而生。
本项目基于 Rokid AR 眼镜 与灵珠 Agent 平台 ,从 0 到 1 落地一个可运行的 AI 学习增强智能体:只需提供文本、语音或图片,就能在 10 分钟内自动生成「摘要 + 思维导图 + Q&A 卡片 + 复习计划」,构成完整的学习闭环。
希望它的功能能够帮助更多学习者适应这个碎片化、短吸收的时代。

一、so,它可以概括成:
一个能把任何学习内容在 10 分钟内变成「脑图 + 卡片 + 复习计划」的 AI 口袋学习教练,专为碎片化场景设计。
二、时代背景与用户痛点:技术之外的关怀
在与我身边好几位大学生访谈时,不断听到相似的声音:
"我不是没学,是记不住。" "每天都有新资料,根本来不及整理。" "通勤 10 分钟,我好想提升一点点,但不知道学什么、怎么学。"
被动信息过载下的无力感,让这个时代仓促而又饱满。 数据也印证了这一点:
- 大学生日均阅读量 11k 字
- 有效留存率 <30%
- 大部分可学习时间被切割成 5--10 分钟碎片
有句话我很喜欢,出自张爱玲:"从前的车马很远,书信很慢,一生只够爱一个人。"
以前的阅读与学习也是一样;而如今,我们需要吸收的知识,实在太多了,杂而又并不简单。
人类认知结构的限制,让我们感到无力与焦虑。
因此,一个能够自动压缩知识、组织结构、提供复习闭环的工具,不只是 "效率工具",更像是给学习者的一种心理支持:我知道你很努力,我帮你把复杂的部分分担掉。
三、产品方案:10 分钟学习法的认知科学基础
10 分钟学习法基于 3 套经典认知理论:
- 艾宾浩斯遗忘曲线:需要逐间隔复习
- 费曼学习法:需要重构知识结构
- 认知负荷理论:需要降低一次处理的内容量
因此,我们将完整的学习闭环压缩为:
5 分钟阅读(AI 摘要)
3 分钟回忆(Q&A 卡片)
2 分钟复盘(复习计划)
整个流程被抽象为可计算的结构性任务,并映射到灵珠 Agent 的 5 节点工作流。

四、用户的使用流程
-
输入内容:
输入的方式包括两种:
- Rokid 眼镜:语音/拍照 OCR
- 手机:复制文字 / 选图
我们发现,AR眼镜在学习过程中的使用范围,远远超乎我们的想象,这点在后续会详细分析。
-
摘要(LLM)
- 限制文本压缩约为原文 10%
- 输出 3 个核心概念(key ideas)
-
思维导图(Mermaid 结构文本)
-
3 层结构
-
每层节点 ≤7 字
-
事实上,我们认为,以往的思维导图过于生硬,太没意思了。我们决定使用一种更活泼、更新颖的思维导图表达方式。
我们会将思维导图的节点设置为"可调节版",对于每一个点,如果你还未学习,那么它是红色的;如果你学习完成,那么它会自动变绿,并且当你完成每一版思维导图,整个画布会有动效,让你更有成就感。
-
-
问答卡片(自动生成 5 题)
- "如何/为什么/对比"句式提升深度
- 答案 ≤20 字
- 自动乱序选项
-
复习计划(结合遗忘曲线)
- 1d/3d/7d 提醒
- AR 端可直接弹出卡片学习
-
语音朗读(可选)
- 骨传导输出 + 眼镜端倒计时浮窗
五、技术架构:灵珠 Agent 的 5 节点工作流设计
css
节点1 输入 →
节点2 LLM 摘要 →
节点3 Mermaid 脑图生成 →
节点4 Q&A 卡片生成 →
节点5 复习计划 + TTS 输出
1)模型选择:云 + 本地双轨容错
| 场景 | 模型 | 特性 |
|---|---|---|
| 云端主力 | glm-4-9b-chat | 首响 600ms,摘要质量高 |
| 眼镜端兜底 | qwen2-1.5b-int4 | 断网可跑,RTF < 0.3 |
当延迟 >5s 时自动降级到本地模型,保证 AR 端实时性。
2)Prompt 关键约束(核心技术壁垒)
- 严禁复用原文整句 → 避免版权风险
- 思维导图必须符合缩进规则
- 卡片问题使用"如何/为什么/对比"提升深度
- 所有输出均返回 JSON,便于端上渲染
Prompt 示例片段:
css
请基于以下文本生成摘要(≤原文10%),禁止逐句复述,并输出 key_ideas。之后生成 3 层 Mermaid 脑图(≤7 字),再生成 5 个 Q&A 卡片...
3)质量保障机制
-
知识图谱 NER 比对
- 若置信度 <0.85,则在眼镜端标红提示潜在幻觉
-
延迟保护
-
5s 自动降级至本地模型
- 避免 AR 端交互卡顿
-
这是灵珠的官网,我们的项目开发基础,都是基于它。

六、AR 交互设计:让学习自然发生
我们希望技术不是打扰,而是嵌入生活的呼吸节奏里 。这也是为什么我们要使用AR眼镜。
一、保持心流状态
想象一下,当你戴上Rokid,一块虚拟的巨幕在你眼前展开。
其实AR一直强调的就是给人带来沉浸感。
没有任何的喧嚣,只有学习与你面对面。
这种包裹感的专注 ,它尊重了学习者最宝贵的东西------注意力。能为用户捍卫这十分钟纯粹的"心流",AR确实是一个非常好的选择。而且对于AR眼镜来说,它的便捷性自然不必多说。
二、让学习在任何姿态下自然发生
学习者不是永远正襟危坐在书桌前。他们可能站着、走着、躺着。
任何场景都应符合学习的碎片化情况。
Rokid AR眼镜解放了双手。
三、赋予了知识生命
当时见到vision pro的震撼感,人类想象中的世界真正浮现在眼前,是多么的感动。
知识有时候过于抽象,那么把它具象化,AR眼镜可以做到。
这种三维、交互、与现实交融的学习体验,将枯燥的记忆变成了有趣的探索。
说完了特点,来介绍下我们项目的流程。
那么具体的实践流程如下,敬请阅读。

AR 端流程
- 语音唤醒:"开始 10 分钟学习"
- 眼镜浮窗显示倒计时
- 内容自动朗读,用户双手保持自由
- 思维导图悬浮展示,可一键切换卡片模式
手机端同步
- 离线缓存卡片
- 锁屏复习
- 查看自己的知识增长曲线
游戏化激励
- 连续 7 天获得"闪电记忆徽章"
- 每完成 10 分钟闭环发学习海报
- 卡片正确率影响个人记忆指数
七、工程总览
实现路线:
-
手机 + Rokid Glasses (AR 显示/语音/拍照) ,手机负责大部分计算与网络,眼镜负责输入(摄像/语音)与渲染/语音输出。理由:平衡延迟、能耗与体验(Rokid 支持快速配对与 Wi-Fi/BT 同步)。Rokid
-
纯眼镜端离线兜底:在眼镜上运行量化 1--2B 模型(或通过 ONNX/TFLite)用于断网场景(质量低于云端),并用云端做质量补偿。Rokid 硬件平台支持 Snapdragon AR1 等架构,需注意内存/算力约束(例如 2GB RAM)。
关键约束(必须在工程中硬编码):
- 响应预算(AR 交互感受):首屏回应 < 1s,完整闭环(云模型)目标 < 5s;若超 5s 自动切换本地模型降级。
- 输出规则:摘要不得复制原文整句(≤10% 原文字数);脑图每层 ≤7 字;卡片答案 ≤20 字(评审对可读性与版权很敏感)。
- 数据格式:所有端间通讯使用 JSON / protobuf;示例 schema 在三节给出。
八、风险与应对措施
我们总结了一些项目可能遇到的风险以及应对措施。
| 风险 | 应对策略 |
|---|---|
| LLM 幻觉 | NER + 置信度 <0.85 自动红字 |
| 眼镜算力不足 | 1.5b 模型 + 云端 fallback |
| 用户留存低 | 徽章体系 + 学习日报 |
| 版权争议 | 摘要 ≤10%,原文引用链接 |
| 数据安全 | 本地加密 + GDPR 兼容 |
十、结语:技术服务的不是效率,而是人
项目自一开始,它的设定,i就不是一款"阅读工具",也不是"一套 AI 能力集成方案"。
其实这样的碎片化学习时间,往往能填补我们觉得空闲或者无聊的某个午后or晚上。
为了提升自己,为什么不使用这样的时间来学习呢?
我们真正想做的,是在技术与学习者之间搭起一座桥------ 一座让知识变轻、让努力更有回报的桥。
希望AR与AI,能助力我们实现这一切。
