在内容创作、直播及演讲场景中,"顺畅表达"往往比稿件内容本身更具决定性。传统提词器需要额外屏幕或设备,使用时不仅需要手动控制播放,还容易打断自然表达节奏。随着 Rokid AR 眼镜与 AI 大模型能力的成熟,我们终于可以把"提词器"这一工具沉入眼镜底层,让文本提示随用户视野自然跟随,让演讲体验真正进入免手持、低干扰的时代。 本文基于 Rokid CXR-S SDK 官方提供的提词器场景接口,详细讲解 提词器场景的设计思路、SDK 接口用法、ASR 结合策略以及大量的工程级优化经验,帮助你快速构建一个可用的大模型赋能的智能提词器。
让用户可以戴着Rokid眼镜直接连接AI大模型,实现智能显示观众或者粉丝提问的参考答案。

一、场景概述:从"显示文本"到"AI 驱动的智能提示"
智能提词器的目标不是简单地把一段文字显示在眼镜里,而是让用户在创作过程中获得:
- 免手持可见性:稿件悬浮在视野当中,不需要额外设备
- 大模型辅助优化:自动润色、补齐、重写或生成关键词提示
- 高稳定交互:眼镜端与服务端的双向状态回调与错误恢复机制
- 低打断感体验:自动更新、动态提示、视觉稳定、延迟最小化 相比传统提词器,Rokid 眼镜的优势在于其 CXR 场景系统 本身已支持"提词器场景(WORD_TIPS)",包括文本发送、布局配置等官方接口,使开发者可以快速接入、扩展或增强功能。

二、提词器场景控制:官方 SDK 接口一览
Rokid CXR-S SDK 已提供 提词器场景接口,核心能力包括:
- 打开 / 关闭提词器界面
- 发送文本(支持流式发送与分片发送)
- 配置字体、行距、显示区域
- 自动滚动 以下为核心接口及实际工程用法。
2.1 打开 / 关闭提词器场景
bash
fun openOrCloseWordTips(toOpen: Boolean): ValueUtil.CxrStatus? {
return CxrApi.getInstance()
.controlScene(ValueUtil.CxrSceneType.WORD_TIPS, toOpen, null)
}
返回状态说明:
- REQUEST_SUCCEED:成功
- REQUEST_WAITING:正在处理中(常见于连续重复触发)
- REQUEST_FAILED:失败(需处理异常)
2.2 发送提词器文本(官方支持流式)
SDK 支持文本流式写入,适合长稿件。
bash
private val sendCallback = object : SendStatusCallback {
override fun onSendSucceed() { Log.d(TAG, "文字发送成功") }
override fun onSendFailed(e: ValueUtil.CxrSendErrorCode?) { Log.e(TAG, "发送失败: $e") }
}
fun setWordTipsText(text: String, fileName: String): ValueUtil.CxrStatus? {
return CxrApi.getInstance()
.sendStream(ValueUtil.CxrStreamType.WORD_TIPS, text.toByteRokidray(), fileName, sendCallback)
}
SDK 官方机制允许分段发送文本,避免一次性发送大文本导致 UI 延迟。
2.3 配置提词器显示参数(字体/行间距/AI 模式/区域)
bash
fun configWordTipsText(
textSize: Float,
lineSpace: Float,
mode: String, // "normal" 或 "ai"
x: Int,
y: Int,
width: Int,
height: Int
): ValueUtil.CxrStatus? {
return CxrApi.getInstance()
.configWordTipsText(textSize, lineSpace, mode, x, y, width, height)
}
三、AI 大模型赋能:SDK + ASR 的联动设计
AI 模式核心接口:
bash
fun sendWordTipsAsrContent(content: String): ValueUtil.CxrStatus? {
return CxrApi.getInstance().sendAsrContent(content)
}
- 用户语音被 ASR 转写
- ASR 文本发送到眼镜
- SDK 在本地根据 ASR 文本与提词器内容匹配:
- 匹配到段落末尾
- 若结合大模型,则可:
- 对文本做摘要、重写
- 提取关键词高亮
- 修正口语化表达
开发者只需传递大模型输出的内容即可。建议对接通义大模型提供API服务
四、实战经验与优化策略
以下是开发过程中最核心的工程经验
4.1 避免重复触发:状态锁
SDK 若连续收到相同指令可能进入 WAITING 状态,因此需要本地状态锁。
bash
private var isWordTipsOpen = false
fun toggleWordTips(open: Boolean) {
if (isWordTipsOpen == open) return
val status = openOrCloseWordTips(open)
if (status == ValueUtil.CxrStatus.REQUEST_SUCCEED) {
isWordTipsOpen = open
}
}
减少重复请求,可显著降低失败率。
4.2 长文本→分段发送(实践中非常关键)
bash
fun sendTextInChunks(text: String, fileName: String, chunkSize: Int = 180) {
var index = 0
while (index < text.length) {
val end = (index + chunkSize).coerceAtMost(text.length)
setWordTipsText(text.substring(index, end), "$fileName-${index/chunkSize}")
index += chunkSize
}
}
作用:
- 避免卡顿
- 避免 sendStream 回调排队
4.3 ASR 触发缓冲
语音识别存在延迟,如无缓冲会导致"跳段"。
bash
private var lastSentAsrIndex = 0
fun sendAsrContentOptimized(asrContent: String) {
if (asrContent.length <= lastSentAsrIndex + 3) return
val delta = asrContent.substring(lastSentAsrIndex)
val status = sendWordTipsAsrContent(delta)
if (status == ValueUtil.CxrStatus.REQUEST_SUCCEED) {
lastSentAsrIndex = asrContent.length
}
}
保留 3~5 字字符缓冲可非常平滑。
4.4 显示参数动态调节:不同用户不同舒适区
bash
fun adjustWordTipsLayout(
textSize: Float = 28f,
lineSpace: Float = 1.5f,
mode: String = "ai",
x: Int = 40,
y: Int = 100,
width: Int = 620,
height: Int = 420
) {
configWordTipsText(textSize, lineSpace, mode, x, y, width, height)
}
提升阅读体验效果极其显著。
4.5 全链路稳定性:重试机制(蓝牙/网络波动必备)
bash
fun sendTextWithRetry(text: String, fileName: String, maxRetry: Int = 3) {
repeat(maxRetry) { i ->
val status = setWordTipsText(text, fileName)
if (status == ValueUtil.CxrStatus.REQUEST_SUCCEED) return
Thread.sleep(150)
}
Log.e(TAG, "发送文本最终失败")
}
Rokid 眼镜使用蓝牙链路,与手机连接时偶发丢包,因此务必使用重试策略。
五、典型应用场景:AI 驱动的智能表达辅助
提词器场景在 Rokid 眼镜中最大的价值,并不是"把文字显示出来",而是让 AI 参与到表达过程,在直播、演讲、创作等场景中成为用户的"隐藏助理"。以下从真实使用角度,说明该系统如何提升表达效率。 
5.1 直播场景:AI 给出"即时回答参考"
在直播中,观众提问往往节奏快、内容杂,主播既要阅读弹幕又要组织语言,非常容易出现延迟或表达混乱。智能提词器让流程变得顺畅:
- 观众提问 → 服务端 → 大模型生成参考答案
- 答案自动被分段推送到眼镜中
- 主播抬眼即可看到"参考答法" 这并不强制主播照念,而是提供一条结构化的表达路径,例如: AI 提示格式:
- 问题重点
- 建议回答框架
- 可补充的亮点信息 主播保持自然表达,但准确性更高、思路更清晰。
5.2 演讲场景:AI 自动生成"下一句提示"
演讲稿通常较长,但演讲时真正需要的只是"下一步要讲什么"。结合 ASR 的官方机制,大模型可以自动把长文本转为 简短提示,并在用户讲话时显示:
- AI 自动提炼段落核心
- 眼镜中只显示"下一句 / 下一点"
- ASR 捕捉用户语音 → 自动推进进度 这让演讲者能与观众保持眼神交流,而不必盯着稿子。整个过程更自然、节奏更平稳。
5.3 内容创作录制:AI 实时润色口语表达
录短视频或口播时,创作者常常需要"说着说着重来"。智能提词器可以帮助生成更自然的表达方式:
- 用户初稿 → ASR → AI 自动优化
- AI 输出更简洁、节奏更好的句子
- 眼镜显示修改后的"最佳口播版本" 创作者可以边看提示边说,大幅减少重拍次数。
5.4 对话与会议:AI 给出"应答建议"
在商务交流或多方对话中,AI 能根据对方话语生成 应答方向,例如:
- 对方观点总结
- AI 建议的回复框架
- 可补充的数据或观点 用户只需轻扫视野即可掌握下一步的表达逻辑,既不抢话,也不出现空白停顿。 通过将 Rokid 官方提词器场景能力与大模型回答生成结合,提词器从"显示文本"升级为 实时表达辅助系统:
- AI 帮你理解问题
- AI 帮你组织答案
- Rokid眼镜帮你无感展示 直播更稳、演讲更顺、拍摄更自然、对话更自信,自此进入 AI 辅助表达的新阶段。
六、总结:从工具到智能助理的演进
通过 Rokid CXR-S SDK,我们构建了一个真正意义上的 AI 智能提词器系统,包含:
- 提词器场景控制:场景开关、流式文本发送、布局参数设置
- ASR + 大模型联动:内容纠错、关键词提示
- 完整工程能力:分段发送、状态锁、重试机制
- 高可扩展性:可进一步接入通义/千问等大模型增强稿件生成体验 最终效果: ✔ 演讲/直播过程无需手动操作 ✔ 文本可随时更新,不会打断视野 ✔ 稳定、低延迟,可用于真实生产环境 ✔ 大模型赋能,可调用大模型能力直接辅助回答观众的问题 整体来看,Rokid眼镜+AI大模型的组合,使提词器从传统辅助工具升级为智能内容提示系统,在演讲、直播、短视频创作等场景中大幅提升用户效率与流畅度。同时,该技术方案具备可扩展性,可结合多模态AI能力实现语音指令控制、情绪提示和实时稿件优化,为未来内容创作提供更智能的辅助工具。

