基于 Rokid CXR-S SDK 的智能提词器开发全解析——AI 应答辅助系统

在内容创作、直播及演讲场景中，"顺畅表达"往往比稿件内容本身更具决定性。传统提词器需要额外屏幕或设备，使用时不仅需要手动控制播放，还容易打断自然表达节奏。随着 Rokid AR 眼镜与 AI 大模型能力的成熟，我们终于可以把"提词器"这一工具沉入眼镜底层，让文本提示随用户视野自然跟随，让演讲体验真正进入免手持、低干扰的时代。本文基于 Rokid CXR-S SDK 官方提供的提词器场景接口，详细讲解提词器场景的设计思路、SDK 接口用法、ASR 结合策略以及大量的工程级优化经验，帮助你快速构建一个可用的大模型赋能的智能提词器。

让用户可以戴着Rokid眼镜直接连接AI大模型，实现智能显示观众或者粉丝提问的参考答案。

一、场景概述：从"显示文本"到"AI 驱动的智能提示"

智能提词器的目标不是简单地把一段文字显示在眼镜里，而是让用户在创作过程中获得：

免手持可见性：稿件悬浮在视野当中，不需要额外设备
大模型辅助优化：自动润色、补齐、重写或生成关键词提示
高稳定交互：眼镜端与服务端的双向状态回调与错误恢复机制
低打断感体验：自动更新、动态提示、视觉稳定、延迟最小化相比传统提词器，Rokid 眼镜的优势在于其 CXR 场景系统本身已支持"提词器场景（WORD_TIPS）"，包括文本发送、布局配置等官方接口，使开发者可以快速接入、扩展或增强功能。

二、提词器场景控制：官方 SDK 接口一览

Rokid CXR-S SDK 已提供提词器场景接口，核心能力包括：

打开 / 关闭提词器界面
发送文本（支持流式发送与分片发送）
配置字体、行距、显示区域
自动滚动以下为核心接口及实际工程用法。

2.1 打开 / 关闭提词器场景

bash 复制代码

fun openOrCloseWordTips(toOpen: Boolean): ValueUtil.CxrStatus? {
    return CxrApi.getInstance()
        .controlScene(ValueUtil.CxrSceneType.WORD_TIPS, toOpen, null)
}

返回状态说明：

REQUEST_SUCCEED：成功
REQUEST_WAITING：正在处理中（常见于连续重复触发）
REQUEST_FAILED：失败（需处理异常）

2.2 发送提词器文本（官方支持流式）

SDK 支持文本流式写入，适合长稿件。

bash 复制代码

private val sendCallback = object : SendStatusCallback {
    override fun onSendSucceed() { Log.d(TAG, "文字发送成功") }
    override fun onSendFailed(e: ValueUtil.CxrSendErrorCode?) { Log.e(TAG, "发送失败: $e") }
}

fun setWordTipsText(text: String, fileName: String): ValueUtil.CxrStatus? {
    return CxrApi.getInstance()
        .sendStream(ValueUtil.CxrStreamType.WORD_TIPS, text.toByteRokidray(), fileName, sendCallback)
}

SDK 官方机制允许分段发送文本，避免一次性发送大文本导致 UI 延迟。

2.3 配置提词器显示参数（字体/行间距/AI 模式/区域）

bash 复制代码

fun configWordTipsText(
    textSize: Float,
    lineSpace: Float,
    mode: String,  // "normal" 或 "ai"
    x: Int,
    y: Int,
    width: Int,
    height: Int
): ValueUtil.CxrStatus? {
    return CxrApi.getInstance()
        .configWordTipsText(textSize, lineSpace, mode, x, y, width, height)
}

三、AI 大模型赋能：SDK + ASR 的联动设计

AI 模式核心接口：

bash 复制代码

fun sendWordTipsAsrContent(content: String): ValueUtil.CxrStatus? {
    return CxrApi.getInstance().sendAsrContent(content)
}

用户语音被 ASR 转写
ASR 文本发送到眼镜
SDK 在本地根据 ASR 文本与提词器内容匹配：

匹配到段落末尾

若结合大模型，则可：

对文本做摘要、重写
提取关键词高亮
修正口语化表达

开发者只需传递大模型输出的内容即可。建议对接通义大模型提供API服务

四、实战经验与优化策略

以下是开发过程中最核心的工程经验

4.1 避免重复触发：状态锁

SDK 若连续收到相同指令可能进入 WAITING 状态，因此需要本地状态锁。

bash 复制代码

private var isWordTipsOpen = false

fun toggleWordTips(open: Boolean) {
    if (isWordTipsOpen == open) return

    val status = openOrCloseWordTips(open)
    if (status == ValueUtil.CxrStatus.REQUEST_SUCCEED) {
        isWordTipsOpen = open
    }
}

减少重复请求，可显著降低失败率。

4.2 长文本→分段发送（实践中非常关键）

bash 复制代码

fun sendTextInChunks(text: String, fileName: String, chunkSize: Int = 180) {
    var index = 0
    while (index < text.length) {
        val end = (index + chunkSize).coerceAtMost(text.length)
        setWordTipsText(text.substring(index, end), "$fileName-${index/chunkSize}")
        index += chunkSize
    }
}

作用：

避免卡顿
避免 sendStream 回调排队

4.3 ASR 触发缓冲

语音识别存在延迟，如无缓冲会导致"跳段"。

bash 复制代码

private var lastSentAsrIndex = 0

fun sendAsrContentOptimized(asrContent: String) {
    if (asrContent.length <= lastSentAsrIndex + 3) return

    val delta = asrContent.substring(lastSentAsrIndex)
    val status = sendWordTipsAsrContent(delta)
    if (status == ValueUtil.CxrStatus.REQUEST_SUCCEED) {
        lastSentAsrIndex = asrContent.length
    }
}

保留 3～5 字字符缓冲可非常平滑。

4.4 显示参数动态调节：不同用户不同舒适区

bash 复制代码

fun adjustWordTipsLayout(
    textSize: Float = 28f,
    lineSpace: Float = 1.5f,
    mode: String = "ai",
    x: Int = 40,
    y: Int = 100,
    width: Int = 620,
    height: Int = 420
) {
    configWordTipsText(textSize, lineSpace, mode, x, y, width, height)
}

提升阅读体验效果极其显著。

4.5 全链路稳定性：重试机制（蓝牙/网络波动必备）

bash 复制代码

fun sendTextWithRetry(text: String, fileName: String, maxRetry: Int = 3) {
    repeat(maxRetry) { i ->
        val status = setWordTipsText(text, fileName)
        if (status == ValueUtil.CxrStatus.REQUEST_SUCCEED) return
        Thread.sleep(150)
    }
    Log.e(TAG, "发送文本最终失败")
}

Rokid 眼镜使用蓝牙链路，与手机连接时偶发丢包，因此务必使用重试策略。

五、典型应用场景：AI 驱动的智能表达辅助

提词器场景在 Rokid 眼镜中最大的价值，并不是"把文字显示出来"，而是让 AI 参与到表达过程，在直播、演讲、创作等场景中成为用户的"隐藏助理"。以下从真实使用角度，说明该系统如何提升表达效率。

5.1 直播场景：AI 给出"即时回答参考"

在直播中，观众提问往往节奏快、内容杂，主播既要阅读弹幕又要组织语言，非常容易出现延迟或表达混乱。智能提词器让流程变得顺畅：

观众提问 → 服务端 → 大模型生成参考答案
答案自动被分段推送到眼镜中
主播抬眼即可看到"参考答法" 这并不强制主播照念，而是提供一条结构化的表达路径，例如： AI 提示格式：
问题重点
建议回答框架
可补充的亮点信息主播保持自然表达，但准确性更高、思路更清晰。

5.2 演讲场景：AI 自动生成"下一句提示"

演讲稿通常较长，但演讲时真正需要的只是"下一步要讲什么"。结合 ASR 的官方机制，大模型可以自动把长文本转为简短提示，并在用户讲话时显示：

AI 自动提炼段落核心
眼镜中只显示"下一句 / 下一点"
ASR 捕捉用户语音 → 自动推进进度这让演讲者能与观众保持眼神交流，而不必盯着稿子。整个过程更自然、节奏更平稳。

5.3 内容创作录制：AI 实时润色口语表达

录短视频或口播时，创作者常常需要"说着说着重来"。智能提词器可以帮助生成更自然的表达方式：

用户初稿 → ASR → AI 自动优化
AI 输出更简洁、节奏更好的句子
眼镜显示修改后的"最佳口播版本" 创作者可以边看提示边说，大幅减少重拍次数。

5.4 对话与会议：AI 给出"应答建议"

在商务交流或多方对话中，AI 能根据对方话语生成应答方向，例如：

对方观点总结
AI 建议的回复框架
可补充的数据或观点用户只需轻扫视野即可掌握下一步的表达逻辑，既不抢话，也不出现空白停顿。通过将 Rokid 官方提词器场景能力与大模型回答生成结合，提词器从"显示文本"升级为实时表达辅助系统：
AI 帮你理解问题
AI 帮你组织答案
Rokid眼镜帮你无感展示直播更稳、演讲更顺、拍摄更自然、对话更自信，自此进入 AI 辅助表达的新阶段。

六、总结：从工具到智能助理的演进

通过 Rokid CXR-S SDK，我们构建了一个真正意义上的 AI 智能提词器系统，包含：

提词器场景控制：场景开关、流式文本发送、布局参数设置
ASR + 大模型联动：内容纠错、关键词提示
完整工程能力：分段发送、状态锁、重试机制
高可扩展性：可进一步接入通义/千问等大模型增强稿件生成体验最终效果： ✔ 演讲/直播过程无需手动操作 ✔ 文本可随时更新，不会打断视野 ✔ 稳定、低延迟，可用于真实生产环境 ✔ 大模型赋能，可调用大模型能力直接辅助回答观众的问题整体来看，Rokid眼镜+AI大模型的组合，使提词器从传统辅助工具升级为智能内容提示系统，在演讲、直播、短视频创作等场景中大幅提升用户效率与流畅度。同时，该技术方案具备可扩展性，可结合多模态AI能力实现语音指令控制、情绪提示和实时稿件优化，为未来内容创作提供更智能的辅助工具。