基于 Rokid 灵珠 AI 平台：OCR 工作流与学术智能体搭建实操指南

背景

学术科研场景中，文献阅读、核心信息提取存在人工效率低、手持操作不便等痛点。依托 Rokid Glasses 智能眼镜与灵珠 AI 开发平台，搭建适配 AI 眼镜的文献速读 AI 助手，通过 OCR 识别、结构化分析及语音播报实现免手持高效闭环，本指南聚焦实操，指导完成相关配置与搭建，助力提升科研效率。

Rokid 灵珠AI开发平台核心简介

Rokid 自研 AI 开发平台，基于多模态大模型与轻量化架构，打造零门槛、全栈化的 AI 开发体系，大幅降低应用开发落地成本。平台深度适配 Rokid Glasses 智能眼镜，助力开发者快速构建视觉识别、语音交互等穿戴式 AI 应用，拓展 AI + 物理世界的交互场景

可视化编排工具

预置能力组件库（含对话引擎、视觉识别模块等）

原型设计到云端 / 端侧的敏捷部署

设备专属适配接口

低功耗运行优化方案

论文/文献速读AI助手介绍

论文/文献速读AI助手------专为Rokid AI眼镜打造的免手持学术工具，基于Rokid灵珠平台与豆包多模态大模型，实现拍图即读、语音播报的文献精读体验。

核心功能：拍摄文献图片 → OCR识别 → 过滤非文字内容 → 结构化提取研究要点（方法、结论等）→ 生成简洁摘要 → 语音播报。

核心优势：零代码部署、高精度识别复杂排版、适配实验室/图书馆/外出等场景、全程免手动操作。

适用人群：科研人员、学生，快速获取论文核心信息，提升阅读效率。

OCR核心工作流搭建步骤

1、Rokid工作流配置

2、开始节点工作流的入口：整个工作流的起点，负责定义工作流的输入参数，也就是用户系统调用这个工作流时，需要传入什么数据

str_USER_INPUT：文本类型的用户输入（当前 OCR 场景暂未使用，可留空）

USER_INPUT_IMAGE：图片类型的用户输入（支持直接上传图片作为 OCR 源）

3、拍照节点图片采集环节：负责获取待识别的图片，是 OCR 的数据源

输入：接收开始节点的USER_INPUT_IMAGE（也可选择不依赖，直接调用相机拍照）

输出：photo（拍照上传得到的图片文件，格式为图片类型变量）

4、大模型节点OCR 识别核心：整个工作流的核心大脑，负责对图片执行 OCR 文字识别，把图片里的文字提取出来

模型选择：doubao-seed-1-6-vision-250815（豆包多模态视觉深度思考模型）

模型特点适用场景

doubao-seed-1-6-vision 视觉深度思考，OCR 精度高文献 OCR、复杂排版识别

Doubao-Seed-1.6 全模态通用，支持 auto/thin 通用对话、多任务处理

Doubao-Seed-1.6-flash 推理速度极致实时语音播报、低延迟场景

Doubao-1.5-pro 通用主力模型通用文本处理、知识问答

视觉理解输入：photo 变量，绑定拍照节点输出的photo图片

系统提示词：为对话提供系统级指导，如设定人设和回复逻辑
bash 复制代码
# 角色：论文/文献速读AI助手
专为Rokid AI 眼镜打造的免手式学术文献智能分析工具，核心服务于文献快速精读与信息提取。

## 【前置必须校验：核心入口】
请严格执行以下判断逻辑，不可跳过，必须使用图片{{photo}}输入：
1. 输入识别：对输入图片{{photo}}执行高精度OCR文字识别，判断是否包含清晰、可识别的学术文献正文内容。
2. 非文献拦截（硬规则）：
   - 若OCR识别结果为空、非文字内容（如头像、风景、表情包、涂鸦），或内容无效，
   - 立即终止所有分析流程，严格只返回一句话：检测到非文字内容，请重新拍摄包含清晰文字的学术文献图片。**
   - 禁止进行任何图像描述、闲聊或额外回复。
3. 有效文献分析：若确认输入为有效学术文献内容，请严格遵循下方人设要求，完成结构化分析并输出结果。

## 【目标与技能：核心任务】
1. 对学术文献完成精准结构化信息提取
2. 以简洁、口语化的内容输出，适配眼镜端语音播报，实现全程免手操作
3. 学术文献结构化分析，精准提炼核心观点、研究方法、结论等关键信息

## 【输出格式：严格遵守Markdown结构】
总输出长度控制在300字以内，分点明确，无多余空行：

### 1. 核心观点
1句话提炼研究核心，紧跟标题后，不单独成行

### 2. 研究方法
核心研究路径说明，简洁明了

### 3. 研究结论
核心研究成果总结，1-2句话

### 4. 逻辑框架
- 要点1（≤20字）
- 要点2（≤20字）
- 要点3（≤20字）

### 5. 摘要笔记
150字内可直接复用的文献摘要

## 【限制：硬性兜底】
- 必须优先执行OCR校验，非文字内容直接返回指定提示，不做任何额外分析
- 语言简洁口语化，避免复杂长句与专业术语堆砌，适配AI眼镜语音播报
- 严格遵循指定输出结构，不得随意增减模块、改变格式
- 仅围绕输入文献内容分析，不生成无关信息、不发散拓展
5、结束节点：工作流的最终节点，用于返回工作流运行后的结果信息

模型	特点	适用场景
doubao-seed-1-6-vision	视觉深度思考，OCR 精度高	文献 OCR、复杂排版识别
Doubao-Seed-1.6	全模态通用，支持 auto/thin	通用对话、多任务处理
Doubao-Seed-1.6-flash	推理速度极致	实时语音播报、低延迟场景
Doubao-1.5-pro	通用主力模型	通用文本处理、知识问答

学术文献速读智能体搭建

单 Agent（自主规划模式）

用户与大模型进行对话，由一个大模型自主思考决策，适用于较为简单的业务逻辑

1、创建智能体

智能体名称：输入独一无二的名字

选择类别：选学习或工作（匹配文献工具属性）

功能介绍：填写核心卖点

上传图标：自定义展示图标

测试验证：输入话术测试唤醒词匹配度

点击确认：完成智能体创建

2、人设与回复逻辑：设定智能体为 Rokid AI 眼镜专属的文献速读助手，核心功能是免手持学术文献智能分析与精准信息提取。通过前置校验机制先过滤非文字无效内容，确保输入为有效学术文献后再执行分析，输出要求简洁口语化并适配语音播报，全程无人工操作
bash 复制代码
# 角色：论文/文献速读AI助手
专为Rokid AI眼镜打造的免手式学术文献智能分析工具，核心服务于文献快速精读与信息提取。

## 目标：
1.  对学术文献完成精准结构化信息提取
2.  以简洁、口语化的内容输出，适配眼镜端语音播报，实现全程免手操作

## 技能：
1.  学术文献结构化分析，精准提炼核心观点、研究方法、结论等关键信息
2.  输出内容适配语音播报，语言简洁、逻辑清晰，无冗余信息

## 输出格式：
严格遵循以下Markdown结构输出，排版清晰、分点明确，无多余空行：
### 1. 核心观点
1句话提炼研究核心，紧跟标题后，不单独成行
### 2. 研究方法
核心研究路径说明，简洁明了
### 3. 研究结论
核心研究成果总结，1-2句话
### 4. 逻辑框架
- 要点1（≤20字）
- 要点2（≤20字）
- 要点3（≤20字）
### 5. 摘要笔记
150字内可直接复用的文献摘要

## 限制：
- 总输出长度严格控制在300字以内，播报时长不超过1分钟
- 语言简洁口语化，避免复杂长句、专业术语堆砌，适配语音播报
- 严格遵循指定输出结构，不得随意增减模块、改变格式
- 仅围绕输入文献内容分析，不生成无关信息、不发散拓展
3、入参类型：配置为图片首轮传递，完全匹配 AI 眼镜拍照或用户上传文献图片的输入场景，规范了输入数据格式，为后续 OCR 工作流提供标准化的图片数据源，保证流程触发与数据接收的准确性

4、工作流：集成已搭建的 OCR 核心工作流，串联接收文献图片→前置校验→结构化分析→生成播报适配内容的自动化流程，用户输入图片后自动触发 OCR 识别与文献信息提炼，无需手动干预，同时支持工作流独立迭代优化，保障识别逻辑的稳定性与可扩展性

单 Agent（对话流模式）

该智能体会严格按照对话流编排的流程进行执行，支持保留多轮历史对话记录，适用于结构化或有明确流程的任务

1、对话流配置

开始节点：工作流的启动入口，接收用户输入文本 / 图片，作为整个流程的初始数据来源

选择器IF节点：条件分支节点，判断用户输入是否为空，以此分流流程走向

拍照节点：图像采集节点，用于获取用户拍摄上传的图片，输出photo图像数据

大模型_1 节点：视觉大模型推理节点，接收拍照节点的图像数据，调用豆包视觉大模型完成 OCR 等图像理解任务

大模型节点：视觉大模型推理节点，接收选择器分流的图像数据，调用同款视觉大模型处理用户直接上传的图片

结束节点：工作流的终止节点，汇总两个大模型的处理结果，以文本形式返回给用户

2、入参类型：文字类型来自眼镜端的语音输入，图片类型将直接调用眼镜相机拍摄图片

3、智能体调式

Rokid Glasses眼镜联调校验流程

1、Rokid软件APP打开，助手页面右上角打开设置

2、找到开发者

3、点击智能体调试

4、点击需要调试的智能体

5、智能体功能验证调试

6、助手页面展示

7、上下文记忆的答疑智能体，可以让它提炼论文要点，再让它深入拆解，接着顺势问科技革命、解释概念，它全程都记着你是围绕这篇论文在聊，始终顺着之前的逻辑往下接，不给你泛泛的回答，每一处都精准扣着前面的内容，越聊越顺手，不用你一遍遍重复前提

核心功能展示

文本分析能力展示

代码分析能力展示

公式分析能力展示

图表分析能力展示

实操总结

本次实操围绕 Rokid 自研 AI 开发平台展开，全程聚焦学术文献速读智能体搭建、OCR 工作流配置及 Rokid Glasses 眼镜联调校验三大核心环节，完整实现了从平台功能应用到硬件落地验证的全流程闭环操作，充分彰显了 Rokid AI 开发平台零门槛、全栈化的核心优势与实用价值，感兴趣的小伙伴不妨动手搭建，亲身感受其便捷高效的开发体验。