SenseNova Skills Studio:为商汤SenseNova U1打造的本地办公技能包
本文围绕
sensenova-u1-fast(SenseNova U1) 与配套 sn-* 技能;在 我自己开发的SenseNova Skills Studio 中本地使用技能包(申请 API Key)。技能包仓库 :OpenSenseNova/SenseNova-Skills · MIT 协议
过去两年,大模型能力的竞争焦点从「能不能答对一题」转向「能不能把一件事做完」。在真实办公场景里,用户很少只需要一段流畅的文字------他们需要:
- 一份能发给老板的 PPT,版式统一、配图合理、页与页之间叙事连贯;
- 一张能进汇报材料的 Excel 分析表,大文件不 OOM、结论有图表支撑;
- 一篇能经得起追问的行业报告,来源可追溯、数字冲突要先 reconcile 再落稿;
- 一张能直接传播的信息图,不是「随便画一张」,而是布局、风格、文字可读性都过关。
这些任务有一个共同特征:步骤长、约束多、中间产物必须落盘 。只靠通用 Chat 或单次 API 调用,智能体很容易在第三步「即兴发挥」。问题不在模型不够聪明,而在于缺少可复用的执行契约。
探索了很久,我发现SenseNova Skills可以解决以上问题。
一、SenseNova U1是什么?能做什么?
SenseNova U1 是商汤日日新体系里的文生图模型 ,在开放平台上的常用模型 ID 为 sensenova-u1-fast 。通过 SenseNova 开放平台 的 API(https://token.sensenova.cn/v1)即可调用,与对话、识图共用同一套 SN_API_KEY (在 控制台 · Keys 创建)。
U1 适合产出什么?
| 场景 | 说明 |
|---|---|
| 营销 / 运营物料 | 海报、横幅、社交媒体配图,支持常见宽高比 |
| 信息图 | 结构化版面 + 图中中文文案(需配合扩写与版式 skill) |
| PPT 创意页 | 每页一整张 16:9 视觉稿(创意模式) |
| 系列图 | 同一风格下的多张分镜(系列批量) |
| 简历视觉稿、风格模仿图 | 固定版式或参考图风格 |
单次调用 U1 API 只能得到「一张按 Prompt 生成的图」。真实办公里还需要:Prompt 扩写、版式选型、多轮试稿、VLM 质检、文件落盘 ------这些由本仓库的 sn-* 技能包在 U1 之上补齐;扩写、规划、识图等环节则使用 sensenova-6.7-flash-lite(SenseNova 6.7),与 U1 分工明确:
| 环节 | 默认模型 | 作用 |
|---|---|---|
| 出图 | sensenova-u1-fast |
最终像素交付 |
| 扩写 / 规划 / 成稿 | sensenova-6.7-flash-lite |
Prompt、大纲、研究报告文字 |
| 识图 / 质检 | sensenova-6.7-flash-lite |
图表理解、信息图与 PPT 分页评审 |
二、SenseNova Skills:U1 的配套技能包
2.1 是什么
SenseNova-Skills 是一组开源 Agent Skills (遵循 agentskills.io 规范):每个技能一个目录 + SKILL.md,写清何时用、怎么用、产物放哪 。它们通过底层 sn-image-base 调用商汤 API------生图走 U1,其余走 6.7------把模型能力变成可重复执行的工序,而不是聊天里随口一说。
同一套技能包,既可在 Agent 里对话触发 ,也可通过下文 Studio 点击运行(双入口、同一 .env):
加载 SKILL.md 编排"] ST["SenseNova Skills Studio
Gradio 本地控制台"] end SK["sn-* 技能包
skills/ 目录"] API["SenseNova 开放平台
SN_API_KEY"] OUT[("本地产物
outputs/ · ppt_decks/ · research/")] AG --> SK ST --> SK SK --> API SK --> OUT
2.2 技能清单
U1图像与可视化
| 技能 | 作用 |
|---|---|
sn-image-base |
底层封装:文生图、识图、文本优化(供其它图像 skill 调用) |
sn-image-doctor |
检查依赖、Key、模型是否可用 |
sn-infographic |
专业信息图:评估 Prompt → 选布局/风格 → 多轮 U1 生成 → VLM 选优 |
sn-image-imitate |
按参考图风格生成新图 |
sn-image-resume |
简历文字 → 简历视觉图 |
U1演示文稿
| 技能 | 作用 |
|---|---|
sn-ppt-entry |
统一入口:收集需求,生成 task_pack.json |
sn-ppt-standard |
标准模式:HTML 分页 + VLM 评审 → 导出 PPTX |
sn-ppt-creative |
创意模式:每页一张 U1 全图 PNG |
sn-ppt-doctor |
PPT 流水线环境检查 |
数据分析
| 技能 | 作用 |
|---|---|
sn-da-excel-workflow |
多 Sheet Excel 清洗、统计、导出(编排器) |
sn-da-large-file-analysis |
十万行级大表流式处理 |
sn-da-image-caption |
从图表截图提取数据 |
深度研究 + 搜索 + 报告
| 技能 | 作用 |
|---|---|
sn-deep-research |
总控:规划 → 分维度取证 → 综合 → 成稿 |
sn-research-planning / sn-dimension-research / sn-research-synthesis / sn-research-report |
研究各阶段 |
sn-search-academic / sn-search-code / sn-search-social-cn / sn-search-social-en |
学术、开发者、中英文社交搜索 |
sn-report-format-discovery / sn-md-to-html-report |
报告结构发现、MD 转离线 HTML |
sn-update |
在 Agent 环境中更新 sn-* 包 |
一条完整业务链示例见仓库 examples/memory-price-end2end-analysis:Excel 分析 → 深度研究 → PPT 汇报,由多个入口 skill 通过磁盘上的文件交接完成。
2.3 怎么使用这些技能
第一步:拿到 API Key
在 platform.sensenova.cn/console/key... 注册并创建 Key,写入仓库根目录 .env:
env
SN_BASE_URL=https://token.sensenova.cn/v1
SN_API_KEY=sk-你的密钥
方式 A :在智能体里用
- 将
skills/下各目录安装到 Agent 的 skills 路径(如 OpenClaw:~/.openclaw/skills/,Cursor:.cursor/skills/)。 - 重启 Agent,在对话中用自然语言触发,例如:「用 sn-image-doctor 检查环境」「按 sn-infographic 做一张行业信息图」「启动 sn-deep-research 写尽调」。
- Agent 会按
SKILL.md调用脚本、读写outputs/等目录中的产物。
详细安装可让 Agent 自行克隆仓库:*「请安装 github.com/OpenSenseNo...
方式 B :不想自己配 Agent?
小浣熊 已集成同源 U1 + 6.7 能力与 Cowork-Skill,云端开箱即用。本文重点介绍的开源路径,则适合要本地保管 Key、改 skill、接 Cursor/OpenClaw 的团队。
下面 介绍我为此开发的 SenseNova Skills Studio (sn_studio):在不装 Agent 的情况下,用浏览器完成配 Key、点按钮跑 skill、查看 U1 出图与 Excel/PPT 产物------同一套 sn-*,多一种图形化用法。
三、SenseNova Skills Studio:Skills 的本地适配工具
SenseNova Skills Studio 已开源,可直接获取源码、本地安装与二次开发:
| 项目 | 地址 |
|---|---|
| Studio 仓库 | github.com/aiyinluya/S... |
| 上游官方技能包 | github.com/OpenSenseNo... |
| 申请 API Key | platform.sensenova.cn/console/key... |
Studio 仓库在官方 SenseNova-Skills 基础上扩展了 sn_studio/ 本地控制面板及配套文档(详见仓库内 UPSTREAM.md)。协议:MIT;欢迎 Star、Issue 与 PR。
3.1 它解决什么问题
第二节里的技能包,默认要在 Cursor / OpenClaw 等 Agent 里通过对话触发。Studio 面向「想用 U1 和 sn-*,但不想先搭 Agent」的用户,定位很直接:
不改动
skills/里的 SKILL 逻辑,只在上层提供 Gradio 控制面板,把既有脚本变成可配置、可触发、可浏览产物的本地 Web 应用。
换句话说:技能包定义工序与验收标准 ;Studio 定义人机界面与任务调度 ------二者共用同一套商汤日日新 API 与 .env 配置。完整使用说明见开源仓库中的 README_CN_STUDIO.md。
3.2 使用前:注册 Key,克隆开源仓库即可本地运行
使用 Studio 不需要先搭 Agent 运行时。只需:
-
打开 SenseNova 开放平台 · API Keys 注册并创建密钥(亦可了解 Token 套餐)。
-
克隆 Studio 开源仓库 (若本地已是双层目录,请进入含
pyproject.toml的内层根目录):powershellgit clone https://github.com/aiyinluya/SenseNova-Skills-Studio.git cd SenseNova-Skills-Studio copy .env.example .env编辑
.env,至少填入:envSN_BASE_URL=https://token.sensenova.cn/v1 SN_API_KEY=sk-你的密钥 -
安装并启动 Studio(Windows 可用一键脚本):
powershellpowershell -ExecutionPolicy Bypass -File .\scripts\install_studio.ps1 python -m sn_studio -
浏览器打开 http://127.0.0.1:7860 → 设置 Tab 保存并 测试 API → 即可在图像、PPT、数据分析等 Tab 调用全部已适配能力。

密钥仅保存在本机
.env,界面脱敏显示;推理与生图请求直连token.sensenova.cn,不经过第三方中转。
3.3 Studio 是什么:本地 Web 控制台,不是又一个聊天框
SenseNova Skills Studio 运行在你本机(默认 http://127.0.0.1:7860),基于 Gradio 5 搭建。它不做「万能对话」,而是把第二节列出的 sn-* 能力拆成固定的 Tab + 表单 + 按钮:
- 该填什么的框都写好标签(Prompt、宽高比、扩写模式、Excel 路径......)
- 该跑多久的任务交给后台子进程,界面用阶段条告诉你「正在扩写 / 正在用 U1 出图」
- 该落盘的结果进
outputs/,Gallery 里能预览,本会话历史里能一键回看
因此它特别适合:运营、设计、分析同事不想学 Agent 话术 ,但希望稳定复用 同一套 U1 信息图、系列图、Excel 探查能力的人;也适合开发者先在本机把 Key 和流水线跑通,再接到 Cursor 里做长流程编排。

3.4 七个 Tab:分别能帮你做什么
| Tab | 你会用到的情况 | 背后调用的能力 |
|---|---|---|
| 设置 | 第一次安装、换 Key、确认 U1/6.7 是否可达、跑环境诊断 | .env 管理、sn-image-doctor / sn-ppt-doctor |
| 图像 | 出单张图、信息图、系列图、模仿参考图、简历视觉稿 | U1 + 图像流水线(见 §3.5) |
| PPT | 从 brief 建 deck、按阶段生成 HTML/素材、调试某一页 | sn-ppt-entry、sn-ppt-standard / sn-ppt-creative |
| 数据分析 | 上传 Excel 先看有多少 Sheet、多少行,再决定要不要上完整分析 skill | sn-da-excel-workflow 探查能力 |
| 深度研究 | 建 research/ 目录、写 request.md、把报告转成 HTML 预览 |
sn-deep-research 工件约定 |
| 搜索 | 快速查论文、GitHub、知乎/B 站等,结果以表格呈现 | sn-search-* 系列 |
| 更新 | 从 Git 拉取最新 sn-* 技能包 | 仓库 git pull |
复杂任务(例如深度研究全自动 多轮取证、PPT 一口气 生成二十多页)仍建议在 Cursor / OpenClaw 里加载完整 SKILL.md;Studio 的定位是把高频、可点击的能力做到顺手,而不是替代整个 Agent。
3.5 图像 Tab:最值得先体验的一块
图像 Tab 内再分五个子页,共用左右分栏布局:左侧输入与参数,右侧预览与会话历史------和常见生图产品一致,降低学习成本。
| 子页 | 你怎么用 | U1 何时介入 |
|---|---|---|
| 文生图 | 写一句中文描述 → 选比例 → 生成 | 扩写完成后调用 U1 |
| 信息图 | 贴业务摘要或要点 → 自动选型版式风格 → 多轮出图并质检 | 多轮 U1 + 6.7 VLM 选优 |
| 系列批量 | 一句话主题 + 选择张数(3--8)→ 自动拆镜、统一风格、批量出图 | 全系列共享 seed,逐张 U1 |
| 风格模仿 | 上传参考图 + 新内容说明 | 识图后 U1 按风格重画 |
| 简历图 | 粘贴简历正文 | 结构化扩写后 U1 出视觉稿 |
生成过程中,右侧阶段条 会依次提示(例如:分析内容 → 扩写 Prompt → 生成图像);完成后可在 「扩写后的 Prompt」 折叠区查看实际发给 U1 的文案,便于复盘和二次修改。产物除显示在 Gallery 外,还会写入 outputs/studio/<模块>/<时间戳>/,本机可用 「打开输出文件夹」 直接定位文件。
- 文生图

- 批量生图

- 信息图

3.6 其它 Tab 如何用
- PPT :填写角色、受众、页数,上传 pdf/docx/md 附件 → 生成
task_pack.json→ 按阶段执行run_stage(例如只跑大纲或只跑某一页素材),在浏览器里看 HTML 预览,产物在ppt_decks/。 - 数据分析:指定 xlsx 路径 → 一键探查 Sheet 名与行数;大表会提示是否走 Parquet/流式策略,避免一上来内存爆掉。
- 深度研究 :创建课题目录、编辑
request.md;完整多维度调研仍在 Agent 里跑,Studio 负责建架子、转 HTML 方便阅读。 - 搜索:选学术 / 代码 / 社交源,输入关键词 → 表格展示脚本返回的标题、链接、摘要,适合写报告前的快速摸底。
3.7 和 Agent 一起用时,Studio 扮演什么角色
同一仓库、同一 .env、同一套 sn-*:
| 场景 | 建议用 Studio | 建议用 Cursor / OpenClaw |
|---|---|---|
| 配 Key、测 API、出第一张 U1 图 | ✅ | 可选 |
| 调试信息图 / 系列图参数 | ✅ | 可选 |
| Excel 行数探查、单次搜索 | ✅ | ✅ |
| 行业尽调全流程、PPT 全页循环 | 建目录、单步调试 | ✅ 主编排 |
修改 SKILL.md、提 PR |
--- | ✅ |
Studio 是技能适配层上的图形壳 ;Agent 是对话编排层。二者互补,不是二选一。
四、Studio 集成 Skills原理
4.1 集成架构:UI 不侵入 Skill 仓库
Studio 采用薄适配层,保证技能包可独立演进、Studio 可单独升级:
Tab / 表单 / Gallery"] UI["sn_studio/ui
任务轮询 · 阶段条"] SVC["sn_studio/services
参数组装 · 图像流水线"] RUN["sn_studio/core/runner
子进程调用"] SKILL["skills/* 脚本
不修改 SKILL 逻辑"] API["商汤日日新 API
U1 生图 · 6.7 扩写/VLM"] JOB[("outputs/.studio_jobs
jobs.json")] ART[("outputs/studio/<模块>/
PNG · manifest 等")] BR --> UI --> SVC --> RUN RUN --> SKILL --> API RUN --> JOB RUN --> ART
任务状态与输出路径写入 outputs/.studio_jobs/jobs.json 与 outputs/studio/<模块>/,便于会话内回看与重启后恢复历史(图像系列等已按目录规范对齐)。
4.2 图像类 Skills:统一流水线 + 五个子入口
| Studio 子页 | 对接技能 | 模型侧重 | Studio 侧体验 |
|---|---|---|---|
| 文生图 | sn-image-base + 扩写流水线 |
U1 生图 · 6.7 扩写 | 左栏 Prompt / 参数,右栏结果预览与会话历史 |
| 信息图 | sn-infographic |
6.7 评估选型 · U1 多轮 · 6.7 VLM 质检 | 同上;对齐 87 布局 × 66 风格 |
| 系列批量 | 拆解 + 风格统一 + 批量 U1 | 6.7 拆 N 镜 · 同 seed 系列 | 一句话主题 + 张数 3--8;产物在 outputs/studio/series/<时间戳>/ |
| 风格模仿 | sn-image-imitate |
VLM caption · 改写 · U1 | 参考图 + 新内容描述 |
| 简历图 | sn-image-resume |
结构化简历 → U1 视觉稿 | 粘贴简历文本一键出图 |
图像 Tab 与 openspec/prompt-pipeline-unified.md 对齐:评估 → 扩写 → 生图 阶段在界面右侧可见;扩写后的 Prompt 可折叠查看,便于运营与品牌同学做质量把关。
4.3 PPT、数据、研究、搜索:按 Skill 契约挂接
| Studio Tab | 集成方式 | 产物目录(示例) |
|---|---|---|
| PPT | 调用 sn-ppt-entry 生成 task_pack.json,按阶段执行 sn-ppt-standard / sn-ppt-creative 的 run_stage.py |
outputs/studio/ppt/<deck_id>/ |
| 数据分析 | 探查 Excel 行数 / Sheet,委派 sn-da-excel-workflow 子能力或大文件 skill |
探查结果 + 导出表 |
| 深度研究 | 创建 research/ 工件目录,对齐 sn-deep-research 的 request.md 等文件约定 |
research/<topic>/ |
| 搜索 | 聚合 sn-search-academic / sn-search-code / 社交搜索脚本 JSON 输出为表格 |
单次查询结果 |
| 更新 | git pull 同步技能包 |
--- |
Studio 刻意不替代 长链路 Agent 自主循环(例如深度研究全维度取证、PPT 26 页一键跑完)------这些在 Cursor / OpenClaw 加载完整 SKILL.md 更合适;Studio 负责参数收集、单阶段触发、产物浏览与调试,降低「第一次跑通」的成本。
4.4 与 Cursor / OpenClaw:同一套 Skills,两种入口
| 入口 | 适合 |
|---|---|
| Studio | 配 Key、测 API、出图、探表、PPT 分阶段调试、浏览 outputs/ |
| Cursor / OpenClaw / Hermes | 多文件编排、深度研究全流程、PPT 全页循环、改 SKILL.md |
将 skills/* 安装到 ~/.openclaw/skills/、.cursor/skills/ 等目录后,Agent 按 SKILL.md 触发词加载技能;与 Studio 共用同一 .env 与模型 ID ,不存在「两套能力」------只是 GUI 适配 vs 对话编排 的差别。
五、展望
- 更深的一体化预览 --- 研究 / PPT / 系列图在 Studio 内直接预览 HTML、manifest 与多图网格,减少跳转资源管理器。
- 可选「拆解预览」 --- 系列批量、信息图在提交前展示 LLM 拆解的 N 条分镜,可编辑再生成。
- 模板市场 --- 将
sn-infographic案例画廊、行业报告report_shape沉淀为 Studio 可选模板。 - 团队配置 --- 只读分享
.env之外的「工序预设」(扩写模式、默认宽高比、品牌负向词)。 - 与 Agent 运行时互认任务 ---
jobs.json与 Agent 侧工件目录双向索引,Studio 点开即可续跑 Agent 未完成的任务。
无论 Agent 生态如何演进,Skills 作为「可交付工序」的抽象 不会过时;Studio 的角色,是把这套抽象持续翻译成普通人也能点得动的本地工具------而商汤日日新 API 始终是底下那块确定的算力底座。
六、结语
SenseNova Skills 用 sn-* 技能包把商汤日日新模型浇铸成可审计的办公工序;SenseNova Skills Studio 则是这套工序面向本机的 Skills 适配工具 ------注册 API Key,写入 .env,启动 python -m sn_studio,即可在浏览器里调用图像、PPT、Excel、研究与搜索能力,无需先学会在 IDE 里 @skill。
若你已在用 Cursor 或 OpenClaw,Studio 是最佳的配环境、试 API、看产物伴侣;若你只想先把一张 U1 图、一张信息图或一份 Excel 探查跑通,Studio alone 就足够。技能包开源可改,适配工具持续迭代------欢迎 Star、Issue 与 PR。