摘要
最近安装的三个实用 Skill:WeRead 负责读取书架、笔记和阅读数据,IMA 负责管理笔记与知识库,Kimi WebBridge 负责操作真实浏览器。它们共同指向一个变化:AI Agent 正从单纯对话工具,进入个人信息、知识资产和真实网页操作环境,开始更直接地参与日常学习、知识管理和工作流执行。
WeRead 微信读书助手 Skill
这是什么?
微信读书助手通过 Agent API Gateway 调用微信读书官方接口,可以直接在对话中完成搜书、查书架、看笔记、导出划线、浏览书评、查看阅读统计等操作。
按照 官方配置界面 配置, 然后根据你的习惯安装技能,我直接安装在我的技能库里了。
回到微信读书官方配置界面,点击"登录微信读书"扫描登录,获取到自己账号的 API Key,复制 Key 发给 Agent 即可。
支持的使用场景
| 场景 | 你可以这样问 | 能力说明 |
|---|---|---|
| 🔍 搜索书籍 | "帮我搜一下三体" / "找几本关于认知心理学的书" | 在书城搜索,返回书名、作者、评分等 |
| 📚 查看书架 | "看看我的书架" / "我书架上有多少本书" | 列出当前书架上的书(含纸质书、有声书、专辑) |
| 📖 书籍详情 | "这本书有多少章" / "我读到哪了" | 查看章节目录、阅读进度、书籍信息 |
| 📝 笔记与划线 | "看看我在三体里的笔记" / "导出我的划线" | 查看个人划线、想法/点评、书签,支持导出 |
| 🔥 热门划线 | "这章有什么热门划线" / "这段话下面有什么想法" | 查看章节热门划线及划线下面的读者想法 |
| 💬 书籍点评 | "三体这本书有什么点评?" | 浏览公开书评和推荐点评 |
| 📊 阅读统计 | "我这个月读了多久" / "今年读了几本书" | 阅读时长、天数、偏好分析、阅读摘要 |
| 🎯 发现好书 | "给我推荐几本书" / "找几本类似的" | 个性化推荐或相似书籍推荐 |
实用特点
- 上下文记忆:查完一本书后,后续问"这本书的笔记"、"下一章"等不需要重复说书名
- 深度链接 :展示书籍、章节、划线时会附上
weread://跳转链接,点击可直接在微信读书 App 中打开对应位置 - 数据友好展示:时间戳自动转日期格式,阅读时长自动转"X小时Y分钟"
- 可导出划线:支持将个人笔记和划线内容整理导出
实用案例
知识管理与输出
让 AI 先用 weread-skill 拉取笔记/划线,再结合其他 Skill(如总结、写作)生成读书笔记、书评、公众号文章、金句卡片等。一条指令多 Skill 接力,效率很高。
个性化学习/决策辅助
sh
"根据我读过的书和笔记,分析我在 XX 领域的知识盲点,推荐填补方案。"
"把我书架做成一份'阅读画像',像性格测试一样总结。"
书架优化建议
sh
对我的书架分组进行评价。
给出3个推荐建议,每个推荐建议给出置信度。
然后我就打算按照推荐建议来进行分组调整,发现无法使用 weread skills 直接对书架的书进行分组,不过可以通过 codex 的computer use 来实现。
出于节省 token 的考虑,在迁移之前,先根据目标分组和当前分组,给出最短操作路径的方案。
ima skill
这是什么?
ima-skill 是连接 IMA(腾讯 ima.qq.com) OpenAPI 的统一技能,可以通过对话直接管理 IMA 上的笔记 和知识库。
| 模块 | 能力 |
|---|---|
| 笔记(notes) | 搜索笔记、浏览笔记本、查看/创建/编辑笔记、往已有笔记追加内容 |
| 知识库(knowledge-base) | 上传文件到知识库、添加网页链接、搜索知识库内容、查看原文、将笔记关联到知识库 |
获取凭证
打开 ima.qq.com/agent-inter... 获取 Client ID 和 API Key。
存储凭证(二选一)
推荐方式 --- 配置文件:
bash
mkdir -p ~/.config/ima
echo "your_client_id" > ~/.config/ima/client_id
echo "your_api_key" > ~/.config/ima/api_key
方式二 --- 环境变量:
bash
export IMA_OPENAPI_CLIENTID="your_client_id"
export IMA_OPENAPI_APIKEY="your_api_key"
Agent 会按优先级依次尝试:环境变量 → 配置文件。可以让 agent 操作。
使用场景
触发技能关键词:
| 场景 | 示例 |
|---|---|
| 📒 记笔记 | "帮我记一下今天下午的会议要点" |
| 🔍 搜索笔记/知识库 | "搜一下知识库里有没有关于 OKR 的资料" |
| 📤 上传文件 | "把这份 PDF 加到知识库" |
| 🔗 收藏网页 | "把这个网页链接保存到知识库" |
| 📝 追加内容 | "把这段内容写到 XX 笔记里" |
| 👀 查看原文 | "查看知识库里那篇文章的原文" |
快速开始
配置好凭证后,直接说出需求即可,例如:
- "帮我创建一篇笔记,标题叫项目复盘,内容是..."
- "把 knowledge-base.md 上传到知识库"
- "搜索知识库里关于 架构设计 的资料"
- "把这段文字追加到我的 待办事项 笔记里"
Kimi WebBridge
配置完成后可以让 AI 直接控制真实浏览器(带着登录态)做这些事:
Kimi Web Bridge,浏览器插件,专为 AI Agent 设计的浏览器插件,可让 AI 打开网页、点击按钮、填写表单、提取信息,自动化各种网页操作
1. 读取和操作网页
- 打开任意网页并读取内容,比如打开后台管理系统、文档、论坛
- 自动点击、填写表单、提交 --- 适合重复性操作
- 截图保存当前页面(整页或局部)
- 保存网页为 PDF(带背景色、可自定义尺寸)
2. 抓取"已登录"的数据
因为 WebBridge 使用的是当前浏览器和登录态,所以它可以:
- 读取只有登录后才能看到的内容(后台、会员专区、个人中心)
- 抓取需要身份验证的数据,不需要额外配置 cookie
- 在已打开的页面上继续操作(复用当前标签页)
3. 网络请求监控
- 捕获页面发出的 API 请求和响应
- 分析接口数据、抓包调试
4. 文件上传
- 自动选择本地文件上传到网页
典型用法示例
| 你想做的事 | 说法 |
|---|---|
| 打开某网站并截图 | "打开 example.com 并截图" |
| 抓取当前页面的数据 | "读取我当前打开的淘宝订单页面" |
| 自动填表 | "帮我在这个表单里填写信息并提交" |
| 保存页面 | "把这个网页保存成 PDF" |
| 后台数据整理 | "打开我的后台,把今天的数据抓出来" |
快速开始
可以直接说一个具体需求,比如:
"打开 www.kimi.com 并截图给我看看"
或者:
"读取我当前打开的页面内容"
AI 会通过 WebBridge 直接操作浏览器来完成。
技术能力清单
| 能力 | 说明 |
|---|---|
navigate |
打开指定 URL,支持新标签页 |
find_tab |
复用已打开的标签页 |
snapshot |
获取页面内容(可交互元素的文本描述) |
click |
点击指定元素 |
fill |
在输入框或富文本编辑器中填写内容 |
evaluate |
执行 JavaScript 代码 |
screenshot |
截图(整页或指定元素) |
network |
监控网络请求 |
upload |
上传本地文件 |
save_as_pdf |
保存当前页面为 PDF |
list_tabs |
查看当前打开的所有标签页 |
close_tab / close_session |
关闭标签页或会话 |