从书架到浏览器，给 AI 接上了三个真实入口（WeRead、ima、kimi webbridge)

摘要

最近安装的三个实用 Skill：WeRead 负责读取书架、笔记和阅读数据，IMA 负责管理笔记与知识库，Kimi WebBridge 负责操作真实浏览器。它们共同指向一个变化：AI Agent 正从单纯对话工具，进入个人信息、知识资产和真实网页操作环境，开始更直接地参与日常学习、知识管理和工作流执行。

WeRead 微信读书助手 Skill

这是什么？

微信读书助手通过 Agent API Gateway 调用微信读书官方接口，可以直接在对话中完成搜书、查书架、看笔记、导出划线、浏览书评、查看阅读统计等操作。

按照官方配置界面配置, 然后根据你的习惯安装技能，我直接安装在我的技能库里了。

回到微信读书官方配置界面，点击"登录微信读书"扫描登录，获取到自己账号的 API Key，复制 Key 发给 Agent 即可。

支持的使用场景

场景	你可以这样问	能力说明
🔍 搜索书籍	"帮我搜一下三体" / "找几本关于认知心理学的书"	在书城搜索，返回书名、作者、评分等
📚 查看书架	"看看我的书架" / "我书架上有多少本书"	列出当前书架上的书（含纸质书、有声书、专辑）
📖 书籍详情	"这本书有多少章" / "我读到哪了"	查看章节目录、阅读进度、书籍信息
📝 笔记与划线	"看看我在三体里的笔记" / "导出我的划线"	查看个人划线、想法/点评、书签，支持导出
🔥 热门划线	"这章有什么热门划线" / "这段话下面有什么想法"	查看章节热门划线及划线下面的读者想法
💬 书籍点评	"三体这本书有什么点评？"	浏览公开书评和推荐点评
📊 阅读统计	"我这个月读了多久" / "今年读了几本书"	阅读时长、天数、偏好分析、阅读摘要
🎯 发现好书	"给我推荐几本书" / "找几本类似的"	个性化推荐或相似书籍推荐

实用特点

上下文记忆：查完一本书后，后续问"这本书的笔记"、"下一章"等不需要重复说书名
深度链接 ：展示书籍、章节、划线时会附上 weread:// 跳转链接，点击可直接在微信读书 App 中打开对应位置
数据友好展示：时间戳自动转日期格式，阅读时长自动转"X小时Y分钟"
可导出划线：支持将个人笔记和划线内容整理导出

实用案例

知识管理与输出

让 AI 先用 weread-skill 拉取笔记/划线，再结合其他 Skill（如总结、写作）生成读书笔记、书评、公众号文章、金句卡片等。一条指令多 Skill 接力，效率很高。

个性化学习/决策辅助

sh 复制代码

"根据我读过的书和笔记，分析我在 XX 领域的知识盲点，推荐填补方案。"
"把我书架做成一份'阅读画像'，像性格测试一样总结。"

书架优化建议

sh 复制代码

对我的书架分组进行评价。
给出3个推荐建议，每个推荐建议给出置信度。

然后我就打算按照推荐建议来进行分组调整，发现无法使用 weread skills 直接对书架的书进行分组，不过可以通过 codex 的computer use 来实现。

出于节省 token 的考虑，在迁移之前，先根据目标分组和当前分组，给出最短操作路径的方案。

ima skill

这是什么？

ima-skill 是连接 IMA（腾讯 ima.qq.com） OpenAPI 的统一技能，可以通过对话直接管理 IMA 上的笔记和知识库。

模块	能力
笔记（notes）	搜索笔记、浏览笔记本、查看/创建/编辑笔记、往已有笔记追加内容
知识库（knowledge-base）	上传文件到知识库、添加网页链接、搜索知识库内容、查看原文、将笔记关联到知识库

获取凭证

打开 ima.qq.com/agent-inter... 获取 Client ID 和 API Key。

存储凭证（二选一）

推荐方式 --- 配置文件：

bash 复制代码

mkdir -p ~/.config/ima
echo "your_client_id" > ~/.config/ima/client_id
echo "your_api_key" > ~/.config/ima/api_key

方式二 --- 环境变量：

bash 复制代码

export IMA_OPENAPI_CLIENTID="your_client_id"
export IMA_OPENAPI_APIKEY="your_api_key"

Agent 会按优先级依次尝试：环境变量 → 配置文件。可以让 agent 操作。

使用场景

触发技能关键词：

场景	示例
📒 记笔记	"帮我记一下今天下午的会议要点"
🔍 搜索笔记/知识库	"搜一下知识库里有没有关于 OKR 的资料"
📤 上传文件	"把这份 PDF 加到知识库"
🔗 收藏网页	"把这个网页链接保存到知识库"
📝 追加内容	"把这段内容写到 XX 笔记里"
👀 查看原文	"查看知识库里那篇文章的原文"

快速开始

配置好凭证后，直接说出需求即可，例如：

"帮我创建一篇笔记，标题叫项目复盘，内容是..."
"把 knowledge-base.md 上传到知识库"
"搜索知识库里关于架构设计的资料"
"把这段文字追加到我的待办事项笔记里"

Kimi WebBridge

配置完成后可以让 AI 直接控制真实浏览器（带着登录态）做这些事：

Kimi Web Bridge，浏览器插件，专为 AI Agent 设计的浏览器插件，可让 AI 打开网页、点击按钮、填写表单、提取信息，自动化各种网页操作

1. 读取和操作网页

打开任意网页并读取内容，比如打开后台管理系统、文档、论坛
自动点击、填写表单、提交 --- 适合重复性操作
截图保存当前页面（整页或局部）
保存网页为 PDF（带背景色、可自定义尺寸）

2. 抓取"已登录"的数据

因为 WebBridge 使用的是当前浏览器和登录态，所以它可以：

读取只有登录后才能看到的内容（后台、会员专区、个人中心）
抓取需要身份验证的数据，不需要额外配置 cookie
在已打开的页面上继续操作（复用当前标签页）

3. 网络请求监控

捕获页面发出的 API 请求和响应
分析接口数据、抓包调试

4. 文件上传

自动选择本地文件上传到网页

典型用法示例

你想做的事	说法
打开某网站并截图	"打开 example.com 并截图"
抓取当前页面的数据	"读取我当前打开的淘宝订单页面"
自动填表	"帮我在这个表单里填写信息并提交"
保存页面	"把这个网页保存成 PDF"
后台数据整理	"打开我的后台，把今天的数据抓出来"

快速开始

可以直接说一个具体需求，比如：

"打开 www.kimi.com 并截图给我看看"

或者：

"读取我当前打开的页面内容"

AI 会通过 WebBridge 直接操作浏览器来完成。

技术能力清单

能力	说明
`navigate`	打开指定 URL，支持新标签页
`find_tab`	复用已打开的标签页
`snapshot`	获取页面内容（可交互元素的文本描述）
`click`	点击指定元素
`fill`	在输入框或富文本编辑器中填写内容
`evaluate`	执行 JavaScript 代码
`screenshot`	截图（整页或指定元素）
`network`	监控网络请求
`upload`	上传本地文件
`save_as_pdf`	保存当前页面为 PDF
`list_tabs`	查看当前打开的所有标签页
`close_tab` / `close_session`	关闭标签页或会话