从书架到浏览器,给 AI 接上了三个真实入口(WeRead、ima、kimi webbridge)

摘要

最近安装的三个实用 Skill:WeRead 负责读取书架、笔记和阅读数据,IMA 负责管理笔记与知识库,Kimi WebBridge 负责操作真实浏览器。它们共同指向一个变化:AI Agent 正从单纯对话工具,进入个人信息、知识资产和真实网页操作环境,开始更直接地参与日常学习、知识管理和工作流执行。

WeRead 微信读书助手 Skill

这是什么?

微信读书助手通过 Agent API Gateway 调用微信读书官方接口,可以直接在对话中完成搜书、查书架、看笔记、导出划线、浏览书评、查看阅读统计等操作。

按照 官方配置界面 配置, 然后根据你的习惯安装技能,我直接安装在我的技能库里了。

回到微信读书官方配置界面,点击"登录微信读书"扫描登录,获取到自己账号的 API Key,复制 Key 发给 Agent 即可。

支持的使用场景

场景 你可以这样问 能力说明
🔍 搜索书籍 "帮我搜一下三体" / "找几本关于认知心理学的书" 在书城搜索,返回书名、作者、评分等
📚 查看书架 "看看我的书架" / "我书架上有多少本书" 列出当前书架上的书(含纸质书、有声书、专辑)
📖 书籍详情 "这本书有多少章" / "我读到哪了" 查看章节目录、阅读进度、书籍信息
📝 笔记与划线 "看看我在三体里的笔记" / "导出我的划线" 查看个人划线、想法/点评、书签,支持导出
🔥 热门划线 "这章有什么热门划线" / "这段话下面有什么想法" 查看章节热门划线及划线下面的读者想法
💬 书籍点评 "三体这本书有什么点评?" 浏览公开书评和推荐点评
📊 阅读统计 "我这个月读了多久" / "今年读了几本书" 阅读时长、天数、偏好分析、阅读摘要
🎯 发现好书 "给我推荐几本书" / "找几本类似的" 个性化推荐或相似书籍推荐

实用特点

  • 上下文记忆:查完一本书后,后续问"这本书的笔记"、"下一章"等不需要重复说书名
  • 深度链接 :展示书籍、章节、划线时会附上 weread:// 跳转链接,点击可直接在微信读书 App 中打开对应位置
  • 数据友好展示:时间戳自动转日期格式,阅读时长自动转"X小时Y分钟"
  • 可导出划线:支持将个人笔记和划线内容整理导出

实用案例

知识管理与输出

让 AI 先用 weread-skill 拉取笔记/划线,再结合其他 Skill(如总结、写作)生成读书笔记、书评、公众号文章、金句卡片等。一条指令多 Skill 接力,效率很高。

个性化学习/决策辅助

sh 复制代码
"根据我读过的书和笔记,分析我在 XX 领域的知识盲点,推荐填补方案。"
"把我书架做成一份'阅读画像',像性格测试一样总结。"

书架优化建议

sh 复制代码
对我的书架分组进行评价。
给出3个推荐建议,每个推荐建议给出置信度。

然后我就打算按照推荐建议来进行分组调整,发现无法使用 weread skills 直接对书架的书进行分组,不过可以通过 codex 的computer use 来实现。

出于节省 token 的考虑,在迁移之前,先根据目标分组和当前分组,给出最短操作路径的方案。

ima skill

这是什么?

ima-skill 是连接 IMA(腾讯 ima.qq.com OpenAPI 的统一技能,可以通过对话直接管理 IMA 上的笔记知识库

模块 能力
笔记(notes) 搜索笔记、浏览笔记本、查看/创建/编辑笔记、往已有笔记追加内容
知识库(knowledge-base) 上传文件到知识库、添加网页链接、搜索知识库内容、查看原文、将笔记关联到知识库

获取凭证

打开 ima.qq.com/agent-inter... 获取 Client IDAPI Key

存储凭证(二选一)

推荐方式 --- 配置文件:

bash 复制代码
mkdir -p ~/.config/ima
echo "your_client_id" > ~/.config/ima/client_id
echo "your_api_key" > ~/.config/ima/api_key

方式二 --- 环境变量:

bash 复制代码
export IMA_OPENAPI_CLIENTID="your_client_id"
export IMA_OPENAPI_APIKEY="your_api_key"

Agent 会按优先级依次尝试:环境变量 → 配置文件。可以让 agent 操作。

使用场景

触发技能关键词:

场景 示例
📒 记笔记 "帮我记一下今天下午的会议要点"
🔍 搜索笔记/知识库 "搜一下知识库里有没有关于 OKR 的资料"
📤 上传文件 "把这份 PDF 加到知识库"
🔗 收藏网页 "把这个网页链接保存到知识库"
📝 追加内容 "把这段内容写到 XX 笔记里"
👀 查看原文 "查看知识库里那篇文章的原文"

快速开始

配置好凭证后,直接说出需求即可,例如:

  • "帮我创建一篇笔记,标题叫项目复盘,内容是..."
  • "把 knowledge-base.md 上传到知识库"
  • "搜索知识库里关于 架构设计 的资料"
  • "把这段文字追加到我的 待办事项 笔记里"

Kimi WebBridge

配置完成后可以让 AI 直接控制真实浏览器(带着登录态)做这些事:

Kimi Web Bridge,浏览器插件,专为 AI Agent 设计的浏览器插件,可让 AI 打开网页、点击按钮、填写表单、提取信息,自动化各种网页操作

1. 读取和操作网页

  • 打开任意网页并读取内容,比如打开后台管理系统、文档、论坛
  • 自动点击、填写表单、提交 --- 适合重复性操作
  • 截图保存当前页面(整页或局部)
  • 保存网页为 PDF(带背景色、可自定义尺寸)

2. 抓取"已登录"的数据

因为 WebBridge 使用的是当前浏览器和登录态,所以它可以:

  • 读取只有登录后才能看到的内容(后台、会员专区、个人中心)
  • 抓取需要身份验证的数据,不需要额外配置 cookie
  • 在已打开的页面上继续操作(复用当前标签页)

3. 网络请求监控

  • 捕获页面发出的 API 请求和响应
  • 分析接口数据、抓包调试

4. 文件上传

  • 自动选择本地文件上传到网页

典型用法示例

你想做的事 说法
打开某网站并截图 "打开 example.com 并截图"
抓取当前页面的数据 "读取我当前打开的淘宝订单页面"
自动填表 "帮我在这个表单里填写信息并提交"
保存页面 "把这个网页保存成 PDF"
后台数据整理 "打开我的后台,把今天的数据抓出来"

快速开始

可以直接说一个具体需求,比如:

"打开 www.kimi.com 并截图给我看看"

或者:

"读取我当前打开的页面内容"

AI 会通过 WebBridge 直接操作浏览器来完成。

技术能力清单

能力 说明
navigate 打开指定 URL,支持新标签页
find_tab 复用已打开的标签页
snapshot 获取页面内容(可交互元素的文本描述)
click 点击指定元素
fill 在输入框或富文本编辑器中填写内容
evaluate 执行 JavaScript 代码
screenshot 截图(整页或指定元素)
network 监控网络请求
upload 上传本地文件
save_as_pdf 保存当前页面为 PDF
list_tabs 查看当前打开的所有标签页
close_tab / close_session 关闭标签页或会话
相关推荐
米小虾7 小时前
AI Agent 上下文管理实战:让你的智能体不再"失忆"
人工智能·agent
冬奇Lab9 小时前
Agent 系列(17):Harness Engineering——给自主 Agent 装上安全护栏
人工智能·llm·agent
Solo社区10 小时前
不做通用AI助手,先做好一个垂直Agent
agent·ai助手·独立开发者
周易宅12 小时前
Hermes Agent 内部/后端命令速查表
ai·agent·hermes
大模型真好玩13 小时前
智能体从入门到精通:6个必学GitHub开源项目
人工智能·agent·deepseek
阿里云云原生14 小时前
AI Agent 资源利用率瓶颈如何破?AI 任务调度 + Sandbox 实现动态休眠与唤醒
agent
MELF晓宇14 小时前
多模态向量对齐:从 Embedding 到多模态大模型
llm·agent
leeyi14 小时前
Graph 编排:不只是 ReAct 的通用 DAG
react native·agent·graphql
心之伊始16 小时前
Spring AI MCP Client 实战:让 Java 后端通过 stdio 调用本地工具服务
java·spring boot·agent·spring ai·mcp
李燚16 小时前
Eino 的数据是怎么建模的:Message、ToolCall、流式管道
aigc·agent·ai编程·开发框架·agent框架