从书架到浏览器,给 AI 接上了三个真实入口(WeRead、ima、kimi webbridge)

摘要

最近安装的三个实用 Skill:WeRead 负责读取书架、笔记和阅读数据,IMA 负责管理笔记与知识库,Kimi WebBridge 负责操作真实浏览器。它们共同指向一个变化:AI Agent 正从单纯对话工具,进入个人信息、知识资产和真实网页操作环境,开始更直接地参与日常学习、知识管理和工作流执行。

WeRead 微信读书助手 Skill

这是什么?

微信读书助手通过 Agent API Gateway 调用微信读书官方接口,可以直接在对话中完成搜书、查书架、看笔记、导出划线、浏览书评、查看阅读统计等操作。

按照 官方配置界面 配置, 然后根据你的习惯安装技能,我直接安装在我的技能库里了。

回到微信读书官方配置界面,点击"登录微信读书"扫描登录,获取到自己账号的 API Key,复制 Key 发给 Agent 即可。

支持的使用场景

场景 你可以这样问 能力说明
🔍 搜索书籍 "帮我搜一下三体" / "找几本关于认知心理学的书" 在书城搜索,返回书名、作者、评分等
📚 查看书架 "看看我的书架" / "我书架上有多少本书" 列出当前书架上的书(含纸质书、有声书、专辑)
📖 书籍详情 "这本书有多少章" / "我读到哪了" 查看章节目录、阅读进度、书籍信息
📝 笔记与划线 "看看我在三体里的笔记" / "导出我的划线" 查看个人划线、想法/点评、书签,支持导出
🔥 热门划线 "这章有什么热门划线" / "这段话下面有什么想法" 查看章节热门划线及划线下面的读者想法
💬 书籍点评 "三体这本书有什么点评?" 浏览公开书评和推荐点评
📊 阅读统计 "我这个月读了多久" / "今年读了几本书" 阅读时长、天数、偏好分析、阅读摘要
🎯 发现好书 "给我推荐几本书" / "找几本类似的" 个性化推荐或相似书籍推荐

实用特点

  • 上下文记忆:查完一本书后,后续问"这本书的笔记"、"下一章"等不需要重复说书名
  • 深度链接 :展示书籍、章节、划线时会附上 weread:// 跳转链接,点击可直接在微信读书 App 中打开对应位置
  • 数据友好展示:时间戳自动转日期格式,阅读时长自动转"X小时Y分钟"
  • 可导出划线:支持将个人笔记和划线内容整理导出

实用案例

知识管理与输出

让 AI 先用 weread-skill 拉取笔记/划线,再结合其他 Skill(如总结、写作)生成读书笔记、书评、公众号文章、金句卡片等。一条指令多 Skill 接力,效率很高。

个性化学习/决策辅助

sh 复制代码
"根据我读过的书和笔记,分析我在 XX 领域的知识盲点,推荐填补方案。"
"把我书架做成一份'阅读画像',像性格测试一样总结。"

书架优化建议

sh 复制代码
对我的书架分组进行评价。
给出3个推荐建议,每个推荐建议给出置信度。

然后我就打算按照推荐建议来进行分组调整,发现无法使用 weread skills 直接对书架的书进行分组,不过可以通过 codex 的computer use 来实现。

出于节省 token 的考虑,在迁移之前,先根据目标分组和当前分组,给出最短操作路径的方案。

ima skill

这是什么?

ima-skill 是连接 IMA(腾讯 ima.qq.com OpenAPI 的统一技能,可以通过对话直接管理 IMA 上的笔记知识库

模块 能力
笔记(notes) 搜索笔记、浏览笔记本、查看/创建/编辑笔记、往已有笔记追加内容
知识库(knowledge-base) 上传文件到知识库、添加网页链接、搜索知识库内容、查看原文、将笔记关联到知识库

获取凭证

打开 ima.qq.com/agent-inter... 获取 Client IDAPI Key

存储凭证(二选一)

推荐方式 --- 配置文件:

bash 复制代码
mkdir -p ~/.config/ima
echo "your_client_id" > ~/.config/ima/client_id
echo "your_api_key" > ~/.config/ima/api_key

方式二 --- 环境变量:

bash 复制代码
export IMA_OPENAPI_CLIENTID="your_client_id"
export IMA_OPENAPI_APIKEY="your_api_key"

Agent 会按优先级依次尝试:环境变量 → 配置文件。可以让 agent 操作。

使用场景

触发技能关键词:

场景 示例
📒 记笔记 "帮我记一下今天下午的会议要点"
🔍 搜索笔记/知识库 "搜一下知识库里有没有关于 OKR 的资料"
📤 上传文件 "把这份 PDF 加到知识库"
🔗 收藏网页 "把这个网页链接保存到知识库"
📝 追加内容 "把这段内容写到 XX 笔记里"
👀 查看原文 "查看知识库里那篇文章的原文"

快速开始

配置好凭证后,直接说出需求即可,例如:

  • "帮我创建一篇笔记,标题叫项目复盘,内容是..."
  • "把 knowledge-base.md 上传到知识库"
  • "搜索知识库里关于 架构设计 的资料"
  • "把这段文字追加到我的 待办事项 笔记里"

Kimi WebBridge

配置完成后可以让 AI 直接控制真实浏览器(带着登录态)做这些事:

Kimi Web Bridge,浏览器插件,专为 AI Agent 设计的浏览器插件,可让 AI 打开网页、点击按钮、填写表单、提取信息,自动化各种网页操作

1. 读取和操作网页

  • 打开任意网页并读取内容,比如打开后台管理系统、文档、论坛
  • 自动点击、填写表单、提交 --- 适合重复性操作
  • 截图保存当前页面(整页或局部)
  • 保存网页为 PDF(带背景色、可自定义尺寸)

2. 抓取"已登录"的数据

因为 WebBridge 使用的是当前浏览器和登录态,所以它可以:

  • 读取只有登录后才能看到的内容(后台、会员专区、个人中心)
  • 抓取需要身份验证的数据,不需要额外配置 cookie
  • 在已打开的页面上继续操作(复用当前标签页)

3. 网络请求监控

  • 捕获页面发出的 API 请求和响应
  • 分析接口数据、抓包调试

4. 文件上传

  • 自动选择本地文件上传到网页

典型用法示例

你想做的事 说法
打开某网站并截图 "打开 example.com 并截图"
抓取当前页面的数据 "读取我当前打开的淘宝订单页面"
自动填表 "帮我在这个表单里填写信息并提交"
保存页面 "把这个网页保存成 PDF"
后台数据整理 "打开我的后台,把今天的数据抓出来"

快速开始

可以直接说一个具体需求,比如:

"打开 www.kimi.com 并截图给我看看"

或者:

"读取我当前打开的页面内容"

AI 会通过 WebBridge 直接操作浏览器来完成。

技术能力清单

能力 说明
navigate 打开指定 URL,支持新标签页
find_tab 复用已打开的标签页
snapshot 获取页面内容(可交互元素的文本描述)
click 点击指定元素
fill 在输入框或富文本编辑器中填写内容
evaluate 执行 JavaScript 代码
screenshot 截图(整页或指定元素)
network 监控网络请求
upload 上传本地文件
save_as_pdf 保存当前页面为 PDF
list_tabs 查看当前打开的所有标签页
close_tab / close_session 关闭标签页或会话
相关推荐
uccs1 小时前
Agent循环原理
agent·ai编程·claude
情绪总是阴雨天~2 小时前
深度解析:LangChain、Agent、RAG、FC、ReAct、LangGraph、A2A、MCP — 区别、联系与全景图
python·langchain·agent·rag·langgraph·mcp·a2a
Cosolar2 小时前
2026年全球向量数据库技术全景与架构演进深度解析报告
数据库·人工智能·架构·agent·智能体
赢乐2 小时前
AI大模型学习笔记:LangChain核心组件-工具(Tools)
langchain·大模型·agent·function_call·工具(tools)·tool装饰器·定义工具
花千树-0104 小时前
SubAgent 基础:拥有自主工具的子代理
java·langchain·llm·agent·langgraph·subagent·harness
qcx234 小时前
【AI Daily】每日AI日报
人工智能·llm·agent·daily
Artech5 小时前
[对比学习LangChain和MAF-01]基本编程模式的差异(上篇)
ai·langchain·agent·maf
Swift社区5 小时前
当 Agent 可以自主协作:系统如何避免彻底混乱?
人工智能·agent·多智能体
Joseph Cooper5 小时前
Claude Code 与 Codex Harness 设计对比:一种加法,一种减法
agent·codex·claudecode·harness