用Gemini Cli+AI输入法+Obsidian搭工作流，太丝滑了！

苍何2025-12-10 17:07

这是苍何的第 458 篇原创！

大家好，我是爱折腾 Obsidian 的苍何。

一个月前，我将自己的 Obsidian 工作流分享出来，收到了很多朋友的喜欢。

并因此受到 WPS 邀请去珠海分享了一波 AI 时代的知识管理及 Vibe Coding 实践。

这一段时间，我又对我的 Obsidian 工作流做了不少的迭代，加了不少的插件，做了不少模板。

同时也在一些流程节点思考用当下比较🔥的 AI 输入法来融入，并定了一个狠目标：能用嘴喷的地方就不用手。

折腾了一段时间，觉得是时候拿出来和大家做分享了。

先看看我如何结合 Gemini Cli+AI输入法+Obsidian 来搭工作流，一张🍌制作的信息图先看看。

先来看一个 Obsidian 中写作类场景：

再看一个 Obsidian 文件管理和文件格式转换的常用场景：

当然，远远不止这些，这次一共包含以下几种节点场景优化：

复制代码

1、用嘴在Obsidian中启动Gemini Cli
2、查看当前文件夹磁盘占用，并显示所有Python相关的进程
3、看下当前文件夹有多少张图片，并做图片格式转换
4、视频格式转GIF，且控制大小
5、Obsidian写作：从爆款标题到文案创作到局部优化改写一整套工作流
7、编程做插件开发场景
8、评论区回复
9、懒人计算器

接下来会依次介绍下各个节点的实践，会配有视频演示和我的理解。

文章很干，建议点赞收藏并转发给需要的朋友，节点中的每个提示词和 AI 输入法人设如果需要的话也可评论留言告诉我。

工具选择

Obsidian 和 Gemini Cli 不用说了，已经是知识管理和内容创作必备的工具了，还不了解的朋友可以翻一翻苍何之前的文章。

AI 输入法上，我做了不少的调研和测试，发现世面上目前主要有 2 类 AI 输入法，一类是基于大模型能力做的实时翻译，这类主打的是一个低延迟和本地化数据隐私。

但功能层面比较单一，没有过多的 AI Agent 操作，复杂场景下无法满足。

另一类就是就是功能更丰富的 AI 输入法产品，能应对复杂场景，做更多的 Agent 操作。

经对比最终选择的是智谱 AI 输入法小凹。

在识别度、复杂场景下的优势比较明显，最关键的是可以按照不同的场景定制风格输出，这就很满足我迭代的需求。

Mac 和 Windows 版本都支持，下载地址：autoglm.zhipuai.cn/autotyper

记得用我的邀请码：R8J5QAD2（注册咱俩都可获得积分哈哈哈）

进入后就可以设定词典和人设，满足不同场景的需求。

你甚至没法想象，我只用了 16 分钟就输出 2.1 万词，而这还只是我用来此次创作的小号。不得不说，AI 输入法真实提效啊。

你可以看到我设定了很多的风格来满足我工作流中不同节点的需求。

工具就说到这，直接来看工作流吧。

用嘴启动Gemini Cli

传统方式是要在 Obsidian 终端手打敲击命令：gemini。

这个单词有时候还容易打错，每次启动，其实还蛮费劲。

现在，只需按住 fn，直接说：帮我启动 gemini。智谱 AI 输入法小凹（以下简称小凹）就能自动执行预设指令。

就很丝滑。

终端监控

打开 Gemini Cli，习惯做的事是看下当前仓库占用情况，以及当前进程。以前还需要先去查下命令，或者让 Gemini Cli 自主查找执行命令。多了一步。

现在，只需要对着小凹说：

查看当前文件夹磁盘占用，并显示所有Python相关的进程

可以看到，小凹自动去查找相关命令并给出了指令，而且速度非常快。

文件管理

在 Obsidian 中可以存放不同文件格式的文件，一多就变得很麻烦，查找整理非常花时间。

现在只需要 AI 输入法配合 Gemini Cli 就能很快配合解决。

AI 输入法负责接收语音输入，并转为可执行的指令给到 Gemini Cli 自动执行。

比如这个需求就可以直接对小凹说

看下当前文件夹有多少张图片，并做图片格式转换

特别对于公众号创作来说，有时候需要将视频转为 GIF，但图片又不能过大（最大 10 M），原先过程非常繁琐，先要去格式转换的地方先转换，再去压缩。

现在通通不用，直接说：

将demo.mp4视频转成GIF格式的,只要前3s,且大小控制在10m以内

小凹直接给到完整的 FFmpeg 命令给到 Gemini Cli 精准执行，完成需求。

Obsidian 写作

无论是记笔记还是内容创作，在 Obsidian 中都是常见场景。

拿公众号写作来说，从标题到文章都可以借助该工作流。

特别是对句子进行局部优化调整以及内容格式（比如转图表）、风格化输出非常有用。

这里其实还有蛮多的场景可以发挥的，不过受限于当前限制，对于公众号创作，还无法接入图片，现在还不支持类似工具调用能力。

要是以后支持，别提能有多强，我随时跟进者，看看啥时候能支持，到时候给大家汇报。

转小红书文案

这个其实我还特意开发过一款插件，现在我用新的工作流来做了尝试，只需要说：

转成小红书文案

但目前的转换，并不能全文做转换，估计是受限于整个的输入长度限制吧。

编程做插件开发场景

之前分享过在 Obsidian 中配合 Gemini Cli 做插件开发，非常舒服。

现在有了 AI 输入法，变得更丝滑了，一些原本需要手动敲击命令的场景也直接口喷就好了。

评论区回复

我有很大一部分时间是用来回复粉丝留言，但经常时间不够用，手动敲击又太慢，导致回复不及时，等过去了好几天，又都没回复。

我一度感到很痛苦。

所以让I输入法来帮我做一些回复，我觉得挺棒的。

计算器

对于一些简单的计算场景，脑子又算不明白，然后每次要吭哧吭哧打开计算器，比较麻烦。

现在只需要说一声，计算结果就出来，随用随丢。

非常方便和丝滑。

智谱AI输入法很好用，我看他们也发布并开源了GLM-ASR系列语音识别模型，而智谱AI输入法就是基于该模型打造的。

官号上截一张开源的 GLM-ASR-Nano-2512模型，可以看到 1.5B 参数的端侧模型，却取得了当前开源语音识别方向的SOTA表现👍🏻，这下好了，可以预见将会有更多基于此的AI应用出来了。

说实话，折腾了这么多工具。

我发现最极致的效率，往往是返璞归真。

没有复杂的鼠标点击，没有繁琐的窗口切换。

只有一个想法，一句耳语，一个结果。

即使在这个 AI 狂奔的时代。

最珍贵的，依然是你脑海中那一闪而过的火花。

只要那朵火花还在。

我们就永远年轻，永远热泪盈眶。

这一次，换个姿势。

重新定义你的工作流。

上一篇：前端高频面试题：为什么 sessionStorage 在不同 Tab 页不共享？

下一篇：Android13-Audio-AudioTrack-播放流程

热门推荐

01GitHub 镜像站点 02OpenClaw 使用和管理 MCP 完全指南 03OpenClaw + 飞书（Feishu）环境搭建指南 04Claude Code + GLM4.7 避坑指南：解决 Unable to connect to Anthropic services 05OpenClaw优化飞书API 额度已耗尽问题 06小黑课堂计算机二级WPSoffice题库软件下载安装教程（2026年3月最新版）07Clawdbot部署教程：解决‘gateway token missing’授权问题的完整步骤 08Window 10部署openclaw报错node.exe : npm error code 128 09【OpenClaw 本地实战 Ep.3】突破瓶颈：强制修改 openclaw.json 解锁 32k 上下文记忆 10OpenClaw大龙虾机器人完整安装教程