这是苍何的第 458 篇原创!
大家好,我是爱折腾 Obsidian 的苍何。
一个月前,我将自己的 Obsidian 工作流分享出来,收到了很多朋友的喜欢。

并因此受到 WPS 邀请去珠海分享了一波 AI 时代的知识管理及 Vibe Coding 实践。

这一段时间,我又对我的 Obsidian 工作流做了不少的迭代,加了不少的插件,做了不少模板。
同时也在一些流程节点思考用当下比较🔥的 AI 输入法来融入,并定了一个狠目标:能用嘴喷的地方就不用手。
折腾了一段时间,觉得是时候拿出来和大家做分享了。
先看看我如何结合 Gemini Cli+AI输入法+Obsidian 来搭工作流,一张🍌制作的信息图先看看。

先来看一个 Obsidian 中写作类场景:

再看一个 Obsidian 文件管理和文件格式转换的常用场景:

当然,远远不止这些,这次一共包含以下几种节点场景优化:
1、用嘴在Obsidian中启动Gemini Cli
2、查看当前文件夹磁盘占用,并显示所有Python相关的进程
3、看下当前文件夹有多少张图片,并做图片格式转换
4、视频格式转GIF,且控制大小
5、Obsidian写作:从爆款标题到文案创作到局部优化改写一整套工作流
7、编程做插件开发场景
8、评论区回复
9、懒人计算器
接下来会依次介绍下各个节点的实践,会配有视频演示和我的理解。
文章很干,建议点赞收藏并转发给需要的朋友,节点中的每个提示词和 AI 输入法人设如果需要的话也可评论留言告诉我。
工具选择
Obsidian 和 Gemini Cli 不用说了,已经是知识管理和内容创作必备的工具了,还不了解的朋友可以翻一翻苍何之前的文章。
AI 输入法上,我做了不少的调研和测试,发现世面上目前主要有 2 类 AI 输入法,一类是基于大模型能力做的实时翻译,这类主打的是一个低延迟和本地化数据隐私。
但功能层面比较单一,没有过多的 AI Agent 操作,复杂场景下无法满足。
另一类就是就是功能更丰富的 AI 输入法产品,能应对复杂场景,做更多的 Agent 操作。
经对比最终选择的是智谱 AI 输入法小凹。

在识别度、复杂场景下的优势比较明显,最关键的是可以按照不同的场景定制风格输出,这就很满足我迭代的需求。
Mac 和 Windows 版本都支持,下载地址:autoglm.zhipuai.cn/autotyper

记得用我的邀请码:R8J5QAD2(注册咱俩都可获得积分哈哈哈)
进入后就可以设定词典和人设,满足不同场景的需求。

你甚至没法想象,我只用了 16 分钟就输出 2.1 万词,而这还只是我用来此次创作的小号。不得不说,AI 输入法真实提效啊。
你可以看到我设定了很多的风格来满足我工作流中不同节点的需求。

工具就说到这,直接来看工作流吧。
用嘴启动Gemini Cli
传统方式是要在 Obsidian 终端手打敲击命令:gemini。
这个单词有时候还容易打错,每次启动,其实还蛮费劲。
现在,只需按住 fn,直接说:帮我启动 gemini。智谱 AI 输入法小凹(以下简称小凹)就能自动执行预设指令。

就很丝滑。
终端监控
打开 Gemini Cli,习惯做的事是看下当前仓库占用情况,以及当前进程。以前还需要先去查下命令,或者让 Gemini Cli 自主查找执行命令。多了一步。
现在,只需要对着小凹说:
查看当前文件夹磁盘占用,并显示所有Python相关的进程

可以看到,小凹自动去查找相关命令并给出了指令,而且速度非常快。
文件管理
在 Obsidian 中可以存放不同文件格式的文件,一多就变得很麻烦,查找整理非常花时间。
现在只需要 AI 输入法配合 Gemini Cli 就能很快配合解决。
AI 输入法负责接收语音输入,并转为可执行的指令给到 Gemini Cli 自动执行。
比如这个需求就可以直接对小凹说
看下当前文件夹有多少张图片,并做图片格式转换

特别对于公众号创作来说,有时候需要将视频转为 GIF,但图片又不能过大(最大 10 M),原先过程非常繁琐,先要去格式转换的地方先转换,再去压缩。
现在通通不用,直接说:
将demo.mp4视频转成GIF格式的,只要前3s,且大小控制在10m以内
小凹直接给到完整的 FFmpeg 命令给到 Gemini Cli 精准执行,完成需求。

Obsidian 写作
无论是记笔记还是内容创作,在 Obsidian 中都是常见场景。
拿公众号写作来说,从标题到文章都可以借助该工作流。

特别是对句子进行局部优化调整以及内容格式(比如转图表)、风格化输出非常有用。
这里其实还有蛮多的场景可以发挥的,不过受限于当前限制,对于公众号创作,还无法接入图片,现在还不支持类似工具调用能力。
要是以后支持,别提能有多强,我随时跟进者,看看啥时候能支持,到时候给大家汇报。
转小红书文案
这个其实我还特意开发过一款插件,现在我用新的工作流来做了尝试,只需要说:
转成小红书文案

但目前的转换,并不能全文做转换,估计是受限于整个的输入长度限制吧。
编程做插件开发场景
之前分享过在 Obsidian 中配合 Gemini Cli 做插件开发,非常舒服。
现在有了 AI 输入法,变得更丝滑了,一些原本需要手动敲击命令的场景也直接口喷就好了。

评论区回复
我有很大一部分时间是用来回复粉丝留言,但经常时间不够用,手动敲击又太慢,导致回复不及时,等过去了好几天,又都没回复。
我一度感到很痛苦。
所以让I输入法来帮我做一些回复,我觉得挺棒的。

计算器
对于一些简单的计算场景,脑子又算不明白,然后每次要吭哧吭哧打开计算器,比较麻烦。
现在只需要说一声,计算结果就出来,随用随丢。

非常方便和丝滑。
智谱AI输入法很好用,我看他们也发布并开源了GLM-ASR系列语音识别模型,而智谱AI输入法就是基于该模型打造的。
官号上截一张开源的 GLM-ASR-Nano-2512模型,可以看到 1.5B 参数的端侧模型,却取得了当前开源语音识别方向的SOTA表现👍🏻,这下好了,可以预见将会有更多基于此的AI应用出来了。

说实话,折腾了这么多工具。
我发现最极致的效率,往往是返璞归真。
没有复杂的鼠标点击,没有繁琐的窗口切换。
只有一个想法,一句耳语,一个结果。
即使在这个 AI 狂奔的时代。
最珍贵的,依然是你脑海中那一闪而过的火花。
只要那朵火花还在。
我们就永远年轻,永远热泪盈眶。
这一次,换个姿势。
重新定义你的工作流。