真实有效的 AI 方法论:01 先升级输入方式

公司践行 AI 这么久了,有些在工作过程中真实有效的理念,想做个分享,给各位参考下。如果有更好的思路,希望各位在评论区留言,整个 AI 进程是不停迭代的过程。

这次我先分享第一个点 ------ 用语音输入法代替打字。

这是可以作为基建的一点,这是和 AI 交互的方式。

现在的语音输入法已经不止通过音频识别文字,基于 LLM 能力赋予语音输入法更多可能性。

从讯飞输入法开始我就在用语音输入法,但当时遇到些同音字、公式、标点符号等情况,总会让我被迫回到手动修复的场景。

但是现在的语音输入法已经可以很好的解决这些问题,主要基于两方面能力的提升,1 是语音输入本身的准确性,2 是识别后可以基于上下文做修正,这里的上下文可以是自定义的提示词、和当前页面的截图。

分开说,首先是语音识别的精准性。

豆包输入法大家都用过吧,没用过可以用一下体验体验,前几天在 Mac 上也做了内测,但是我主要用的闪电说 App,直接用的豆包流式输入 2.0 的官方 Api。

现在的语音识别一大改进是轻语识别(还是轻声识别?),不需要像跟人说话那么大声,甚至不用振动声带,只靠气息发声,像说悄悄话那样,或者非常轻微的声带振动。大家可以自行用手机的试一下,绝对会被准确率震惊。

这样说一天,嗓子也不累,人也不难受,而且相互办公的时候,不会互相影响,我一般带个降噪耳机,就听不到。

我们用的 Mac 开发,本身的收音效果已经非常好了,但也配置了专属的麦克风,这样把麦克风调到嘴边,识别效果更好。

第二部分就是识别后的修正。

不管语音识别的效果多好,总会有些不如人意的地方,比如要临时说一个图中有的英文,大部分人是不知道怎么发音的,随便说一个,或者想去掉语音识别中的口语化额、啊、就是等等,或是想改变风格等等,这就是配合 LLM 发挥的实力。

列举几个我常用的功能。

用户词典:把个人常用,但在输入法里面不是那么常见的词组,比如各种技术组件的名字。

自动结构化:把一长段文字,整理为有逻辑的段落。

口语过滤:这个不用重复说明了。

加载屏幕识别:给 LLM 纠正的时候,把当前页面的截图也给一份。这种场景在临时遇到的人名、英文术语等识别很好。

以上就是我关于和 AI 交互方面的心得,语音输入比键盘效率得多,但不代表键盘会被淘汰,比如不方便说话的时候,以及是需要复制粘贴的场景,键盘依然更效率。最高效的方案是结合两者。

相关推荐
小兵张健4 小时前
一场大概率没拿到 offer 的面试,让我更坚定去做喜欢的事
人工智能·面试·程序员
阿虎儿12 小时前
56条软件工程开发定律
程序员
程序员鱼皮13 小时前
Git WorkTree 是什么?凭什么能让 AI 编程效率翻倍?
git·ai·程序员·编程·ai编程
czkm13 小时前
AI有情绪吗?从AI夸我是写作领域大神说起
人工智能·程序员·ai编程
SimonKing18 小时前
AI编程工具装了一大堆,Skills 管理乱成粥?这个开源神器一招搞定!
java·后端·程序员
小兵张健1 天前
AI 带来的机遇,可能真的大于风险
程序员·openai·ai编程
WebInfra1 天前
Rsbuild 2.0 发布:即将支持 TanStack Start
前端·javascript·程序员
我就是马云飞1 天前
我废了!大厂10年的我面了20家公司,面试官让我回去等通知!
android·前端·程序员
橙某人1 天前
生产力悖论:AI Coding 的效率狂欢与秩序隐忧
程序员