真实有效的 AI 方法论:01 先升级输入方式

公司践行 AI 这么久了,有些在工作过程中真实有效的理念,想做个分享,给各位参考下。如果有更好的思路,希望各位在评论区留言,整个 AI 进程是不停迭代的过程。

这次我先分享第一个点 ------ 用语音输入法代替打字。

这是可以作为基建的一点,这是和 AI 交互的方式。

现在的语音输入法已经不止通过音频识别文字,基于 LLM 能力赋予语音输入法更多可能性。

从讯飞输入法开始我就在用语音输入法,但当时遇到些同音字、公式、标点符号等情况,总会让我被迫回到手动修复的场景。

但是现在的语音输入法已经可以很好的解决这些问题,主要基于两方面能力的提升,1 是语音输入本身的准确性,2 是识别后可以基于上下文做修正,这里的上下文可以是自定义的提示词、和当前页面的截图。

分开说,首先是语音识别的精准性。

豆包输入法大家都用过吧,没用过可以用一下体验体验,前几天在 Mac 上也做了内测,但是我主要用的闪电说 App,直接用的豆包流式输入 2.0 的官方 Api。

现在的语音识别一大改进是轻语识别(还是轻声识别?),不需要像跟人说话那么大声,甚至不用振动声带,只靠气息发声,像说悄悄话那样,或者非常轻微的声带振动。大家可以自行用手机的试一下,绝对会被准确率震惊。

这样说一天,嗓子也不累,人也不难受,而且相互办公的时候,不会互相影响,我一般带个降噪耳机,就听不到。

我们用的 Mac 开发,本身的收音效果已经非常好了,但也配置了专属的麦克风,这样把麦克风调到嘴边,识别效果更好。

第二部分就是识别后的修正。

不管语音识别的效果多好,总会有些不如人意的地方,比如要临时说一个图中有的英文,大部分人是不知道怎么发音的,随便说一个,或者想去掉语音识别中的口语化额、啊、就是等等,或是想改变风格等等,这就是配合 LLM 发挥的实力。

列举几个我常用的功能。

用户词典:把个人常用,但在输入法里面不是那么常见的词组,比如各种技术组件的名字。

自动结构化:把一长段文字,整理为有逻辑的段落。

口语过滤:这个不用重复说明了。

加载屏幕识别:给 LLM 纠正的时候,把当前页面的截图也给一份。这种场景在临时遇到的人名、英文术语等识别很好。

以上就是我关于和 AI 交互方面的心得,语音输入比键盘效率得多,但不代表键盘会被淘汰,比如不方便说话的时候,以及是需要复制粘贴的场景,键盘依然更效率。最高效的方案是结合两者。

相关推荐
京东云开发者5 小时前
认知程序设计-【复杂度治理】破解通用业务域声明式
程序员
京东云开发者5 小时前
OpenClaw Agent与Skill架构详解
程序员
京东云开发者5 小时前
【AI新范式】两条路线,一个答案:来自测开视角的实战手记
程序员
猿类崛起@6 小时前
CherryStudio配置本地MCP服务器实现FileSystem本地文件系统读写操作
人工智能·学习·程序员·大模型·agent·ai大模型·mcp
Definition7 小时前
Claude Code 能养宠物了,体验下抽卡的感觉
前端·程序员
文心快码BaiduComate8 小时前
Comate AI IDE三大能力升级:支持语音输入& AI可操作浏览器 & Figma设计与代码双向转换
前端·后端·程序员
Flutter笔记8 小时前
如何在本地跑 Core ML 模型识别呼噜声,并用 iCloud 优雅同步?
前端·人工智能·程序员
程序员鱼皮11 小时前
刚刚 Claude Code 源码泄露!我扒出了 11 个隐藏秘密
ai·程序员·编程·ai编程·claude
得物技术12 小时前
日志诊断 Skill:用 AI + MCP 一键解决BUG|得物技术
运维·后端·程序员