软件开发中使用 AI 的25种方法(绝无吹牛)

这是一篇关于在你的应用里使用一种新型软件的文章。你肯定听说过了------它叫做 AI。

下面你不会看到什么高级概念、智能体、RAG、聊天机器人,也不会有关于"很快就能做到"的承诺。大多数例子甚至不会直接让用户看到 AI 生成的文字。相反,它们只是一些简单的例子,讲讲怎么用 AI 在你的应用里做决策。

我写这份清单是给那些没有 AI 实战经验的开发者、设计师和产品经理看的。目的是让你们开始思考可以怎样用 AI,属于是"头脑风暴",而不是详细教程。就算这些例子对你暂时用不上,我也希望能激发你的灵感,冒出一些好点子。

我尽量避免了传统的 AI 吹捧,把 AI 当成一个普通工具来看待。就像数据库、微服务、前端框架一样------你的应用也许能用它,也许用不上。

开始吧......

验证

1. 松散验证

验证一个东西是不是电子邮件地址还算容易。但如果要验证一个输入是不是英文?或者一个数字在给定背景下是不是属于"合理"范围?

比如,想象一个表单,用户需要输入宠物的体重,之前已经提供了品种。字段上清楚写着是公斤单位,但总有人会搞错,输入磅。要为每种动物硬编码"合理"体重很难,但 AI 大致知道大多数动物的正常体重,所以你可以让它来判断这个体重是不是看起来合理。

相比传统验证,用 AI 验证你得预期它犯错的频率更高。所以这种验证需要合适的用户体验/界面设计。比如,如果宠物主人输入的数值 AI 觉得偏高,可以显示一条消息:"你是不是不小心输入了磅而不是公斤?还是说这是只胖胖的小狗?"

总原则:在帮助和打扰用户之间找到平衡。这种情况下,用户应该可以很轻松地忽略提示,如果他们觉得自己是对的,AI 是错的。

只要你发现用户老是填错信息,而且 a) 这会引发问题,b) 人类能看出错误,c) 你已经把表单设计做到最好了,这种验证就很有用。

2. 验证用户是不是在正确的位置

比如一个二手交易网站,用户可能会把皮划艇发布到厨房用品分类里,或者在厨房用品分类里搜索皮划艇。旁边有人一眼就能说:"你找错地方了。"人能做到的,AI 也能做到。

所以,你可以找找哪里用户容易搞错,然后用 AI 在用户迷路时发出警告并给出指引。

当然了,也许你运营的网站上,自己都不知道用户有多经常跑错地方。所以可以导出分类和搜索关键词的数据,每一条事件都问 AI 觉得用户是不是在对的位置。

实际上,本文大多数例子中,AI 不仅能"解决问题",还可以帮你判断有没有这个问题。

顺便说一句,就像本文其他例子一样,我也不是说一定得用 AI 来解决。

3. 验证丰富内容

AI 能理解图片也能理解文字。所以如果用户上传一个文件,比如燃气账单,你可以让 AI 检查它是不是看起来像燃气账单,并且上面有没有用户名和地址。

像这种"看起来像燃气账单"的判断,人类很容易做到(虽然准确率有限),但用传统代码基本没戏。

4. 验证遵守规范

在一个可以发消息给其他用户的网站上,你可以给 AI 你的行为准则,再给它一条用户留言,让它判断是不是遵守了规范。如果没遵守,你可以屏蔽评论,或者让 AI 给出行为反馈。还可以让 AI 判断用户是故意冒犯还是无意冒犯,并给出相应反馈。

实际上,如果你的行为准则本身就是常识,那我觉得让用户"同意"这种东西本身就是错误的。应该直接屏蔽不符合的输入。

这是本文贯穿的一条主线:有很多事情,我们现在用传统软件处理得挺蠢的(比如叫用户同意一份14页他们根本不会读的行为准则)。AI 能带来更聪明的做法。

5. 验证清晰度

假设你有个提交 Bug 报告的界面。你可以用 AI 验证用户是不是提供了高质量的信息。比如,如果用户写的是"很慢"、"最近发生"或者"经常发生",AI 可以让用户具体量化一下这些说法再提交。常言道:量化形容词,才能得到事实。

传统代码最多是靠"问题模板"来引导用户填写,但漏掉重要细节的情况仍然很多。

虽然我尽量避免高级例子,但还是忍不住提一句:其实应该可以用 AI 自动生成能复现 Bug 的"最小复现例子",不过这活儿难度不小。

6. 验证连贯性

假设你有一个旅行预订网站,用户可以预订航班、酒店、租车和各种活动。如果用户不小心在错误机场取车,后果可能很糟糕。你可以用 AI 把这些预订信息整体推理一遍------它们应该讲述一个连贯的故事------来找出潜在错误。

类似的例子是检测报销单的欺诈行为。一组报销单也应该能讲一个合理的故事。如果有人在错误的城市吃了顿饭,或者租了一辆电动车但报了加油费,那就值得查一查。

当然,两种场景里 AI 都会特别积极地找问题。要小心提示它只报告真正的问题。准备好一组好例子几乎是必须的。而且,还是要在帮助用户和打扰用户之间找到那个甜点。

理解

7. 检测重复

AI 能理解文字的意思,所以很适合检测重复。

想象一个用户反馈系统,用户可以建议新功能。AI 可以看看每个新建议,判断是不是和已有请求很相似。如果是的话,你可以问用户要不要直接给现有功能投票。

检测重复这种事早就能做,但以前一般靠关键词匹配。而 AI 可以比较两段文字的意思,不在乎用的是什么字。比如 AI 知道"深色主题"和"夜间模式"其实是一回事。

8. 把用户工作丢给 AI

只要你让用户做的事情,是一个热心的人也能帮他们搞定的(比如选博客文章的关键词),那基本上就可以考虑让 AI 来做。

你应该扫一遍你的应用界面和工作流,看看哪些地方是让用户干活的,想想 AI 能不能帮他们。

可以通过预填表单字段、推荐设置,或者把预测的选项排在列表最前面来实现。再提醒一遍:一定要在帮助和打扰之间拿捏好。

9. 给内容打标签

有些时候你不能指望用户自己给内容打标签,可以用 AI 来搞定。

比如,想象一个类似 Stack Overflow 的网站,用户发了个问题。你可以让 AI 判断这个问题是"有趣的"还是"有挑战性的",然后给它贴上标签。这种事情你没法指望发帖人自己搞定。

总的来说:AI 很擅长从非结构化数据(文字、图片、音频等)里提取结构化信息(比如标签)。只要你想给丰富内容加点元数据,AI 很可能是个好帮手。

10. 理解丰富内容

假设你有一个产品评论网站,如果用户上传了小票作为购买凭证,你想加个"已验证购买"徽章。

小票格式千奇百怪,传统代码基本没戏。但人类一眼就能大概看出一张小票是不是买了某个产品(当然也不是100%准),所以 AI 也能。你可以给 AI 小票图片,让它判断是不是买了对应产品,还可以提取价格、日期、购买地点这些信息。

当然了,小票可以伪造(打印机、PS、AI都能伪造),所以......你懂的。

额外一提:你可能会惊讶,用 AI 来"看"视频并实时评论其实很便宜很简单。

比如你有一段装卸区的监控视频,想做一份车辆出入记录。可以每隔几帧抽一张图,让 AI 返回图里车辆的品牌/型号/车牌号。(一张图的处理费用,大概跟几百字的文本一样便宜。)

总之,聪明的做法是先用通用(多模态)大模型验证思路。如果效果可以,再考虑精度、速度、成本这些细节。

11. 根据用户意图适配界面

根据用户行为动态适配界面,传统代码也能做。比如,IDE 看到你文件名里有"test"就自动弹出测试工具,网店根据分类不同显示不同筛选条件。

但有了 AI,我们能做得更多。

比如,在图片编辑软件里,可以让 AI 判断用户打开的是照片还是线条画,再推荐对应的一组工具。或者,代码编辑器可以在用户写 API 端点的时候,自动展示 API 测试工具,而不用靠硬编码字符串匹配。

还是老规矩:得接受 AI 偶尔出错的事实,界面设计要考虑到这一点。

12. 根据内容适配界面

假设你运营一个电影网站。用户发新影评时,你可以让 AI 判断"这篇评论有没有剧透?"。如果有,就把评论藏在"含剧透"按钮后面。

甚至可以让 AI 试着重写一版无剧透的影评。

类似地,一个论坛可以有个"儿童友好模式",不完全屏蔽成人话题,但可以隐藏或重新措辞敏感内容。

13. 质性数据聚合

传统代码只能聚合定量数据,但 AI 能聚合定性数据。

还记得"词云"吗?那就是以前用传统手段勉强处理质性数据的例子。

但现在有了 AI,可以做得更好。

比如有一堆用户评论,可以用 AI 抽取常见主题,或者按类别整理。

注意,大量数据(比如百万级条目)的话,这事会有点挑战,但还是能做的。

14. 做出判断

想象你有一个收集功能请求的系统。请求量小的时候,可以仔细评估每条请求的价值。但量大了之后,人工审核就搞不定了。

以前的解决办法有:允许投票(假设受欢迎的就是好点子),或者让无人响应的请求自动过期关闭(这种机制很蠢)。

但现在可以直接问 AI:"你觉得这个功能请求该不该做?"

如果你对此怀疑,那是好事。实际上,在 2025年4月,AI 对"这是不是个好主意"这种问题的回答还是很烂。

所以我稍微具体讲一下:

  • 我用 VS Code 的 GitHub 仓库里关闭的功能请求做了测试。直接用 GPT-4o 预测哪些请求会被实现,准确率只有 57%,比蒙还好一点点。
  • 然后我用 800条数据微调了 GPT-4o-mini,准确率提升到 72.5%。微调可以直接在 OpenAI 界面做,不用写代码,总花费才 $2.44。
  • 最后我又微调了一个开源 transformer 分类器,准确率达到 80%。这需要一点专业知识(训练和部署)。
    你可能觉得 80% 不咋地,也可能觉得很惊艳。我属于后者。毕竟,决定一个功能请求要不要做,本来就很主观,而且训练数据只有标题和描述(图片看不到,链接点不了,评论也拿不到)。能做到 80% 的一致率,已经有点离谱了。
    当然,我不是说该把人类判断全扔了。AI 的意见只是参考。
    实际上,这个例子是为了防止好主意被"无人响应自动关闭"系统淹没。(显然我个人有很多 GitHub issue 被莫名其妙关了,心里还有点小伤。)
    类似的例子是,监测员工聊天(Slack、邮件、茶水间录音)里提到的严重问题,提早预警。毕竟每次公司出丑,总能翻出几个月前的内部邮件预警。用 AI,可以变得更聪明。

15. 排序任何东西

因为 AI 能理解文本,所以它可以理解两段文本有多相似。这意味着你可以让 AI 给任何文本列表排序。

比如你有一堆软件问题单,可以按照"跟'严重 Bug'有多像"的程度排序,严重问题排前面,普通咨询排后面。

完美吗?当然不。但有时候挺有用的。

又比如,用户可以按"感人小马故事"的相似度来排序电影列表。

这种"按意义排序"的交互方式是新的:以往只能按日期、价格、大小这种量化数据,现在也可以按文本、甚至图片的意义来排序了。

如果排序后只返回一部分结果,那就是"语义搜索";如果只返回极度相似的结果,那叫"重复检测"。底层原理都是"语义相似度"。

16. 替代复杂启发式规则

假设你有个平台,用户可以贴代码片段。你想根据代码自动识别编程语言,套上正确的语法高亮。

传统做法是靠复杂的正则表达式和字符串匹配,非常容易出错,尤其是短小或者模棱两可的代码。

而 AI 不光能通过代码本身判断,还能结合上下文。比如在一篇叫《87个冷门 Python 特性》的博客里,x = 1000 这种片段,AI 会猜是 Python,传统启发式根本做不到。

一般来说,如果你的启发式规则出错的地方,人一眼就能看出问题,那就是可以用 AI 改进的信号。

当然,AI 也不是百分百准确,但启发式本来也很差。主要看你在乎不在乎提升准确率,以及能不能承担额外的 API 调用开销。

类似的例子还有不当言论过滤。传统用词库搞的过滤器,通常又蠢又歧视。比如有个过滤色情内容的词库居然把"非洲"、"业余"、"动物"也列进去,自己还把"porn"列进了自己要过滤的词......用 AI,可以做得好多了。

隐私

这一部分都是关于隐私的(没错,我取这个标题就是这个意思)。

只要你的应用涉及用户数据,就要在保护隐私和防止滥用(比如儿童拐卖)之间找到平衡。

在 AI 出现之前,我们最多只能靠关键词匹配------虽然很容易被绕过,但总比什么都不做强。

问题是,要理解一段内容是不是"坏东西",需要一个实体(通常是人类)去判断,而用户又想要隐私。

AI 改变了这个局面:现在我们有了一个能理解用户内容的实体,但它只是个算法,理论上(注意,是理论上)不会让用户觉得隐私被侵犯。

好了,继续上例子......

17. 阅读私人聊天

你可以用 AI 来阅读用户之间的私人聊天,检测有没有违反服务条款的行为。

所以你可以告诉用户,只要他们守规矩,就不会有人类去看他们的内容。

如果你做得好,CEO 都能放心地把他最深最黑暗的秘密存在你的应用里。

测试用例一定要做得扎实一点,毕竟这是新领域,甚至可以考虑公开测试结果,增加透明度。

想了解更多,可以看看 Anthropic 的 Clio ------他们用来理解平台用户行为的系统,整个过程中不会有人工阅读消息。

18. 让 AI 当隐私数据中介

你可以让 AI 阅读隐私数据,并回答人类提出的问题,但又不会泄露敏感信息。

比如说,一个私人聊天被标记为可能计划违法行为。你可以问:"是什么类型的有害行为?"、"他们打算什么时候动手?"这样就可以在有充分把握时,才考虑打破用户隐私。

类似的例子还有检测霸凌行为。AI 可以告诉你在两个学生之间检测到霸凌,然后你可以进一步问:"是什么性质的霸凌?"、"施害者还有别的受害人吗?"等等,全程不用直接偷窥聊天内容。

而且,在这两种情况下,AI 还能帮你筛选出哪些消息你应该被允许阅读。

19. 理解更复杂的数据

如果你的服务允许用户上传应用程序,那你可能希望检测恶意代码。

市面上有现成的专业系统,但如果只是跑一些小代码片段,在沙箱里简单问 AI 这段代码是不是恶意的,总比什么都不做好。

另一个相关例子是检测代码里泄露的 API 密钥或者其他敏感信息。

20. 阅读内容以获取使用洞察

比如说你有一个图片编辑应用,可以用 AI 来识别用户正在编辑的图片类型(家庭照?风景?等等),而且是在保护隐私的前提下。这样就能更好地理解用户是怎么用你家产品的。

又比如,在记事本应用里,可以问 AI:"有多少用户在做化学公式笔记?"、"有多少用户用笔记记账?"

这些都可以做到,同时不会侵犯个人隐私。

21. 从数据中学习

如果你刚好运营一个远程医疗服务:你可以用 AI 把通话内容转录下来,再用 AI 总结所有对话,提取共通的主题,且做到保护隐私。

这样就能从本来因为保密性而无法使用的数据中,提炼出知识。

同样的方法也可以用在员工评估、或者其他任何传统上因为保密原因不能挖掘的数据上。

当然啦,在所有关于隐私的应用场景里,千万不要忽视公众观感。

为了建立信任,可以提供一个演示,让用户亲眼看到数据是如何被总结和匿名化的,给他们吃颗定心丸,确认不会泄露任何个人信息。

22. 更聪明的错误信息

出了问题要显示给用户的错误信息,往往很微妙。一方面,你得保护服务器隐私;另一方面,又希望用户能知道发生了什么、能不能自己修复。

AI 可以帮你在这两者之间找到平衡,比如根据栈追踪内容,形成一条合适的错误提示。

举个例子(用你的真实日志训练更好):

  • 有些错误可以让用户自己修改后重试
  • 有些错误是用户控制不了的
    一开始可以用 AI 做个大而全的兜底处理,随着时间推移,逐步细化错误处理,直到最终理想状态:几乎不需要再用 AI 来兜底。
    哦对了,别忘了缓存 AI 生成的错误信息------这条原则基本适用于所有地方。
    如果你担心 AI 胡说八道,还可以只用它来分类错误(比如:服务器问题、用户输入错误等),然后选择对应的手写错误提示。我觉得,在很多场景下这是个不错的中间方案,至少等你对 AI 的稳定性有了信心之后再放开。

23. 保护人类心理健康

这个例子不是关于隐私的,但用到的方法跟上面很像,所以我顺便放这里了。

比如你有一个线上课程平台,学生反馈区里大部分评论是有建设性的,但偶尔夹杂着性别歧视、种族歧视、口音歧视之类的糟心言论。

为了保护讲师的心理健康,你想把建设性评论和毒性评论分开。

这种事 AI 简直小菜一碟。它可以直接净化每条评论,或者在评论量很大时,用 Clio 风格的方法聚合起来,还可以挑出几句暖心的精彩点评。

这个方法适用于所有"人读人写"的场景,尤其是对方有时候不太文明(比如说......互联网)。

应用管理

24. AI 自动单元测试

假设你的应用里有很多提示小气泡,出现在不同地方。

可以把每条提示文本,连带出现位置的描述(甚至截图),一起交给 AI,问一句:"这提示合理吗?"

这样可以捕捉到那些界面动了、按钮改了、提示却忘了改的情况。

这招在多语言版本里也很好用。你甚至可以用 AI 来检查图片的 alt 文本。(小提示:跟 AI 说"别吹毛求疵",效果惊人好。)

相关例子:我最近做了个小文字游戏(评论说"迷惑"、"不是我的菜"......要不要来玩?)。

游戏里有谜面和答案,都带点文字游戏的小聪明。我用 AI 测试每对谜面和答案是不是"合理匹配"------这种事传统代码根本测不了。

我敢打赌,很多应用里都有一些地方以前是没法测试的。现在 AI 把"可测范围"扩展了,建议回头看看测试覆盖率报告,说不定能用 AI 把一些空白补起来。

25. 检查网站是不是看起来正常

比如你刚部署了网站更新,结果有个 CSS 文件没加载。

集成测试全过了,因为选择器还在,但人一看就知道:"炸了。"

AI 也能看得出来。

传统做法是前后截图对比,只能看到有变化,但看不出是不是坏了。

而有了 AI,可以把部署前后的截图都交给它,问一句:"看起来正常吗?"

效果更好的是,顺便给 AI 提供一下变更列表(比如 Git 提交信息),让它知道哪些变化是预期之中的。

担忧、反对、现实检查

前面画了个挺美好的 AI 图景,但也有些没提到的问题。

你自己可能也有疑问,或者在向管理层 pitch AI 点子时会被问到。

所以我这里简单罗列下常见疑问:

  • AI 会不会胡说八道?
    会。但不代表没用。关键是要学会怎么跟它合作。
  • 贵不贵?
    看跟什么比了。跟招一个人(租一个大脑)比,AI 每天能干掉十亿字。但跟一条正则表达式比,是会贵点。
  • 开源模型不是免费吗?
    不是。托管的开源模型一般比 OpenAI 或 Google 的还贵一点。但企业可以自己本地部署供全公司人员使用,这样不会有成本担忧。
  • AI 不是很慢吗?
    小提示下,速度跟一般 API 调用差不多------几百毫秒。
  • AI 容易被攻击吗?
    是的。需要限制输入输出长度,最好用封闭式问题提示。直到你真正了解 prompt injection 等安全风险。
  • 是不是拿了个新锤子,就把啥都当钉子?
    首先,这不是问题。其次,这是害怕变化的人看到别人拿新锤子玩得开心时说的话。
  • AI 是不是被过度炒作了?
    是,但这不重要。重要的是,它有用。
  • 需要有 AI 背景吗?
    不需要。做个原型难度大概跟用天气 API 差不多。用 API 部署一个能跑的大规模应用也不难。要自己部署模型,难度大概是你想象的八倍。
  • 需要学 prompt engineering 吗?
    首先,这个词本身就很蠢------就像系鞋带非要叫"鞋带工程学"。其次,模型越来越聪明了,不需要特别雕刻提示了。想学的话,看 OpenAI、Anthropic 或 Google 的指南,或者按我的建议,像给实习生发邮件那样给 AI 下任务就行。

总结

现在围绕 AI 有太多吹牛、恐慌和胡说八道了。

但说到底,AI 就是一个超级有用的新工具,而且还没被充分利用。

整个世界现在的感觉,就像关系型数据库刚发明时,大多数人还在用纯文本文件存数据。

AI 能改进我们以前那些傻乎乎的方法,但这些实用场景并不会上头条。

希望这篇文章能给你带来一些灵感,去实际落地实现点东西。

相关推荐
DragonnAi29 分钟前
基于项目管理的轻量级目标检测自动标注系统【基于 YOLOV8】
人工智能·yolo·目标检测
AI绘画咪酱42 分钟前
【CSDN首发】Stable Diffusion从零到精通学习路线分享
人工智能·学习·macos·ai作画·stable diffusion·aigc
DeepSeek+NAS1 小时前
耘想WinNAS:以聊天交互重构NAS生态,开启AI时代的存储革命
人工智能·重构·nas·winnas·安卓nas·windows nas
2201_754918411 小时前
OpenCv--换脸
人工智能·opencv·计算机视觉
ocr_sinosecu11 小时前
OCR进化史:从传统到深度学习,解锁文字识别新境界
人工智能·深度学习·ocr
Stara05111 小时前
YOLO11改进——融合BAM注意力机制增强图像分类与目标检测能力
人工智能·python·深度学习·目标检测·计算机视觉·yolov11
movigo7_dou1 小时前
关于深度学习局部视野与全局视野的一些思考
人工智能·深度学习
itwangyang5202 小时前
AIDD-人工智能药物设计-大语言模型在医学领域的革命性应用
人工智能·语言模型·自然语言处理
热心网友俣先生2 小时前
2025年泰迪杯数据挖掘竞赛B题论文首发+问题一二三四代码分享
人工智能·数据挖掘