软件开发中使用 AI 的25种方法（绝无吹牛）

这是一篇关于在你的应用里使用一种新型软件的文章。你肯定听说过了------它叫做 AI。

下面你不会看到什么高级概念、智能体、RAG、聊天机器人，也不会有关于"很快就能做到"的承诺。大多数例子甚至不会直接让用户看到 AI 生成的文字。相反，它们只是一些简单的例子，讲讲怎么用 AI 在你的应用里做决策。

我写这份清单是给那些没有 AI 实战经验的开发者、设计师和产品经理看的。目的是让你们开始思考可以怎样用 AI，属于是"头脑风暴"，而不是详细教程。就算这些例子对你暂时用不上，我也希望能激发你的灵感，冒出一些好点子。

我尽量避免了传统的 AI 吹捧，把 AI 当成一个普通工具来看待。就像数据库、微服务、前端框架一样------你的应用也许能用它，也许用不上。

开始吧......

验证

1. 松散验证

验证一个东西是不是电子邮件地址还算容易。但如果要验证一个输入是不是英文？或者一个数字在给定背景下是不是属于"合理"范围？

比如，想象一个表单，用户需要输入宠物的体重，之前已经提供了品种。字段上清楚写着是公斤单位，但总有人会搞错，输入磅。要为每种动物硬编码"合理"体重很难，但 AI 大致知道大多数动物的正常体重，所以你可以让它来判断这个体重是不是看起来合理。

相比传统验证，用 AI 验证你得预期它犯错的频率更高。所以这种验证需要合适的用户体验/界面设计。比如，如果宠物主人输入的数值 AI 觉得偏高，可以显示一条消息："你是不是不小心输入了磅而不是公斤？还是说这是只胖胖的小狗？"

总原则：在帮助和打扰用户之间找到平衡。这种情况下，用户应该可以很轻松地忽略提示，如果他们觉得自己是对的，AI 是错的。

只要你发现用户老是填错信息，而且 a) 这会引发问题，b) 人类能看出错误，c) 你已经把表单设计做到最好了，这种验证就很有用。

2. 验证用户是不是在正确的位置

比如一个二手交易网站，用户可能会把皮划艇发布到厨房用品分类里，或者在厨房用品分类里搜索皮划艇。旁边有人一眼就能说："你找错地方了。"人能做到的，AI 也能做到。

所以，你可以找找哪里用户容易搞错，然后用 AI 在用户迷路时发出警告并给出指引。

当然了，也许你运营的网站上，自己都不知道用户有多经常跑错地方。所以可以导出分类和搜索关键词的数据，每一条事件都问 AI 觉得用户是不是在对的位置。

实际上，本文大多数例子中，AI 不仅能"解决问题"，还可以帮你判断有没有这个问题。

顺便说一句，就像本文其他例子一样，我也不是说一定得用 AI 来解决。

3. 验证丰富内容

AI 能理解图片也能理解文字。所以如果用户上传一个文件，比如燃气账单，你可以让 AI 检查它是不是看起来像燃气账单，并且上面有没有用户名和地址。

像这种"看起来像燃气账单"的判断，人类很容易做到（虽然准确率有限），但用传统代码基本没戏。

4. 验证遵守规范

在一个可以发消息给其他用户的网站上，你可以给 AI 你的行为准则，再给它一条用户留言，让它判断是不是遵守了规范。如果没遵守，你可以屏蔽评论，或者让 AI 给出行为反馈。还可以让 AI 判断用户是故意冒犯还是无意冒犯，并给出相应反馈。

实际上，如果你的行为准则本身就是常识，那我觉得让用户"同意"这种东西本身就是错误的。应该直接屏蔽不符合的输入。

这是本文贯穿的一条主线：有很多事情，我们现在用传统软件处理得挺蠢的（比如叫用户同意一份14页他们根本不会读的行为准则）。AI 能带来更聪明的做法。

5. 验证清晰度

假设你有个提交 Bug 报告的界面。你可以用 AI 验证用户是不是提供了高质量的信息。比如，如果用户写的是"很慢"、"最近发生"或者"经常发生"，AI 可以让用户具体量化一下这些说法再提交。常言道：量化形容词，才能得到事实。

传统代码最多是靠"问题模板"来引导用户填写，但漏掉重要细节的情况仍然很多。

虽然我尽量避免高级例子，但还是忍不住提一句：其实应该可以用 AI 自动生成能复现 Bug 的"最小复现例子"，不过这活儿难度不小。

6. 验证连贯性

假设你有一个旅行预订网站，用户可以预订航班、酒店、租车和各种活动。如果用户不小心在错误机场取车，后果可能很糟糕。你可以用 AI 把这些预订信息整体推理一遍------它们应该讲述一个连贯的故事------来找出潜在错误。

类似的例子是检测报销单的欺诈行为。一组报销单也应该能讲一个合理的故事。如果有人在错误的城市吃了顿饭，或者租了一辆电动车但报了加油费，那就值得查一查。

当然，两种场景里 AI 都会特别积极地找问题。要小心提示它只报告真正的问题。准备好一组好例子几乎是必须的。而且，还是要在帮助用户和打扰用户之间找到那个甜点。

理解

7. 检测重复

AI 能理解文字的意思，所以很适合检测重复。

想象一个用户反馈系统，用户可以建议新功能。AI 可以看看每个新建议，判断是不是和已有请求很相似。如果是的话，你可以问用户要不要直接给现有功能投票。

检测重复这种事早就能做，但以前一般靠关键词匹配。而 AI 可以比较两段文字的意思，不在乎用的是什么字。比如 AI 知道"深色主题"和"夜间模式"其实是一回事。

8. 把用户工作丢给 AI

只要你让用户做的事情，是一个热心的人也能帮他们搞定的（比如选博客文章的关键词），那基本上就可以考虑让 AI 来做。

你应该扫一遍你的应用界面和工作流，看看哪些地方是让用户干活的，想想 AI 能不能帮他们。

可以通过预填表单字段、推荐设置，或者把预测的选项排在列表最前面来实现。再提醒一遍：一定要在帮助和打扰之间拿捏好。

9. 给内容打标签

有些时候你不能指望用户自己给内容打标签，可以用 AI 来搞定。

比如，想象一个类似 Stack Overflow 的网站，用户发了个问题。你可以让 AI 判断这个问题是"有趣的"还是"有挑战性的"，然后给它贴上标签。这种事情你没法指望发帖人自己搞定。

总的来说：AI 很擅长从非结构化数据（文字、图片、音频等）里提取结构化信息（比如标签）。只要你想给丰富内容加点元数据，AI 很可能是个好帮手。

10. 理解丰富内容

假设你有一个产品评论网站，如果用户上传了小票作为购买凭证，你想加个"已验证购买"徽章。

小票格式千奇百怪，传统代码基本没戏。但人类一眼就能大概看出一张小票是不是买了某个产品（当然也不是100%准），所以 AI 也能。你可以给 AI 小票图片，让它判断是不是买了对应产品，还可以提取价格、日期、购买地点这些信息。

当然了，小票可以伪造（打印机、PS、AI都能伪造），所以......你懂的。

额外一提：你可能会惊讶，用 AI 来"看"视频并实时评论其实很便宜很简单。

比如你有一段装卸区的监控视频，想做一份车辆出入记录。可以每隔几帧抽一张图，让 AI 返回图里车辆的品牌/型号/车牌号。（一张图的处理费用，大概跟几百字的文本一样便宜。）

总之，聪明的做法是先用通用（多模态）大模型验证思路。如果效果可以，再考虑精度、速度、成本这些细节。

11. 根据用户意图适配界面

根据用户行为动态适配界面，传统代码也能做。比如，IDE 看到你文件名里有"test"就自动弹出测试工具，网店根据分类不同显示不同筛选条件。

但有了 AI，我们能做得更多。

比如，在图片编辑软件里，可以让 AI 判断用户打开的是照片还是线条画，再推荐对应的一组工具。或者，代码编辑器可以在用户写 API 端点的时候，自动展示 API 测试工具，而不用靠硬编码字符串匹配。

还是老规矩：得接受 AI 偶尔出错的事实，界面设计要考虑到这一点。

12. 根据内容适配界面

假设你运营一个电影网站。用户发新影评时，你可以让 AI 判断"这篇评论有没有剧透？"。如果有，就把评论藏在"含剧透"按钮后面。

甚至可以让 AI 试着重写一版无剧透的影评。

类似地，一个论坛可以有个"儿童友好模式"，不完全屏蔽成人话题，但可以隐藏或重新措辞敏感内容。

13. 质性数据聚合

传统代码只能聚合定量数据，但 AI 能聚合定性数据。

还记得"词云"吗？那就是以前用传统手段勉强处理质性数据的例子。

但现在有了 AI，可以做得更好。

比如有一堆用户评论，可以用 AI 抽取常见主题，或者按类别整理。

注意，大量数据（比如百万级条目）的话，这事会有点挑战，但还是能做的。

14. 做出判断

想象你有一个收集功能请求的系统。请求量小的时候，可以仔细评估每条请求的价值。但量大了之后，人工审核就搞不定了。

以前的解决办法有：允许投票（假设受欢迎的就是好点子），或者让无人响应的请求自动过期关闭（这种机制很蠢）。

但现在可以直接问 AI："你觉得这个功能请求该不该做？"

如果你对此怀疑，那是好事。实际上，在 2025年4月，AI 对"这是不是个好主意"这种问题的回答还是很烂。

所以我稍微具体讲一下：

我用 VS Code 的 GitHub 仓库里关闭的功能请求做了测试。直接用 GPT-4o 预测哪些请求会被实现，准确率只有 57%，比蒙还好一点点。
然后我用 800条数据微调了 GPT-4o-mini，准确率提升到 72.5%。微调可以直接在 OpenAI 界面做，不用写代码，总花费才 $2.44。
最后我又微调了一个开源 transformer 分类器，准确率达到 80%。这需要一点专业知识（训练和部署）。
你可能觉得 80% 不咋地，也可能觉得很惊艳。我属于后者。毕竟，决定一个功能请求要不要做，本来就很主观，而且训练数据只有标题和描述（图片看不到，链接点不了，评论也拿不到）。能做到 80% 的一致率，已经有点离谱了。
当然，我不是说该把人类判断全扔了。AI 的意见只是参考。
实际上，这个例子是为了防止好主意被"无人响应自动关闭"系统淹没。（显然我个人有很多 GitHub issue 被莫名其妙关了，心里还有点小伤。）
类似的例子是，监测员工聊天（Slack、邮件、茶水间录音）里提到的严重问题，提早预警。毕竟每次公司出丑，总能翻出几个月前的内部邮件预警。用 AI，可以变得更聪明。

15. 排序任何东西

因为 AI 能理解文本，所以它可以理解两段文本有多相似。这意味着你可以让 AI 给任何文本列表排序。

比如你有一堆软件问题单，可以按照"跟'严重 Bug'有多像"的程度排序，严重问题排前面，普通咨询排后面。

完美吗？当然不。但有时候挺有用的。

又比如，用户可以按"感人小马故事"的相似度来排序电影列表。

这种"按意义排序"的交互方式是新的：以往只能按日期、价格、大小这种量化数据，现在也可以按文本、甚至图片的意义来排序了。

如果排序后只返回一部分结果，那就是"语义搜索"；如果只返回极度相似的结果，那叫"重复检测"。底层原理都是"语义相似度"。

16. 替代复杂启发式规则

假设你有个平台，用户可以贴代码片段。你想根据代码自动识别编程语言，套上正确的语法高亮。

传统做法是靠复杂的正则表达式和字符串匹配，非常容易出错，尤其是短小或者模棱两可的代码。

而 AI 不光能通过代码本身判断，还能结合上下文。比如在一篇叫《87个冷门 Python 特性》的博客里，x = 1000 这种片段，AI 会猜是 Python，传统启发式根本做不到。

一般来说，如果你的启发式规则出错的地方，人一眼就能看出问题，那就是可以用 AI 改进的信号。

当然，AI 也不是百分百准确，但启发式本来也很差。主要看你在乎不在乎提升准确率，以及能不能承担额外的 API 调用开销。

类似的例子还有不当言论过滤。传统用词库搞的过滤器，通常又蠢又歧视。比如有个过滤色情内容的词库居然把"非洲"、"业余"、"动物"也列进去，自己还把"porn"列进了自己要过滤的词......用 AI，可以做得好多了。

隐私

这一部分都是关于隐私的（没错，我取这个标题就是这个意思）。

只要你的应用涉及用户数据，就要在保护隐私和防止滥用（比如儿童拐卖）之间找到平衡。

在 AI 出现之前，我们最多只能靠关键词匹配------虽然很容易被绕过，但总比什么都不做强。

问题是，要理解一段内容是不是"坏东西"，需要一个实体（通常是人类）去判断，而用户又想要隐私。

AI 改变了这个局面：现在我们有了一个能理解用户内容的实体，但它只是个算法，理论上（注意，是理论上）不会让用户觉得隐私被侵犯。

好了，继续上例子......

17. 阅读私人聊天

你可以用 AI 来阅读用户之间的私人聊天，检测有没有违反服务条款的行为。

所以你可以告诉用户，只要他们守规矩，就不会有人类去看他们的内容。

如果你做得好，CEO 都能放心地把他最深最黑暗的秘密存在你的应用里。

测试用例一定要做得扎实一点，毕竟这是新领域，甚至可以考虑公开测试结果，增加透明度。

想了解更多，可以看看 Anthropic 的 Clio ------他们用来理解平台用户行为的系统，整个过程中不会有人工阅读消息。

18. 让 AI 当隐私数据中介

你可以让 AI 阅读隐私数据，并回答人类提出的问题，但又不会泄露敏感信息。

比如说，一个私人聊天被标记为可能计划违法行为。你可以问："是什么类型的有害行为？"、"他们打算什么时候动手？"这样就可以在有充分把握时，才考虑打破用户隐私。

类似的例子还有检测霸凌行为。AI 可以告诉你在两个学生之间检测到霸凌，然后你可以进一步问："是什么性质的霸凌？"、"施害者还有别的受害人吗？"等等，全程不用直接偷窥聊天内容。

而且，在这两种情况下，AI 还能帮你筛选出哪些消息你应该被允许阅读。

19. 理解更复杂的数据

如果你的服务允许用户上传应用程序，那你可能希望检测恶意代码。

市面上有现成的专业系统，但如果只是跑一些小代码片段，在沙箱里简单问 AI 这段代码是不是恶意的，总比什么都不做好。

另一个相关例子是检测代码里泄露的 API 密钥或者其他敏感信息。

20. 阅读内容以获取使用洞察

比如说你有一个图片编辑应用，可以用 AI 来识别用户正在编辑的图片类型（家庭照？风景？等等），而且是在保护隐私的前提下。这样就能更好地理解用户是怎么用你家产品的。

又比如，在记事本应用里，可以问 AI："有多少用户在做化学公式笔记？"、"有多少用户用笔记记账？"

这些都可以做到，同时不会侵犯个人隐私。

21. 从数据中学习

如果你刚好运营一个远程医疗服务：你可以用 AI 把通话内容转录下来，再用 AI 总结所有对话，提取共通的主题，且做到保护隐私。

这样就能从本来因为保密性而无法使用的数据中，提炼出知识。

同样的方法也可以用在员工评估、或者其他任何传统上因为保密原因不能挖掘的数据上。

当然啦，在所有关于隐私的应用场景里，千万不要忽视公众观感。

为了建立信任，可以提供一个演示，让用户亲眼看到数据是如何被总结和匿名化的，给他们吃颗定心丸，确认不会泄露任何个人信息。

22. 更聪明的错误信息

出了问题要显示给用户的错误信息，往往很微妙。一方面，你得保护服务器隐私；另一方面，又希望用户能知道发生了什么、能不能自己修复。

AI 可以帮你在这两者之间找到平衡，比如根据栈追踪内容，形成一条合适的错误提示。

举个例子（用你的真实日志训练更好）：

有些错误可以让用户自己修改后重试
有些错误是用户控制不了的
一开始可以用 AI 做个大而全的兜底处理，随着时间推移，逐步细化错误处理，直到最终理想状态：几乎不需要再用 AI 来兜底。
哦对了，别忘了缓存 AI 生成的错误信息------这条原则基本适用于所有地方。
如果你担心 AI 胡说八道，还可以只用它来分类错误（比如：服务器问题、用户输入错误等），然后选择对应的手写错误提示。我觉得，在很多场景下这是个不错的中间方案，至少等你对 AI 的稳定性有了信心之后再放开。

23. 保护人类心理健康

这个例子不是关于隐私的，但用到的方法跟上面很像，所以我顺便放这里了。

比如你有一个线上课程平台，学生反馈区里大部分评论是有建设性的，但偶尔夹杂着性别歧视、种族歧视、口音歧视之类的糟心言论。

为了保护讲师的心理健康，你想把建设性评论和毒性评论分开。

这种事 AI 简直小菜一碟。它可以直接净化每条评论，或者在评论量很大时，用 Clio 风格的方法聚合起来，还可以挑出几句暖心的精彩点评。

这个方法适用于所有"人读人写"的场景，尤其是对方有时候不太文明（比如说......互联网）。

应用管理

24. AI 自动单元测试

假设你的应用里有很多提示小气泡，出现在不同地方。

可以把每条提示文本，连带出现位置的描述（甚至截图），一起交给 AI，问一句："这提示合理吗？"

这样可以捕捉到那些界面动了、按钮改了、提示却忘了改的情况。

这招在多语言版本里也很好用。你甚至可以用 AI 来检查图片的 alt 文本。（小提示：跟 AI 说"别吹毛求疵"，效果惊人好。）

相关例子：我最近做了个小文字游戏（评论说"迷惑"、"不是我的菜"......要不要来玩？）。

游戏里有谜面和答案，都带点文字游戏的小聪明。我用 AI 测试每对谜面和答案是不是"合理匹配"------这种事传统代码根本测不了。

我敢打赌，很多应用里都有一些地方以前是没法测试的。现在 AI 把"可测范围"扩展了，建议回头看看测试覆盖率报告，说不定能用 AI 把一些空白补起来。

25. 检查网站是不是看起来正常

比如你刚部署了网站更新，结果有个 CSS 文件没加载。

集成测试全过了，因为选择器还在，但人一看就知道："炸了。"

AI 也能看得出来。

传统做法是前后截图对比，只能看到有变化，但看不出是不是坏了。

而有了 AI，可以把部署前后的截图都交给它，问一句："看起来正常吗？"

效果更好的是，顺便给 AI 提供一下变更列表（比如 Git 提交信息），让它知道哪些变化是预期之中的。

担忧、反对、现实检查

前面画了个挺美好的 AI 图景，但也有些没提到的问题。

你自己可能也有疑问，或者在向管理层 pitch AI 点子时会被问到。

所以我这里简单罗列下常见疑问：

AI 会不会胡说八道？
会。但不代表没用。关键是要学会怎么跟它合作。
贵不贵？
看跟什么比了。跟招一个人（租一个大脑）比，AI 每天能干掉十亿字。但跟一条正则表达式比，是会贵点。
开源模型不是免费吗？
不是。托管的开源模型一般比 OpenAI 或 Google 的还贵一点。但企业可以自己本地部署供全公司人员使用，这样不会有成本担忧。
AI 不是很慢吗？
小提示下，速度跟一般 API 调用差不多------几百毫秒。
AI 容易被攻击吗？
是的。需要限制输入输出长度，最好用封闭式问题提示。直到你真正了解 prompt injection 等安全风险。
是不是拿了个新锤子，就把啥都当钉子？
首先，这不是问题。其次，这是害怕变化的人看到别人拿新锤子玩得开心时说的话。
AI 是不是被过度炒作了？
是，但这不重要。重要的是，它有用。
需要有 AI 背景吗？
不需要。做个原型难度大概跟用天气 API 差不多。用 API 部署一个能跑的大规模应用也不难。要自己部署模型，难度大概是你想象的八倍。
需要学 prompt engineering 吗？
首先，这个词本身就很蠢------就像系鞋带非要叫"鞋带工程学"。其次，模型越来越聪明了，不需要特别雕刻提示了。想学的话，看 OpenAI、Anthropic 或 Google 的指南，或者按我的建议，像给实习生发邮件那样给 AI 下任务就行。

总结

现在围绕 AI 有太多吹牛、恐慌和胡说八道了。

但说到底，AI 就是一个超级有用的新工具，而且还没被充分利用。

整个世界现在的感觉，就像关系型数据库刚发明时，大多数人还在用纯文本文件存数据。

AI 能改进我们以前那些傻乎乎的方法，但这些实用场景并不会上头条。

希望这篇文章能给你带来一些灵感，去实际落地实现点东西。