让流浪汉都能学会的大模型教程——用大语言模型设计解决方案

本章你将看到这些实用干货：

✅ 如何用 检索增强生成（RAG） 来减少胡说八道
✅ 如何让大模型"反向监管"人类，来减少自动化偏见
✅ 如何用大模型的 embedding 赋能传统机器学习算法
✅ 如何设计 LLM 的产品体验，让用户和公司都不"掉坑"

前情回顾：你已经掌握了大模型的基本功

到现在为止，你应该已经对 LLM 有了比较"像回事儿"的理解了：

它能模仿人类写作；
背后吃下了亿万文本；
能力强大，但也不是完美体，偶尔也会一本正经地胡说八道。

我们之前也说了，减少模型出错的一种方式是：
加入专业领域知识、或者配合使用一些工具（比如代码解析器、规则校验器等）。

现在，是时候动手搞个"能上线"的方案了！

本章我们就要讲一件实战事：

如何基于大语言模型，设计一个真正能投入使用的"解决方案"？

我们不会空谈理论，而是用一个你我都熟悉的场景来举例：

👉 "联系技术客服" ------ 也就是你电脑坏了、App 出 bug、Wi-Fi 崩了，找人求救那种情况。

第一步，先做一个 Chatbot？

没错，聊天机器人基本上是大家接触 LLM 的第一扇门。

它能跟你一来一回聊天，生成的语句还挺"人模人样"。

所以我们会先探讨一个常见做法：

👉 在客户服务场景中部署一个 LLM 驱动的 Chatbot。

当然，听起来不错，但风险也是真的多 。

本章就会评估这些风险值不值得。

不过如果风险不大，简单的 Chatbot 反而可能就是"够用了"的解决方案。

接下来，我们得想办法"控风险"

如果你担心大模型"飘了"，可以通过改进应用设计来管住它。

但注意：

如果你指望"让人来审查大模型每一句输出"，这条路问题很多，

因为人类自己也容易"被 AI 带偏"，这就是所谓的 自动化偏见（automation bias） 。

很神奇的是，我们可以换个思路：

👉 让 LLM 来监督人类，而不是反过来！

我们还会聊到：

怎么用 embedding（向量化表示） 把文本转成"模型能理解的数字"；
怎么把这些向量喂给传统机器学习模型来帮大模型打辅助，
👉 解决一些 LLM 本身搞不定的任务。

最后，来聊聊"怎么把技术包装得让用户更信任"

技术再牛，如果用户一脸"这啥玩意？"那也白搭。

我们会讨论"可解释 AI（explainable AI）"这个热门方向------

它试图解释模型是怎么想的、为什么给出这个答案。

不过，研究发现：

解释性≠有用性，给用户解释 LLM 背后的机制，并不能解决用户真正的焦虑。

所以更有效的做法其实是：

强调透明性：模型输出的来龙去脉要清楚；
用户和产品目标一致：你别把 AI 当挡箭牌；
构建正向反馈循环：用户用了之后能反馈 → 模型能优化 → 下次更准。

这样，才是真正能让公司和用户双赢的解决方案设计。

8.1 干脆做个聊天机器人？听起来真香！

一点也不意外，很多人在接触到 LLM（大语言模型）之后，第一反应就是：

"我们做个 Chatbot 吧！"

确实，这是个又显眼又顺手的起步方式。

尤其是现在的 ChatGPT，简直就是聊天机器人天花板：

能和你一来一回对话；
能听懂上下文；
能查资料还能组织成句子，
简直是"客服的梦想同事"。

你要真拿以前的老路子搞客服，可能才是真的"不懂事"

过去我们搞客服怎么搞？

搭个专家系统，就是用树状菜单给你套话选项；
让它走一棵"决策树"：
"你是不是打不开App？"
"你是不是忘记密码？"
"你是不是点了'注销账户'？"

客户听得头大，客服也不想搭理，最后只能靠 FAQ + 工单系统硬撑。

现在呢？

有了大模型，用户只要打开一个对话框，就能直接对 AI 说：

"我买的那个智能猫砂盆又联网失败了，快救我！"

不需要翻 FAQ、不需要发邮件、不需要等 IVR（语音菜单）转人工，

AI 直接接招，甚至还能陪你吐槽几句。

听起来是不是像极了未来？

别说，用图画出来还挺像回事儿（见图 8.1）

你要是画个系统流程图，看起来就特别清爽、特别有未来感：

用户 → 问问题 → LLM → 输出答案 → 用户满意 → 提升 NPS......

但！

纸上得来终觉浅，真搞起来......还有很多坑等着你跳。

有时候聊天机器人是好主意，但别太想当然

我们先把话说清楚：确实，在某些场景下做个聊天机器人是个好主意。

但是，你以为最适合做客服的就是线上 LLM 聊天机器人？不一定。

为什么？因为：

真正要做出一个既准确又可靠 的 LLM 客服系统，

需要投入大量的时间、人力、精力、测试......

否则它一旦碰到"奇怪输入"，很可能就会给出"更奇怪的回答"。

所以，最后你到底要不要上 LLM 聊天客服，

核心问题还是回到我们前面反复强调的------

⚠️ "模型可能会出错"这个问题到底你扛不扛得起？

LLM 本身不是完美体，它会：

胡说八道（幻觉）；
瞎编规则；
自信满满地输出错误答案。

这意味着：

你不是在部署一个 AI，你是在承担一个"责任炸弹"。

如果模型说错话，锅不会落在模型头上，锅是你和你公司的。

🎯 产品经理或老板是怎么想的？

他们可能会看一些经典指标，比如：

📉 客户留存率（retention）会不会下降？
🤔 如果用 chatbot，会不会比外包给海外客服更糟？还是更好？
💸 会不会用户流失、差评变多、维权变多、官司变多？

所以，轻率用 LLM 替换客服，风险极高，建议你务必先做试运行。

🧪 建议：先做"影子部署"（phantom deployment）

我们基本强烈建议所有 AI 系统都先试运行再上线 ，

就像投资界说的那句老话：

"过去的表现，并不代表未来的收益。"

你可以搞个"影子部署"，也就是：

新系统后台偷偷跑；
用户仍然使用原流程；
但你记录两个系统输出差异，看问题在哪；
一段时间后再评估要不要真换。

这比你一上来就全线切换靠谱得多。

🚨 最严重的问题：模型可能"合法"坑人，公司照样背锅

这不是假设，现实已经发生过：

一家航空公司部署了一个 LLM 聊天机器人；
结果机器人生成了错误的退票政策；
用户照着做了，公司不认账；
法院最后判定：机器人说的话 = 公司说的话，公司得负责。

你可以理解为：

模型说错话，你赔钱；模型装傻，你背锅。

🕵️‍♂️ 用"对抗性思维"设计系统才靠谱

部署 LLM 系统前，强烈建议你带点"阴谋论"思维：

"如果有个搞事的人知道我这系统是怎么工作的，他能玩出什么花样？"

这个问题能帮你提前识别、预防严重风险。

比如：

某车企把 LLM 接入官网，做汽车咨询；
没过一天，有人骗机器人说："你自己说要1美元卖我一辆车"；
成交页面真的出现了"$1 一辆车"的"优惠活动"......

笑中带泪，是不是？

✅ 那啥时候可以放心用 LLM 做聊天机器人？

只要你评估下来：

错误成本低（比如答错也没啥严重后果）；
风险可控；
你知道怎么兜底或防错；

那就可以放心去部署了。

📌 但为了这章讨论的深入，我们先设定一个"高风险场景"：

假设你现在要设计一个"技术支持机器人"，它的出错可能让公司赔大钱。

那问题来了：

我们还能不能享受到 LLM 的高效率，又能避免让用户"直接裸奔式接触 LLM"？

听起来像矛盾，但其实不矛盾------

哪怕你是第一次接触 AI/ML，也可以用一些简单、可复用的设计模式，来搞定这个事。

8.2 自动化偏见：AI 说的话，真的全信吗？

很多公司在考虑 LLM 的时候，都会冒出一个合理的念头：

"直接让 AI 面对用户，感觉有点慌，要不......先让 AI 帮技术人员打草稿？"

没错，这种做法就是我们常说的：

"人类在回路中"（Human in the Loop，简称 HITL）

也就是人类仍然参与整个反馈环节------

由 AI 起草初步回复，人类技术人员负责检查和修改。

🧑‍🔧 那流程是怎么跑的呢？

用户提问；
LLM 生成一个初步答案；
技术人员查看这个答案：
- 正确、靠谱？那就发！
- 离谱、胡说八道？那就手动修；
用户收到最终回复，皆大欢喜。

这样的流程有个好处是：

AI 帮你省时间，人类负责兜底。

你仍然需要请技术人员，但他们效率大大提高，

不需要从零起稿，只要"改、润、发"。

🤓 聪明的读者现在肯定想到了我们第5章说过的 RAG 技术，对吧？

如果你还记得 Retrieval-Augmented Generation（RAG，检索增强生成）------

你可能已经灵机一动：

"我懂了！我们可以把所有培训资料、内部手册、常见问题答案......

全部丢进一个数据库里！"

然后，配合 RAG：

用户提问；
LLM 先去知识库检索"靠谱答案片段"；
再根据这些内容生成更可靠、更有上下文感的回答。

这流程就像图 8.2 那样，

每次用户发问，都不是 LLM 单打独斗，而是带着"知识外挂"上场！

这个方案看起来是不是比"裸 LLM 聊天机器人"高级多了？

确实！但它也不是没有坑，自动化偏见（automation bias） 正是在这种"人机协同"场景里非常容易发生的问题。

RAG 很香，但别忘了人类的老毛病------自动化偏见

我们刚夸完 RAG 棒，现在就得泼点冷水了：

RAG 能降低风险不假，

但它也很容易让人类掉进一个坑，叫：

自动化偏见（automation bias）

这是什么？

简单说，人类天生有个毛病：

只要系统看起来"靠谱"，我们就容易偷懒直接信。

比如：

AI 推荐了一个答案，虽然你看着有点怪，但......它平时都挺准的，信了吧。
AI 给出三个选项，第一个自动选中的，你懒得想就点了。

久而久之，你就不再动脑子，直接接受默认答案。

🙈 问题来了：

如果 AI 大多数时候答得还行，那你更容易"习惯性信任"，导致关键时刻漏掉错误。
如果 AI 经常答错，那你会保持警觉，但它又没帮你节省时间，反而拖慢节奏------那你不如自己来！

这就是自动化偏见的两难悖论：

AI 太准，人类容易失误；AI 太差，又没价值。

✅ 解决办法：别急着上线，先偷偷跑！

这时候就得祭出我们前面提到过的秘密武器：

试运行（trial）或者"影子部署"（phantom deployment）

就是先让系统**"假装上线"**------

背地里跑 AI 流程；
但不把它的输出直接用到生产上；
同时记录真实支持人员给出的答案；
然后对比 AI 和人类的差距、问题、表现......

经过一段时间观察，你就能判断：

到底是 AI 表现不行？

还是我们的人类"信得太快"？

🛠️ 如果真是"信得太快"，那怎么办？

还好，这种情况不用推翻"人类在回路"设计，只需两个应对策略：

1）加一条"逃出 AI 回圈"的人类通道

总有一天，AI 会遇到它搞不定的场景。

这时候你要给用户一条出路：

聊天超过 X 条消息 → 弹出"联系客服"的选项；
多次无效回复 → 自动升级人工服务；
用户主动点击"我要真人"按钮 → 马上转接技术小哥。

别让用户陷在"AI套娃式尬聊"里出不来。

2）从流程上"兜个底"，避免 AI 胡说八道出事

这个就灵活了，可以是：

关键场景强制人工复核；
重要决策必须人类确认；
或者设定阈值，超出风险就暂停自动处理。

📝 小贴士：

如果你有资源去做 RLHF 或 SFT 微调（参考第 5 章），

还可以在训练数据里加上这样的例子：

"对不起，这个问题好像超出我的能力范围，我来帮你转接人工客服。"

让 AI 学会认怂、主动叫人，而不是瞎编硬上！

8.2.1 换条道走：改流程也能降风险

说"改流程"听起来像是动大手术，其实真没那么复杂。

如果你们公司有个老板拿了 MBA（工商管理硕士），那他大概率就是干这个的------据说他们的培训就包括「优化流程」这种事儿。（顺带一提，本书作者之一也有 MBA 学历，所以我们可以调侃一下 😎）

比如你可以这样设计对话流程：

"本次对话结果需经人工最终确认。"

一句人话就能降低很多「自动化偏见」的风险。

因为------

这不需要技术人员全程盯着 AI。
而是等对话结束后，一次性审一遍，效率高多了。
对于那些想套路系统的"坏心眼用户"来说，也会因为知道"反正要人工过一遍"而懒得玩花样了。

💡 怎么防止恶意利用 LLM？

除了流程上搞人审，你还可以让用户"押点担保"来换诚信：

比如，先冻结用户信用卡上的一小笔钱，等服务顺利完成再解冻。
或者，限制自动化流程的处理范围，关键环节强制人工介入。
还可以搞点小花样：比如系统随机判断某些请求直接转给真人，这样用户就永远不知道啥时候能"薅 AI 的羊毛"。

当然啦，这些招数到底用不用、怎么用，得看：

你们业务的场景；
风险多大；
用户能不能接受；
你们老板脸皮多厚（比如敢不敢收用户"押金" 😂）。

你甚至可以反过来"激励"用户：

"如果 AI 成功帮你解决问题，我们给你优惠 $2 哦～"

------因为这笔钱还没你一个人工客服接个电话贵呢！

总之，思路给你了，发挥得好不好就靠你自己了。

8.2.2 如果太危险，LLM 就别放前台了

现在你已经：

做完了试运行；
风险评估也搞定了；
还摸清了用户有没有"搞事"倾向......

结论是：这场景太危险，LLM 不能自己上。

那它就没用武之地了吗？当然不是！

🤖 一个反直觉的妙招：让 AI 来监督人类！

听起来是不是有点离谱？

明明 AI 靠不住，居然让它来检查人？

先别急，咱们来想象一个场景：

你有个 LLM 系统，它不是来跟客户聊天的，

它的工作是------检查技术人员准备发出去的回复。

假设你设计了这样一条流程（参考图 8.3）：

技术小哥准备好一条答复；
LLM 系统悄悄看一眼："嗯？这说法我没见过......"
LLM 跟小哥意见不一致；
系统弹出提示：

"请再确认一下你的回复，这个问题可能存在歧义。"

是不是有点像 Office Word 那种自动语法检查？

你写错字了，它不会帮你改，但会说：

"哥们，你这句可能有问题，自己看着办吧！"

这种用法其实很适合那些对错代价很高的场景：

既不让 AI 直接接触客户；
又用它"背后监工"，起到提醒和制衡的作用。

这样一来，人类是主力，AI 是辅助，也就比较安全可靠啦！

这个"二次确认"可以非常简单粗暴，比如让 LLM 给技术人员来一句：

"嘿，这个方案看起来怪怪的哦～再确认一下再发吧？"

你也可以让 LLM 顺带给出一个它自己的备选答案，方便技术人员参考。

或者你也可以压根不让 LLM插嘴，只是悄悄地通知一个经验更丰富的同事来帮忙兜底。

不管你怎么设计，核心目的就是一个：

提醒：这个回复可能有风险，别出岔子了。

这些风险本来就有，但现在我们有机会"提前踩刹车"。

🤷‍♂️ 人本来也会错，AI 只是帮你"防再错"

注意，我们现在讨论的是**"人类客服可能会搞错"**的情况。

既然人类单干也可能误判，那就算 AI 和人类一起错 了......

你这流程本来也要翻车，躲不过的。

只能说，这就是人生。

当然了，你也可能会遇到以下烦恼：

技术员太听话了，被 AI 一提醒就开始怀疑人生，每次都要改三遍；
或者，AI 太敏感了，老是"哔哔哔"地提醒，搞得大家烦得要命，最后谁都不理它......

所以这种"AI 监督人类"的方案，必须试运行。

只有在真实场景下跑一段时间，你才能知道：

提醒频率合不合适；
技术员是信 AI 还是烦 AI；
整个流程有没有因为 AI 加入而变得更高效。

机器学习领域最经典的一句话也送给你：

"别想当然，一定要测试！"

✅ 虽然没变快，但变聪明了！

你可能会说："让人来回复，AI 只是提醒，那效率不是还是一样慢？"

其实也不一定！

这种"人类主打 + AI 辅助"模式，还是能带来不少好处的：

对话更短 了：
错误更少，问题更快解决，客户少废话。
找出哪些客服还需培训 ：
哪些人老被 AI 提醒？说明得多练练。
少找上级，少惹麻烦 ：
避免小事升级成大事，也省下了经理出面的工时成本。

一句话总结：

AI 不一定要上台表演，它在幕后当个"提词器"也是英雄。

8.3 不止靠大模型：降低风险还能这么玩

之前我们讨论的，全都是"以毒攻毒"的思路：

既然 LLM（大语言模型）有风险，那我们就用 LLM 来帮忙对抗风险！

虽然我们改了 LLM 的用法，但主角始终还是它自己。

但现在，我们来点不一样的：
换个角度思考，除了 LLM，我们还有什么武器可以用？

比如说，在生成式 AI 的世界里，还有一些"周边技术"也很有用，比如：

文字转语音（TTS）
语音转文字（STT）

这些技术在某些场景下能显著提升用户体验，特别是对以下用户特别友好：

关节炎患者：打字困难，能说就不敲
视力不好的人：看不清界面，直接说话最省事

别小看这些"配角"，有时候比 LLM 更贴心！

🤔 客服到底适不适合 LLM？

想想我们一直讨论的客服场景------你会发现：
LLM 最擅长的，其实是重复性的、套路清晰的场景。

也就是说，问题经常会重复出现，解决方案也比较公式化------这种就非常适合 LLM：

"你先试试重启设备哈～"

"清缓存了吗？"

"点一下'设置'，再点'恢复出厂'......"

一旦 LLM 能正确理解用户的问题，

又正好有一个已经写好的标准解法，

它就能"照方抓药"，把流程走下来。

听起来像一个"无人监管的 AI 聊天机器人"，但这里有个关键区别：

LLM 只是个"辅助执行者"，真正的内容、步骤、答案，是人类客服之前写好的。

就像你让实习生照着 SOP 回答用户问题一样------

SOP 是老员工写的，实习生只是背台词。

图 8.3 就讲的是这种"LLM当配角"的玩法。

8.3.1 用向量嵌入 + 传统工具，组合拳打起来！

我们在第 3 章讲过：

LLM 会把"词"转成"向量嵌入（embedding）"，也就是一串带语义的数字。

每个 token（词）都被变成了数字组成的向量，这些向量就能被机器理解。

虽然这些嵌入本来是为 transformer 服务的，

但它们本身就是超有价值的数据！

💡 嵌入的魔法：文字 → 数字 → 机器能理解的知识

向量嵌入的好处在于：

它把复杂的人类语言，变成了机器学习可以理解的形式；
各种经典机器学习模型（比如分类器、聚类算法、KNN等）都能吃这个格式；
所以你等于用 LLM 把"自然语言 → 特征向量"的预处理一步干了！

这在实际工程中好用到什么程度？

工程师甚至会直接说：

"我们做了一批 embedding"

这句话的意思就是：

"我们用 LLM 把人类说的话，转成了一堆有含义的数字。"

这些数字可以可视化，比如图 8.4：
意思相近的句子，向量会落在图上差不多的位置。

比如：

"我手机没电了" 和 "手机自动关机了"
"我要退款" 和 "我不满意产品"

这些表达虽然字面不同，但 LLM 生成的嵌入向量会让它们靠得很近。

🧠 总结一句话：

用 LLM 做嵌入，把文字转成"机器能懂的数学语言"，

然后让传统机器学习算法接着处理，组合起来打出漂亮的降风险组合拳！

让我们快速了解一下4种经典的机器学习算法类型 ，这些算法可以在你拿到 LLM 的向量嵌入（embedding）之后立即上手使用。

这些方法在大多数实际应用中都很有用，适合和 LLM 配合使用。我们还会顺带列出一些靠谱又好用的热门算法。

最重要的一点是：

👉 别再局限在"只能用 LLM 做所有事"的思维框架里了！

一旦你跳出这个框框，会发现手里能用的工具其实多得很！

下面就是你的"工具宝藏图"，标出4种好用的算法方向：

🧩 1. 聚类算法（Clustering）：谁跟谁更像？

用途：把相似的文本自动分成一堆一堆，比如市场用户分群、文章主题聚类等。

核心理念 ：

让"说话风格像的人"自动站成一队，和别的风格区别开。

常见算法：

K-means：最经典的聚类方法，简单粗暴但效果不错。
HDBSCAN：更智能，能处理"不同密度的类"，自动判断要分几类。

🚨 2. 异常检测（Outlier Detection）：谁是那个"与众不同"的家伙？

用途：找出那些"跟谁都不像"的文本，比如：

特立独行的客户反馈
稀奇古怪的报错信息
全新没见过的问题场景

常见算法：

Isolation Forest：把数据"随机切一切"，孤立程度高的就是异常。
LoF（Local Outlier Factor）：找"离群值"的经典方法，看谁和邻居不合群。

📊 3. 可视化探索（Information Visualization）：让数据看得见！

用途：把高维的向量嵌入压成 2D 或 3D，方便你用眼睛看，比如：

想看看客户留言都分成哪几类？
哪些评论比较"离经叛道"？

常见算法：

UMAP：速度快、效果好，视觉聚类感很强。
PCA（主成分分析）：经典降维方法，入门必备。

💡 小贴士：配合交互式图表工具，探索数据更有趣！

🎯 4. 分类 & 回归（Classification & Regression）：预测值 or 分个类！

用途：

分类：预测一个标签（比如用户满意度是高、中、低）
回归：预测一个具体数值（比如预估评分是 4.2 分）

前提：你需要有一批带"已知答案"的训练样本。

方法建议：

输入用 LLM 的向量嵌入（embedding）
算法用朴素的经典款就行：
- Logistic Regression：做分类
- Linear Regression：做回归

别小看这些老方法，搭配好"嵌入"后，非常实用！

📌 知识补充：嵌入不是 LLM 独创的！

早在 2013 年，Word2Vec 就已经能把"单词"转成向量了。

那时候大家就发现：嵌入，真香！

现在 LLM 生成的嵌入更强大、更泛用，

但计算量也大得多。

如果你对性能要求高、数据量大、钱不多，

那么用 Word2Vec 这种"轻量级老兵"也未尝不可。

而且------嵌入不仅限于文字！

图片、视频、音频 都可以做嵌入分析，

从此你可以在多模态领域尽情玩耍，

把语言的魔法延伸到整个世界！

8.3.2 用「嵌入」设计更聪明的解决方案

现在我们已经介绍了「嵌入」这个概念（embeddings），也知道它可以为我们带来更多好用的工具，那接下来我们就要动手打造一个升级版的技术支持系统！

这个系统不只是「聊聊天的 Chatbot」，而是一个更高效、更懂人的语音客服平台。

我们依然会用 LLM 来生成文本和提取嵌入信息，同时搭配其他机器学习技术，让整个流程更贴近用户习惯，减少等待时间，提高效率。

☎️ 第一步：让 LLM 听得懂、说得出

为了支持"打电话说话"的方式，我们需要两个老熟人：

语音转文本（speech-to-text） ：用户说的话→变成文字，输入给 LLM。
文本转语音（text-to-speech） ：LLM 回答的文字→变成语音，说给用户听。

你可能会想："哎呀我以前用过一些语音机器人，超级烂！"

你说得没错，所以我们必须加一个"紧急逃生通道"：

比如：系统听不懂用户的连续 3 次发言，或者对话时间超了，就自动跳转给真人客服。

说白了，别让用户被 AI 折磨疯了还出不去。

⏳ 第二步：排队也要排得有意义！

如果客服这边来电爆满，用户已经在排队怎么办？

别急，我们可以让 LLM 来帮忙：

先请用户用语音说一下遇到的问题；
把语音变成文字后，调用 LLM 的「嵌入 API」；
把用户的问题变成"数学向量"------也就是语义上的位置；
然后我们用聚类算法，把问题相似的用户分在一组；
同一组的用户，统一分配给最合适的分析师团队。

这样一来：

✅ 分析师不需要每个问题都从头分析一遍 ，可以批量处理类似问题；

✅ 用户也排得更快，因为问题被精准路由到能最快解决它的人那里。

🧠 第三步：用"人类的智慧"去喂养 AI 的效率

如果客服分析师发现某个问题很常见，而且已经有现成的、靠谱的解决方案，那还需要 LLM 每次都"现编"一套答案吗？

当然不用。

我们可以这样设计：

让分析师把这个成熟方案，直接推给正在排队的用户；
用 LLM 把这段文字变成自然语言，再通过语音读出来；
提前告诉用户："我们系统已经准备了一个自动解决方案，看看能不能帮您搞定，在等人工前可以试试这个。"

这招有点像是：

"您前面排着队呢，不过我们刚好这边有现成的解决方法，要不要先试试看？"

省时、省力、还能提前化解大部分问题。

这个流程可以参考图 8.5（书中的配图）。

总结一下这个嵌入驱动的智能客服方案：

🤖 LLM 用来理解语言、提取语义
🧠 人类客服用来兜底和修正，传递经验
🛠️ 聚类算法让用户排队更有秩序
🗣️ 语音识别和合成让用户"能听能说"

这才是真正的"人机协同"！不是让 AI 一股脑接管一切，而是让它聪明地当好工具，让用户和客服都过得舒服点。

其实，我们完全可以把前面提到的几种方案组合起来使用。

比如图 8.5 右上角展示的「分析师与客户交互」那部分，既可以是两个人通过语音对话解决问题，也可以采用图 8.3 中我们设计的"LLM 监督人类"的验证机制。

只要你手头的问题合适，现在我们有了「嵌入」这个强力工具之后，玩法就多了去了。

举个例子：

如果你记录了每位客户在通话中"有多生气"的信息（比如一个 1 到 10 的评分），你就可以基于客户语义嵌入训练一个回归模型 ，用来预测客户的情绪值。

然后呢，你可以把特别生气的客户平均分给各位客服，避免某一个人全被"火山爆发型用户"淹没；或者你也可以把这类高风险用户规避到经验更丰富的客服手上，避免让新手"出师未捷先爆炸"。

当然啦，我们并不是说所有客服系统都一定要用这些做法才好，而是想告诉你：

即使大语言模型有缺陷（比如会胡说八道、不能动态更新知识），我们还是有方法可以绕过这些问题，继续用它们创造价值。

总的来说，有两种核心策略：

✅ 策略 1：把 LLM 当"第二双眼睛"

用 LLM 来审阅人的判断，帮你再确认一次。

如果 LLM 和人类客服达成一致，那就说明没问题；

如果 LLM 提出异议，就再检查一遍，这个检查动作可以是简单提醒，也可以是更深入的复核，具体看你场景的复杂度。

✅ 策略 2：用嵌入+传统机器学习解决问题

聚类：把类似的问题归在一起，提升处理效率。
异常检测：找出特别"奇怪"的问题，提前预警。
回归或分类：预测客户的满意度、情绪值、转化率等。

这些传统的机器学习方法在很多真实应用场景里都超级实用，一点也不"过时"。

重点是：我们不会完全依赖 LLM 来自动生成答案 ，因为那样出错的风险太大。

但我们依然可以通过合理设计，让 LLM 发挥它的长处：

✂️ 减少人工工作量
🛠️ 降低出错率
⚡ 缩短客户等待时间

只要设计得当，LLM 可以是你团队中既靠谱又高效的好帮手。

8.4 技术呈现方式的重要性

看到我们前面设计的那个结合大语言模型的技术支持系统，你可能会满脸问号："哈？不是说 LLM 很强吗？只要让它解释一下自己的推理过程，用户或客服人员就能判断它说得对不对，这样不就能避免胡说八道了吗？"

别急，这种"解释一下就能自证清白"的观点，在圈内圈外都挺常见：

那些狂热信徒会说："只要 LLM 解释清楚了逻辑，大家自然就能信它。"
而那些高度谨慎甚至怀疑一切的人则会说："我不懂这玩意儿，搞个'可解释 AI'给我看看。"

两派观点虽然出发点不同，但殊途同归------他们都相信："只要能解释得明白，我们就能相信它。"

听起来挺合理？但问题来了：

解释 ≠ 可靠 。
解释 ≠ 不出错 。
解释 ≠ 信任的来源。

事实上，越来越多的研究发现：

当一个 AI 系统提供了解释，人们反而更容易盲目相信它。哪怕这个解释是错的，哪怕用户原本就能独立完成这个任务，哪怕他们知道 AI 可能出错。

是的，你没看错：解释有时候会帮倒忙。

❓那还要"可解释 AI"干嘛？

别误会，我们不是说"可解释 AI 一无是处"。

但我们确实想告诉你：很多人追求解释，其实是因为------他们心里没底 、有点慌。

那它到底啥时候有用呢？有两个关键点：

解释是给谁看的？ （Explainable to whom）
解释能不能帮助解决实际问题？

来个例子：

假设你是研究人员，要搞懂某个物理或化学过程，想通过 AI 获得"科学理解"。

这时候，你不是要它直接吐出答案，而是希望它生成一个方程式 。

有了这个方程式，科学家就能研究它是否符合逻辑、是否可以推广，这才是你要的"解释"。

这里的重点是：

方程式是不是解释 AI 是怎么推出来的？不是。
这个解释有用吗？有！因为它直接服务于科学探索。
是谁能看懂这解释？只有专家用户。

也就是说： "可解释"要给对人、解对事，才叫有用。

像我们平时做数据科学项目时，用可解释性工具来诊断模型出错原因，就很实用------尽管这些工具可能对非技术人员一头雾水。

那该靠什么建立 AI 的信任呢？

很遗憾，目前还没有"放之四海而皆准"的通用答案。

我们只能给出一个很土但管用的建议：

别太迷信解释，重在：

透明度（transparency）

用户可控（user evaluation）

场景具体（context-specific）

简单说：

别指望一句"我解释了"就让大家信你；
要让用户有机会测试、有反馈、有兜底；
不同场景该怎么展示 AI 的能力和边界，得具体问题具体分析。

8.4.1 怎么做到"透明"？

所谓"透明"，其实不一定非得搞成 PPT 或官方白皮书，简单点说，就是告诉用户：

你这个 AI 是用哪个模型做的？
有没有魔改？改了多少？方向在哪？
它是不是假装成某个大人物？比如"爱因斯坦 AI 家教"？
你说它是"Dr. GPT"给我诊断痣，那它真的是医生吗？有没有哪位真医生背书？

一句话：别装神弄鬼。用户、审计员、或者吃瓜群众------只要是个好奇宝宝，都应该能找到问题的答案。

你也不用强制在每次聊天前弹出三页免责声明，只要用户能主动查到 这些信息就够了。这既能满足较真的专业用户，也能帮普通人设定合理预期：这玩意儿就是 AI，不是会念咒语的老中医，别指望它啥都懂。

最重要的，是在一开始就明确告诉用户：这是机器人在跟你对话，别假装后面坐的是个真人客服经理。否则用户期望值一上去，失望值也跟着爆表。

8.4.2 把用户的"利"也算进去

"透明"还有一个现实层面，就是利益绑定。别慌，这不是资本家的阴谋，是实实在在的产品设计建议。

你还记得第 4 章说的吧？AI 就像个贪婪的小怪兽，它不是按你心里想的目标去做事，而是按你嘴上说的指标去冲分。

所以，如果你训练了一个 LLM 系统，但激励机制错位，比如只奖励"回复得快"，那结果很可能是它疯狂输出无用废话，用户体验一地鸡毛。

反之，如果你愿意和用户一起绑定，比如说：

"嘿，来试试这个 LLM，如果它成功帮你解决了问题，立减两块钱！"

那用户就会觉得：你是真的在为我着想，而不是想拿 AI 把人都炒了。

坦诚地告诉用户："我们想用 AI 提升体验，而不是让你自助投胎。" 这样既树立了企业的透明形象，也降低了用户的心理抵触感。

8.4.3 建立"反馈闭环"

别忘了，世界是变化的。

今天这个 AI 还能对答如流，明天说不定就被用户问懵了。所以你得定期审查和更新这个系统，而不是部署完就甩手不管。

而且，还有个"负反馈循环"的坑你得防：

比如你原本的 AI 系统就对老年用户 或者身体不便者不太友好，一直没有语音输入、语音播报。

结果，这群人每次都得费劲点小按钮、看小字体，体验极差，干脆不再用了------

他们一走，带着全家人一起换号了，直接把"全家桶套餐"也端走了。

是不是想都没想过？

所以：

提前做假设、画风险地图、开展试运行，再根据反馈迭代优化------这就是"反馈闭环"设计思维。

当然，不可能一次性想清楚所有坑，但你越练习，就越能未雨绸缪，少踩坑、多成长。

总结：大模型别乱放，得看"风险"来下菜！

大模型肯定会出错，别抱幻想。第一步要做的是：搞清楚这些错一旦发生，会不会出大事。如果风险低、代价小，那用个正常的聊天机器人风格的 LLM 也没啥问题，放手去整。
想控风险？办法多得是！ 你可以换个方式让用户和系统互动，或者干脆把自动化搬到业务流程的其他环节，别老让 LLM 直接和用户硬杠。
把人拉进来监督 LLM，听起来很保险？ 其实这会引发"自动化偏见"：人会太信机器，说啥都点头，哪怕它胡说八道。这种事就算用了 RAG，也不一定能完全避免，得小心。
大模型的 embedding 可太有用了！ 它能把文字变成一堆有意义的数字（向量），类似的句子数值也差不多。这样一来，你就能玩起传统机器学习的活儿了，比如聚类、离群点检测啥的，不止靠生成模型那一套。
"AI 自己解释自己"这事，看起来挺正义，实际上......容易让人更信它瞎说。 所以别迷信"可解释性"，要带着具体目标和使用场景来做解释，不然就等于安慰剂，白忙活。
设计系统时，要让"用户的利益"和"模型的目标"对齐。 这既能避免模型一根筋地冲错方向，也能更好地跟用户说明"为啥用大模型"，别让他们以为你在削成本、炒人。