AI心理学导师测评，智能体商单案例

大家好，我是羊仔，专注AI编程、智能体、AI工具。

在这个AI工具层出不穷的时代，我们每天都被各种新模型的消息轰炸。

今天DeepSeek霸榜，明天豆包升级，后天千问又出了新功能，但说实话，工具再强，如果不能落地解决实际问题，那也只是玩具。

羊仔一直坚持一个观点：AI不是用来炫技的，是用来帮我们解决问题的。

最近，羊仔刚交付了一个非常有意思的Coze（扣子）工作流商单，这个案例是让AI扮演患者，AI扮演医生，最后AI再来当裁判的AI左右互搏。

它完美地把DeepSeek的推理能力、豆包的中文理解能力、通义千问的长文本能力结合在了一起。

如果你对AI自动化、智能体开发或者心理咨询场景感兴趣，这篇文章可能会给你一些启发。

真实的业务痛点

这次的需求非常直接，也非常硬核。

客户是一家专业的心理咨询培训机构。他们面临一个巨大的痛点：培训新手咨询师的成本太高了。

他们需要设计大量的心理咨询场景，模拟患者去和咨询师对话，或者去测试他们新开发的心理陪伴产品的效果。但有几个大问题：

成本高：要花大量的人力成本、时间成本设计剧本、整理文档、对比评估。
不可控：今天演抑郁症，演着演着可能就出戏了，或者情绪不到位。
效率低：一个人一天能聊几个案列？撑死也就十几个。

客户抛出了一个核心诉求：

"能不能让AI去扮演各种心理问题的患者？然后让我们的AI咨询师（分别基于豆包和千问模型）去跟它聊？最后，最好能自动生成一份对比报告，告诉我哪个模型聊得更好。"

简单来说，客户想要一个全自动化的心理咨询图灵测试场。

这就不是简单的你问我答了，这是一个复杂的**多Agent协作系统，**羊仔接下这个单子后，在Coze里折腾了一整天，终于把这个闭环跑通了。

第一步：DeepSeek-R1，生成剧本

在这个工作流的一开始，接入今年大火的 DeepSeek-R1 模型。

经过实测，在构建复杂的心理状态和逻辑推理上，R1的表现真的很不错。

我们需要它做的，是根据用户输入的一句简单开场白（比如"我觉得活着没意思"），瞬间构建出一个有血有肉的虚拟患者。

羊仔在Prompt（提示词）里给它设定了一个身份：心理咨询对话生成专家。

这是DeepSeek节点的提示词配置，可以看到我们要求它生成随机性格和连续的9句对话。

在提示词里，特别强调了以下几点约束：

人格一致性：必须严格保持所设定人格的一致性，不能聊着聊着性格变了。
随机性：基于第一句话，随机生成或确定一个具体的人格设定（比如回避型依恋、焦虑型人格等）。
格式化输出：必须生成9句符合该人格特征的连续患者对话。

这一步是整个工作流的基石，DeepSeek在这里不负责治愈，只负责"生病"，它负责生成情感基调、认知模式的剧本。

第二步：循环流水线，豆包与千问对决

有了患者的剧本（那9句生成的对话），接下来就要看医生的表现了。

这里涉及到了Coze工作流中一个稍微高阶一点的玩法------Loop（循环）节点。

因为DeepSeek生成的是一个包含多句话的列表（List），我们不能把这一坨东西直接扔给模型。我们需要把这9句话，像流水线一样，一句一句地拿出来，分别喂给两个不同的模型进行回复。

豆包模型和通义千问插件并行，它们同时处理同一个输入。

在循环节点内部，两个大模型选手同台竞技：

选手A：豆包·1.6·深度思考版

选手B：通义千问（通过插件调用）

它们都拿到了同样的系统设定（System Prompt）："你是一个温暖、细致、有边界感的情绪陪伴者小雅......"

这里有个细节，为了让评测更公平且具有分析价值，我不仅要求它们输出回答（Answer），还要求它们输出思考过程（Reasoning Content）。

对于客户来说，AI"为什么这么回"往往比"回了什么"更有价值，这能帮助他们分析模型是否真的理解了患者的潜台词，还是只是在套模板。

第三步：生成结果文档

客户是做业务的，他们不能盯着Coze的后台日志看，他们需要的是可以拿去开会、拿去存档的文件。

所以，在循环结束后，羊仔没有直接结束工作流，而是接入了大模型进行整理，将两个"医生"和"患者"的对话整理成markdown格式，再接入Markdown转Word的插件，直接提供文档下载链接给用户。

这一步其实是为了提升交付的体验。试想一下，如果我给客户一堆markdown数据，他看起来会特别费劲，但如果我给他三个整理好的Word文档，体验就完全不同了。

羊仔设计了三个文档输出：

《十轮对话.docx》：包含DeepSeek生成的患者完整人设、特征描述和对话剧本，这是考题。
《豆包问答思考.docx》：豆包这位医生的所有诊疗记录。
《通义千问问答思考.docx》：千问这位医生的所有诊疗记录。

这样，客户只需要点一下运行，三份Word文档就自动生成好了，这才是商业交付该有的样子。

第四步：AI裁判入场

这是整个工作流最精髓的地方，也是客户最买单的功能。

以前，客户需要人工去对比谁回答的更专业，这太累了，而且主观性太强。

现在，直接把这个任务交回给了AI，这里引入了DeepSeek大模型节点，担任AI裁判。

我写了一段非常严苛的评分Prompt（提示词），按照客户需求，设定了11个维度的评分标准。

模型会读取前面对话的所有记录，逐项打分，并给出胜出方。

最后，为了让对比一目了然，羊仔用了生成HTML的插件，先把markdown转换成HTML，再创建HTML文件，让用户能直接下载到，非常方便。

对比结果是一个网页表格，豆包评分，千问评分，分析点评，一目了然。

（⬆️最终生成的HTML对比报告截图）

幕后故事：自力更生开发通义千问插件

在着手搭建工作流时，羊仔还遇到一个小插曲。

原本Coze平台是内置了通义千问大模型的，可以直接调用，但在项目进行到一半时，Coze的通义千问大模型突然下线了。

搜索了一圈，没找到合适的插件，要么不能返回思考过程，要么不能指定大模型，比如想指定用Qwen-plus，并开启思考模式。

这可把羊仔急坏了，总不能让客户的方案瘸腿吧？

遇到问题，解决问题，这才是探索的乐趣所在！羊仔迅速动手，利用Coze的插件开发能力，自己封装了一个通义千问的调用插件。

这是羊仔为解决Coze平台通义千问下线问题，自行开发的插件。它允许我们通过API Key灵活调用通义千问的各个模型，并支持思考模式，确保了工作流的完整性。

这个插件的功能很简单，但非常实用：

插件名称 ：通义千问
插件工具： qwen_txt
功能描述：通义千问，文本输入，可以切换模型，支持思考模式。
核心参数：
- api_key (string, 必填)：你的通义千问API Key。
- system_prompt (string, 必填)：系统提示词，用来设定AI咨询师的角色。
- user_prompt (string, 必填)：用户提示词，也就是"患者"的每一句话。
- enable_thinking (boolean, 默认false)：是否开启思考模式，这对于我们后续的评测非常关键。
- model (string, 默认qwen3-max)：可以选择不同的模型版本。

目前已经上架coze插件商店，大家有需要可以直接使用：

https://www.coze.cn/store/plugin/7565170663988903987

有了这个自研插件，工作流的完整性得到了保障，豆包和千问的巅峰对决也能如期完成了。

这让羊仔更加深刻地体会到，AI工具箱里的每一个工具，都可能在关键时刻发挥意想不到的作用，而自主开发能力，更是让我们的AI应用之路走得更远。

羊仔的复盘与思考

这个工作流交付后，客户非常满意。

以前他们需要一周才能完成的模型话术测试，现在只需要输入一个句子，喝杯咖啡的功夫，一份包含剧本、对话记录、评测报告的完整资料就出来了。

做完这个单子，羊仔也有很多感触，想分享给正在做AI的你：

1. 复杂的业务往往需要多模型协作。

不要迷信某一个模型是万能的。

在这个案例里，DeepSeek擅长推理和构造（做编剧），豆包擅长中文语境下的共情（做演员），而其他模型可能适合做逻辑分析（做裁判）。

Coze最大的价值，就是把这些不同特长的模型串起来。

2. 交付形式决定了产品的价值感。

如果只给客户看对话框，这个单子可能只值几百块，但我加上了Word文档生成和HTML报表生成，让结果变得"可携带、可汇报、可存档"，这个单子的价值瞬间就上去了。

3. 自动化是把双刃剑，但用好了是神器。

搭建这个工作流的过程中，最难的是处理数据格式。

怎么把List转成String，怎么处理Markdown的换行，怎么防止JSON报错。

这些脏活累活，才是AI应用落地的深水区，前提是自己要知道需要什么样的数据，这就又回到了要确认好用户需求。

4. 自力更生的价值。

当平台内置功能无法满足需求时，主动开发插件来填补空白，这不仅锻炼了自己的动手能力，也为客户提供了更稳定、更定制化的解决方案。

Coze不仅仅是一个工具，它让我们从重复的劳动中解放出来，去思考更顶层的逻辑和创意。

共勉！

欢迎关注羊仔，一起探索AI，成为超级个体！

如果你喜欢这篇文章，不妨点赞，在看，转发。

你的每一次互动，对羊仔来说都是莫大的鼓励。