大家好,我是羊仔,专注AI编程、智能体、AI工具。
在这个AI工具层出不穷的时代,我们每天都被各种新模型的消息轰炸。
今天DeepSeek霸榜,明天豆包升级,后天千问又出了新功能,但说实话,工具再强,如果不能落地解决实际问题,那也只是玩具。
羊仔一直坚持一个观点:AI不是用来炫技的,是用来帮我们解决问题的。
最近,羊仔刚交付了一个非常有意思的Coze(扣子)工作流商单,这个案例是让AI扮演患者,AI扮演医生,最后AI再来当裁判的AI左右互搏。

它完美地把DeepSeek的推理能力、豆包的中文理解能力、通义千问的长文本能力结合在了一起。
如果你对AI自动化、智能体开发或者心理咨询场景感兴趣,这篇文章可能会给你一些启发。
真实的业务痛点
这次的需求非常直接,也非常硬核。
客户是一家专业的心理咨询培训机构。他们面临一个巨大的痛点:培训新手咨询师的成本太高了。
他们需要设计大量的心理咨询场景,模拟患者去和咨询师对话,或者去测试他们新开发的心理陪伴产品的效果。但有几个大问题:
-
成本高:要花大量的人力成本、时间成本设计剧本、整理文档、对比评估。
-
不可控:今天演抑郁症,演着演着可能就出戏了,或者情绪不到位。
-
效率低:一个人一天能聊几个案列?撑死也就十几个。
客户抛出了一个核心诉求:
"能不能让AI去扮演各种心理问题的患者?然后让我们的AI咨询师(分别基于豆包和千问模型)去跟它聊?最后,最好能自动生成一份对比报告,告诉我哪个模型聊得更好。"
简单来说,客户想要一个全自动化的心理咨询图灵测试场。
这就不是简单的你问我答了,这是一个复杂的**多Agent协作系统,**羊仔接下这个单子后,在Coze里折腾了一整天,终于把这个闭环跑通了。

第一步:DeepSeek-R1,生成剧本
在这个工作流的一开始,接入今年大火的 DeepSeek-R1 模型。
经过实测,在构建复杂的心理状态和逻辑推理上,R1的表现真的很不错。
我们需要它做的,是根据用户输入的一句简单开场白(比如"我觉得活着没意思"),瞬间构建出一个有血有肉的虚拟患者。
羊仔在Prompt(提示词)里给它设定了一个身份:心理咨询对话生成专家。

这是DeepSeek节点的提示词配置,可以看到我们要求它生成随机性格和连续的9句对话。
在提示词里,特别强调了以下几点约束:
-
人格一致性:必须严格保持所设定人格的一致性,不能聊着聊着性格变了。
-
随机性:基于第一句话,随机生成或确定一个具体的人格设定(比如回避型依恋、焦虑型人格等)。
-
格式化输出:必须生成9句符合该人格特征的连续患者对话。
这一步是整个工作流的基石,DeepSeek在这里不负责治愈,只负责"生病",它负责生成情感基调、认知模式的剧本。
第二步:循环流水线,豆包与千问对决
有了患者的剧本(那9句生成的对话),接下来就要看医生的表现了。
这里涉及到了Coze工作流中一个稍微高阶一点的玩法------Loop(循环)节点。
因为DeepSeek生成的是一个包含多句话的列表(List),我们不能把这一坨东西直接扔给模型。我们需要把这9句话,像流水线一样,一句一句地拿出来,分别喂给两个不同的模型进行回复。

豆包模型和通义千问插件并行,它们同时处理同一个输入。
在循环节点内部,两个大模型选手同台竞技:
选手A:豆包·1.6·深度思考版

选手B:通义千问(通过插件调用)

它们都拿到了同样的系统设定(System Prompt):"你是一个温暖、细致、有边界感的情绪陪伴者小雅......"
这里有个细节,为了让评测更公平且具有分析价值,我不仅要求它们输出回答(Answer),还要求它们输出思考过程(Reasoning Content)。
对于客户来说,AI"为什么这么回"往往比"回了什么"更有价值,这能帮助他们分析模型是否真的理解了患者的潜台词,还是只是在套模板。
第三步:生成结果文档
客户是做业务的,他们不能盯着Coze的后台日志看,他们需要的是可以拿去开会、拿去存档的文件。
所以,在循环结束后,羊仔没有直接结束工作流,而是接入了大模型进行整理,将两个"医生"和"患者"的对话整理成markdown格式,再接入Markdown转Word的插件,直接提供文档下载链接给用户。

这一步其实是为了提升交付的体验。试想一下,如果我给客户一堆markdown数据,他看起来会特别费劲,但如果我给他三个整理好的Word文档,体验就完全不同了。
羊仔设计了三个文档输出:
-
《十轮对话.docx》:包含DeepSeek生成的患者完整人设、特征描述和对话剧本,这是考题。
-
《豆包问答思考.docx》:豆包这位医生的所有诊疗记录。
-
《通义千问问答思考.docx》:千问这位医生的所有诊疗记录。
这样,客户只需要点一下运行,三份Word文档就自动生成好了,这才是商业交付该有的样子。
第四步:AI裁判入场
这是整个工作流最精髓的地方,也是客户最买单的功能。
以前,客户需要人工去对比谁回答的更专业,这太累了,而且主观性太强。
现在,直接把这个任务交回给了AI,这里引入了DeepSeek大模型节点,担任AI裁判。
我写了一段非常严苛的评分Prompt(提示词),按照客户需求,设定了11个维度的评分标准。

模型会读取前面对话的所有记录,逐项打分,并给出胜出方。
最后,为了让对比一目了然,羊仔用了生成HTML的插件,先把markdown转换成HTML,再创建HTML文件,让用户能直接下载到,非常方便。

对比结果是一个网页表格,豆包评分,千问评分,分析点评,一目了然。

(⬆️最终生成的HTML对比报告截图)
幕后故事:自力更生开发通义千问插件
在着手搭建工作流时,羊仔还遇到一个小插曲。
原本Coze平台是内置了通义千问大模型的,可以直接调用,但在项目进行到一半时,Coze的通义千问大模型突然下线了。
搜索了一圈,没找到合适的插件,要么不能返回思考过程,要么不能指定大模型,比如想指定用Qwen-plus,并开启思考模式。
这可把羊仔急坏了,总不能让客户的方案瘸腿吧?
遇到问题,解决问题,这才是探索的乐趣所在!羊仔迅速动手,利用Coze的插件开发能力,自己封装了一个通义千问的调用插件。


这是羊仔为解决Coze平台通义千问下线问题,自行开发的插件。它允许我们通过API Key灵活调用通义千问的各个模型,并支持思考模式,确保了工作流的完整性。
这个插件的功能很简单,但非常实用:
-
插件名称 :
通义千问 -
插件工具:
qwen_txt -
功能描述:通义千问,文本输入,可以切换模型,支持思考模式。
-
核心参数:
-
api_key(string, 必填):你的通义千问API Key。 -
system_prompt(string, 必填):系统提示词,用来设定AI咨询师的角色。 -
user_prompt(string, 必填):用户提示词,也就是"患者"的每一句话。 -
enable_thinking(boolean, 默认false):是否开启思考模式,这对于我们后续的评测非常关键。 -
model(string, 默认qwen3-max):可以选择不同的模型版本。
-
目前已经上架coze插件商店,大家有需要可以直接使用:
https://www.coze.cn/store/plugin/7565170663988903987
有了这个自研插件,工作流的完整性得到了保障,豆包和千问的巅峰对决也能如期完成了。
这让羊仔更加深刻地体会到,AI工具箱里的每一个工具,都可能在关键时刻发挥意想不到的作用,而自主开发能力,更是让我们的AI应用之路走得更远。
羊仔的复盘与思考
这个工作流交付后,客户非常满意。
以前他们需要一周才能完成的模型话术测试,现在只需要输入一个句子,喝杯咖啡的功夫,一份包含剧本、对话记录、评测报告的完整资料就出来了。
做完这个单子,羊仔也有很多感触,想分享给正在做AI的你:
1. 复杂的业务往往需要多模型协作。
不要迷信某一个模型是万能的。
在这个案例里,DeepSeek擅长推理和构造(做编剧),豆包擅长中文语境下的共情(做演员),而其他模型可能适合做逻辑分析(做裁判)。
Coze最大的价值,就是把这些不同特长的模型串起来。
2. 交付形式决定了产品的价值感。
如果只给客户看对话框,这个单子可能只值几百块,但我加上了Word文档生成和HTML报表生成,让结果变得"可携带、可汇报、可存档",这个单子的价值瞬间就上去了。
3. 自动化是把双刃剑,但用好了是神器。
搭建这个工作流的过程中,最难的是处理数据格式。
怎么把List转成String,怎么处理Markdown的换行,怎么防止JSON报错。
这些脏活累活,才是AI应用落地的深水区,前提是自己要知道需要什么样的数据,这就又回到了要确认好用户需求。
4. 自力更生的价值。
当平台内置功能无法满足需求时,主动开发插件来填补空白,这不仅锻炼了自己的动手能力,也为客户提供了更稳定、更定制化的解决方案。
Coze不仅仅是一个工具,它让我们从重复的劳动中解放出来,去思考更顶层的逻辑和创意。
共勉!
欢迎关注羊仔,一起探索AI,成为超级个体!
如果你喜欢这篇文章,不妨点赞,在看,转发。
你的每一次互动,对羊仔来说都是莫大的鼓励。