AI心理学导师测评,智能体商单案例

大家好,我是羊仔,专注AI编程、智能体、AI工具。

在这个AI工具层出不穷的时代,我们每天都被各种新模型的消息轰炸。

今天DeepSeek霸榜,明天豆包升级,后天千问又出了新功能,但说实话,工具再强,如果不能落地解决实际问题,那也只是玩具。

羊仔一直坚持一个观点:AI不是用来炫技的,是用来帮我们解决问题的。

最近,羊仔刚交付了一个非常有意思的Coze(扣子)工作流商单,这个案例是让AI扮演患者,AI扮演医生,最后AI再来当裁判的AI左右互搏。

它完美地把DeepSeek的推理能力、豆包的中文理解能力、通义千问的长文本能力结合在了一起。

如果你对AI自动化、智能体开发或者心理咨询场景感兴趣,这篇文章可能会给你一些启发。

真实的业务痛点

这次的需求非常直接,也非常硬核。

客户是一家专业的心理咨询培训机构。他们面临一个巨大的痛点:培训新手咨询师的成本太高了。

他们需要设计大量的心理咨询场景,模拟患者去和咨询师对话,或者去测试他们新开发的心理陪伴产品的效果。但有几个大问题:

  1. 成本高:要花大量的人力成本、时间成本设计剧本、整理文档、对比评估。

  2. 不可控:今天演抑郁症,演着演着可能就出戏了,或者情绪不到位。

  3. 效率低:一个人一天能聊几个案列?撑死也就十几个。

客户抛出了一个核心诉求:

"能不能让AI去扮演各种心理问题的患者?然后让我们的AI咨询师(分别基于豆包和千问模型)去跟它聊?最后,最好能自动生成一份对比报告,告诉我哪个模型聊得更好。"

简单来说,客户想要一个全自动化的心理咨询图灵测试场。

这就不是简单的你问我答了,这是一个复杂的**多Agent协作系统,**羊仔接下这个单子后,在Coze里折腾了一整天,终于把这个闭环跑通了。

第一步:DeepSeek-R1,生成剧本

在这个工作流的一开始,接入今年大火的 DeepSeek-R1 模型。

经过实测,在构建复杂的心理状态和逻辑推理上,R1的表现真的很不错。

我们需要它做的,是根据用户输入的一句简单开场白(比如"我觉得活着没意思"),瞬间构建出一个有血有肉的虚拟患者。

羊仔在Prompt(提示词)里给它设定了一个身份:心理咨询对话生成专家

这是DeepSeek节点的提示词配置,可以看到我们要求它生成随机性格和连续的9句对话。

在提示词里,特别强调了以下几点约束:

  • 人格一致性:必须严格保持所设定人格的一致性,不能聊着聊着性格变了。

  • 随机性:基于第一句话,随机生成或确定一个具体的人格设定(比如回避型依恋、焦虑型人格等)。

  • 格式化输出:必须生成9句符合该人格特征的连续患者对话。

这一步是整个工作流的基石,DeepSeek在这里不负责治愈,只负责"生病",它负责生成情感基调、认知模式的剧本。

第二步:循环流水线,豆包与千问对决

有了患者的剧本(那9句生成的对话),接下来就要看医生的表现了。

这里涉及到了Coze工作流中一个稍微高阶一点的玩法------Loop(循环)节点。

因为DeepSeek生成的是一个包含多句话的列表(List),我们不能把这一坨东西直接扔给模型。我们需要把这9句话,像流水线一样,一句一句地拿出来,分别喂给两个不同的模型进行回复。

豆包模型和通义千问插件并行,它们同时处理同一个输入。

在循环节点内部,两个大模型选手同台竞技:

选手A:豆包·1.6·深度思考版

选手B:通义千问(通过插件调用)

它们都拿到了同样的系统设定(System Prompt):"你是一个温暖、细致、有边界感的情绪陪伴者小雅......"

这里有个细节,为了让评测更公平且具有分析价值,我不仅要求它们输出回答(Answer),还要求它们输出思考过程(Reasoning Content)。

对于客户来说,AI"为什么这么回"往往比"回了什么"更有价值,这能帮助他们分析模型是否真的理解了患者的潜台词,还是只是在套模板。

第三步:生成结果文档

客户是做业务的,他们不能盯着Coze的后台日志看,他们需要的是可以拿去开会、拿去存档的文件。

所以,在循环结束后,羊仔没有直接结束工作流,而是接入了大模型进行整理,将两个"医生"和"患者"的对话整理成markdown格式,再接入Markdown转Word的插件,直接提供文档下载链接给用户。

这一步其实是为了提升交付的体验。试想一下,如果我给客户一堆markdown数据,他看起来会特别费劲,但如果我给他三个整理好的Word文档,体验就完全不同了。

羊仔设计了三个文档输出:

  1. 《十轮对话.docx》:包含DeepSeek生成的患者完整人设、特征描述和对话剧本,这是考题。

  2. 《豆包问答思考.docx》:豆包这位医生的所有诊疗记录。

  3. 《通义千问问答思考.docx》:千问这位医生的所有诊疗记录。

这样,客户只需要点一下运行,三份Word文档就自动生成好了,这才是商业交付该有的样子。

第四步:AI裁判入场

这是整个工作流最精髓的地方,也是客户最买单的功能。

以前,客户需要人工去对比谁回答的更专业,这太累了,而且主观性太强。

现在,直接把这个任务交回给了AI,这里引入了DeepSeek大模型节点,担任AI裁判。

我写了一段非常严苛的评分Prompt(提示词),按照客户需求,设定了11个维度的评分标准。

模型会读取前面对话的所有记录,逐项打分,并给出胜出方。

最后,为了让对比一目了然,羊仔用了生成HTML的插件,先把markdown转换成HTML,再创建HTML文件,让用户能直接下载到,非常方便。

对比结果是一个网页表格,豆包评分,千问评分,分析点评,一目了然。

(⬆️最终生成的HTML对比报告截图

幕后故事:自力更生开发通义千问插件

在着手搭建工作流时,羊仔还遇到一个小插曲。

原本Coze平台是内置了通义千问大模型的,可以直接调用,但在项目进行到一半时,Coze的通义千问大模型突然下线了。

搜索了一圈,没找到合适的插件,要么不能返回思考过程,要么不能指定大模型,比如想指定用Qwen-plus,并开启思考模式。

这可把羊仔急坏了,总不能让客户的方案瘸腿吧?

遇到问题,解决问题,这才是探索的乐趣所在!羊仔迅速动手,利用Coze的插件开发能力,自己封装了一个通义千问的调用插件。

这是羊仔为解决Coze平台通义千问下线问题,自行开发的插件。它允许我们通过API Key灵活调用通义千问的各个模型,并支持思考模式,确保了工作流的完整性。

这个插件的功能很简单,但非常实用:

  • 插件名称通义千问

  • 插件工具: qwen_txt

  • 功能描述:通义千问,文本输入,可以切换模型,支持思考模式。

  • 核心参数

    • api_key (string, 必填):你的通义千问API Key。

    • system_prompt (string, 必填):系统提示词,用来设定AI咨询师的角色。

    • user_prompt (string, 必填):用户提示词,也就是"患者"的每一句话。

    • enable_thinking (boolean, 默认false):是否开启思考模式,这对于我们后续的评测非常关键。

    • model (string, 默认qwen3-max):可以选择不同的模型版本。

目前已经上架coze插件商店,大家有需要可以直接使用:

https://www.coze.cn/store/plugin/7565170663988903987

有了这个自研插件,工作流的完整性得到了保障,豆包和千问的巅峰对决也能如期完成了。

这让羊仔更加深刻地体会到,AI工具箱里的每一个工具,都可能在关键时刻发挥意想不到的作用,而自主开发能力,更是让我们的AI应用之路走得更远。

羊仔的复盘与思考

这个工作流交付后,客户非常满意。

以前他们需要一周才能完成的模型话术测试,现在只需要输入一个句子,喝杯咖啡的功夫,一份包含剧本、对话记录、评测报告的完整资料就出来了。

做完这个单子,羊仔也有很多感触,想分享给正在做AI的你:

1. 复杂的业务往往需要多模型协作。

不要迷信某一个模型是万能的。

在这个案例里,DeepSeek擅长推理和构造(做编剧),豆包擅长中文语境下的共情(做演员),而其他模型可能适合做逻辑分析(做裁判)。

Coze最大的价值,就是把这些不同特长的模型串起来。

2. 交付形式决定了产品的价值感。

如果只给客户看对话框,这个单子可能只值几百块,但我加上了Word文档生成和HTML报表生成,让结果变得"可携带、可汇报、可存档",这个单子的价值瞬间就上去了。

3. 自动化是把双刃剑,但用好了是神器。

搭建这个工作流的过程中,最难的是处理数据格式。

怎么把List转成String,怎么处理Markdown的换行,怎么防止JSON报错。

这些脏活累活,才是AI应用落地的深水区,前提是自己要知道需要什么样的数据,这就又回到了要确认好用户需求。

4. 自力更生的价值。

当平台内置功能无法满足需求时,主动开发插件来填补空白,这不仅锻炼了自己的动手能力,也为客户提供了更稳定、更定制化的解决方案。

Coze不仅仅是一个工具,它让我们从重复的劳动中解放出来,去思考更顶层的逻辑和创意。

共勉!

欢迎关注羊仔,一起探索AI,成为超级个体!

如果你喜欢这篇文章,不妨点赞,在看,转发。

你的每一次互动,对羊仔来说都是莫大的鼓励。

相关推荐
GG向前冲2 小时前
【Python 金融量化】线性模型在AAPL股票数据的分析研究
大数据·python·机器学习·ai·金融
郭涤生2 小时前
agent skills架构设计
ai
victory04312 小时前
medicalgpt项目深入发掘方向
人工智能·深度学习
123_不打狼2 小时前
自然语言处理(NLP)学习路线
人工智能·学习·自然语言处理
guslegend2 小时前
2. Ollama REST API - api/generate 接口详
人工智能
GISer_Jing2 小时前
大语言模型Agent入门指南
前端·数据库·人工智能
aiguangyuan2 小时前
词向量的艺术:从Word2Vec到GloVe的完整实践指南
人工智能·python·nlp
王莽v22 小时前
FlashAttention 学习笔记:从公式到分布式
人工智能·分布式
愚公搬代码2 小时前
【愚公系列】《AI+直播营销》046-销讲型直播内容策划(适合销讲型直播的产品和服务)
人工智能