验证评估指标

大模型应用：Qwen1.5+ChatGLM3联合评测：不同体量大模型意图识别差异验证.122意图识别是自然语言处理里最核心、最落地的任务之一，不管是智能客服、智能助手，还是语音交互、智能设备控制，都离不开它。之前我们已经系统讲过意图识别的评估指标、基本原理和整体评测流程，也用语义向量模型（all-MiniLM-L6-v2）和轻量级大模型Qwen1.5-1.8B-Chat做过一版实测。但在实际跑通代码、对比结果后我们发现：Qwen1.5-1.8B 受限于参数量，在复杂句式、混合意图、模糊表达上的识别能力明显偏弱，稳定性也不够理想。于是我们进一步引入ChatGLM3-6B做联合评测，用更大体量、更强

我是有底线的