Can Large Language Models Understand Real-World Complex Instructions?

本文是LLM系列文章,针对《Can Large Language Models Understand Real-World Complex Instructions?》的翻译。

大型语言模型能理解现实世界的复杂指令吗?

摘要

大型语言模型(llm)可以理解人类指令,显示出它们在传统NLP任务之外的实用应用潜力。然而,它们仍然在与复杂的指令作斗争,这些指令可能是需要多个任务和约束的复杂任务描述,也可能是包含长上下文、噪声、异构信息和多回合格式的复杂输入。由于这些特性,llm经常忽略任务描述中的语义约束,生成不正确的格式,违反长度或样本计数约束,并且不忠实于输入文本。现有的基准不足以评估LLM理解复杂指令的能力,因为它们是封闭和简单的。为了弥补这一差距,我们提出了CELLO,一个评估LLM系统地遵循复杂指令的能力的基准。我们为复杂的指令设计了8个特征,并从现实场景中构建了一个全面的评估数据集。我们还建立了四个标准,并制定了相应的度量标准,因为目前的标准是不充分的,有偏差的或过于严格和粗粒度的。我们通过大量的实验比较了具有代表性的汉语模型和英语模型在遵循复杂指令方面的表现。CELLO的资源可在https://github.com/Abbey4799/CELLO上公开获取。

引言

相关工作

CELLO基准

实验

结论

在这项工作中,我们系统地研究了LLM的复杂理解能力。我们建立了包含8个特征的复杂指令识别框架,并提出了两阶段的数据集构建框架,最终构建了中文复杂指令评价数据集。此外,我们设计了四个评估标准和相应的指标来评估LLM的复杂指令理解能力。此外,我们进行了大量的实验来比较基准测试中代表性模型的性能。

相关推荐
TechubNews几秒前
专访新火集团首席经济学家付鹏:解读比特币资产属性、香港楼市与普通人理财建议——Techub News对话实录
人工智能·区块链
Liiiks11 分钟前
GPT-Image-2来了!实测:文字渲染99%,UI截图像素级还原,前端工作流要变天了
人工智能·gpt·chatgpt·大模型·ai生图·gpt-image-2·图片设计
无巧不成书021811 分钟前
2026最新Next-AI-Draw-io全攻略:AI驱动专业图表生成,Docker/Node.js本地部署零踩坑指南
人工智能·docker·node.js·next-ai-draw-io
少许极端24 分钟前
AI修炼记1-Tool Calling
人工智能·ai·spring ai·tool calling
李白你好1 小时前
RedTeam-Agent无需手动操作,AI 接管所有渗透工具,让安全测试真正自动化
运维·人工智能·自动化
容智信息1 小时前
国家级算力底座+企业级智能体:容智Agent OS 获选入驻移动云能中心,联手赋能千行百业
大数据·人工智能·自然语言处理·智慧城市
彭祥.1 小时前
ONNX模型多线程推理并解决线程踩踏问题
人工智能
Lonwayne1 小时前
从提示词工程到驾驭工程:AI协作的三代进化
人工智能·ai·ai编程·ai智能体
herinspace1 小时前
如何解决管家婆辉煌零售POS中显示的原价和售价不一致?
网络·人工智能·学习·excel·语音识别·零售
肖有米XTKF86461 小时前
金木新零售模式系统开发介绍平台解析
人工智能·信息可视化·软件工程·团队开发·csdn开发云