Can Large Language Models Understand Real-World Complex Instructions?

本文是LLM系列文章,针对《Can Large Language Models Understand Real-World Complex Instructions?》的翻译。

大型语言模型能理解现实世界的复杂指令吗?

摘要

大型语言模型(llm)可以理解人类指令,显示出它们在传统NLP任务之外的实用应用潜力。然而,它们仍然在与复杂的指令作斗争,这些指令可能是需要多个任务和约束的复杂任务描述,也可能是包含长上下文、噪声、异构信息和多回合格式的复杂输入。由于这些特性,llm经常忽略任务描述中的语义约束,生成不正确的格式,违反长度或样本计数约束,并且不忠实于输入文本。现有的基准不足以评估LLM理解复杂指令的能力,因为它们是封闭和简单的。为了弥补这一差距,我们提出了CELLO,一个评估LLM系统地遵循复杂指令的能力的基准。我们为复杂的指令设计了8个特征,并从现实场景中构建了一个全面的评估数据集。我们还建立了四个标准,并制定了相应的度量标准,因为目前的标准是不充分的,有偏差的或过于严格和粗粒度的。我们通过大量的实验比较了具有代表性的汉语模型和英语模型在遵循复杂指令方面的表现。CELLO的资源可在https://github.com/Abbey4799/CELLO上公开获取。

引言

相关工作

CELLO基准

实验

结论

在这项工作中,我们系统地研究了LLM的复杂理解能力。我们建立了包含8个特征的复杂指令识别框架,并提出了两阶段的数据集构建框架,最终构建了中文复杂指令评价数据集。此外,我们设计了四个评估标准和相应的指标来评估LLM的复杂指令理解能力。此外,我们进行了大量的实验来比较基准测试中代表性模型的性能。

相关推荐
能力越小责任越小YA5 分钟前
服务器(Linux)新账户搭建Pytorch深度学习环境
人工智能·pytorch·深度学习·环境搭建
小五12722 分钟前
机器学习-线性回归
人工智能·机器学习
攻城狮7号34 分钟前
昆仑万维开源 Matrix-3D大模型,正在开启“造物主”模式
人工智能·matrix-3d·昆仑万维开源大模型
A7bert7771 小时前
【YOLOv5部署至RK3588】模型训练→转换RKNN→开发板部署
c++·人工智能·python·深度学习·yolo·目标检测·机器学习
闲不住的李先森1 小时前
AI 应用演进:从基础调用到自主智能体
人工智能·llm·aigc
数巨小码人1 小时前
AI+数据库:国内DBA职业发展与国产化转型实践
数据库·人工智能·ai·dba
黑客影儿1 小时前
使用UE5开发2.5D开放世界战略养成类游戏的硬件配置指南
开发语言·c++·人工智能·游戏·智能手机·ue5·游戏引擎
Coovally AI模型快速验证2 小时前
YOLOv8-SMOT:基于切片辅助训练与自适应运动关联的无人机视角小目标实时追踪框架
人工智能·深度学习·yolo·计算机视觉·目标跟踪·无人机
新智元2 小时前
刚刚,英伟达新模型上线!4B 推理狂飙 53 倍,全新注意力架构超越 Mamba 2
人工智能·openai
新智元2 小时前
北大数学家终结 50 年猜想!一只蝴蝶翅膀,竟难倒菲尔兹奖得主
人工智能·openai