认识“DRESS”:通过自然语言反馈与人类协调和互动的大视觉语言模型 (LVLM)

大视觉语言模型(LVLM)可以解释视觉线索并为用户交互提供简单的答复。这是通过巧妙地将大型语言模型 (LLM) 与大规模视觉指令微调融合来实现的。然而,LVLM 只需要手工制作或 LLM 生成的数据集即可通过监督微调 (SFT) 进行对齐。尽管将 LVLM 从标题生成器更改为服从指令的模型效果很好,但 LVLM 仍然会生成有害的、恶意的或无用的回复。这表明它们仍然需要更加符合人类的偏好。此外,虽然之前的研究鼓励以多轮形式组织视觉指令调整样本,但 LVLM 的交互能力受到不同轮之间的弱连接和相互依赖的限制。在这里,交互能力评估 LVLM 在多轮交互中使用先验上下文调整其回复的能力。这两个缺点限制了 LVLM 作为视觉助手的实际应用。

来自 SRI International 和伊利诺伊大学厄巴纳-香槟分校的研究团队提出了 DRESS,这是一种 LVLM,在这项工作中使用法学硕士产生的自然语言反馈 (NLF) 进行独特的教学(参见图 1)。研究团队指示法学硕士通过为 LVLM 的答复提供具体规则和广泛的照片注释来提供细粒度的反馈。为了与创建以人为本的法学硕士的过程保持一致,此反馈注释考虑了三个 H 标准:乐于助人、诚实和无害。反馈根据 3H 标准衡量回复的整体质量,并提供数字分数和 NLF。研究团队的方法将NLF分为批判和提炼。这是一个新颖的分类。虽然细化 NLF 为 LVLM 提供了关于改进其回复以与地面实况参考保持一致的精确建议,但批评 NLF 评估了响应的优点和缺点。这种分类提供了两种 NLF 的自然应用,使 LVLM 更适合人类并增强其交互能力。
**图1:**研究人员指导DRESS使用自然语言输入,分为批判和细化两类,以增强与人类偏好的契合度和交互能力。

研究团队推广了条件强化学习技术来满足 NLF 的不可微分特性,并利用这种反馈来训练 LVLM。具体来说,研究团队在回复中使用语言建模 (LM) 损失来训练 DRESS,以生成基于两个 NLF 的等效回复。研究团队通过分析和解释数值结果来完善 DRESS,以更好地匹配用户偏好。通过推理过程中的多轮交互,研究团队训练 DRESS 学习通过使用细化 NLF 来细化其原始回复的元技能。

研究团队评估了 DRESS 的多轮交互、对抗性提示的无害性评估、图片说明的诚实性评估以及开放式视觉问题响应的有用性评估。实验结果表明,与早期的 LVLM 相比,DRESS 可以提供符合人类价值观的回复,并具有卓越的交互能力,使其能够从反馈中学习并根据需要有效地修改响应。据他们所知,研究团队的工作首次解决了 LVLM 的交互能力和所有三个 3H 标准。

研究团队的贡献总结如下:

• 研究团队建议使用自然语言反馈(NLF)(可分为批判和提炼NLF)来增强LVLM 与人类偏好交互和一致的能力。

• 通过训练模型以提供以 NLF 为条件的匹配响应,研究团队推广了条件强化学习方法,以成功地适应不可微分的 NLF。与之前的 SOTA 相比,研究团队建议的模型 DRESS 基于对乐于助人、诚实和无害对齐的系统评估,相对提高了 9.76%、11.52% 和 21.03%。

• 研究小组生成并提供了 63K 个带注释的语言 NLF 示例供公众使用,包括 3H 特征。此外,研究团队还创建了一个包含 4700 个样本的公开数据集,用于无害性比对和 LVLM 评估。

查看 论文数据集 这项研究的所有功劳都归功于该项目的研究人员。另外,不要忘记加入 我们的 33k+ ML SubReddit、41k+ Facebook 社区、 Discord Channel电子邮件通讯 ,我们在这里分享最新的 AI 研究新闻、酷炫的 AI 项目等等。

如果您喜欢我们的工作,您一定会喜欢我们的时事通讯。
大型视觉语言模型(LVLM)能否从自然语言反馈中学习以提高其对齐和交互能力?

很高兴分享 DRESS,这是一个通过自然语言反馈训练的 LVLM。

论文:https://t.co/UB1pdaN4q1
数据集:https://t.co/pUzCcUwyqnpic.twitter.com/Zbc3Cbg097

--- 陈杨毅 (@YangyiChen6666) 2023 年 11 月 26 日

认识"DRESS":通过自然语言反馈与人类协调和交互的大视觉语言模型 (LVLM) 这篇文章首先出现在MarkTechPost上。

相关推荐
小ᶻᶻᶻ17 分钟前
如何有效管理技术债务:IT项目中的长期隐患
人工智能
Colddd_d35 分钟前
动手学深度学习(五)循环神经网络RNN
人工智能·rnn·深度学习
sp_fyf_202442 分钟前
人工智能-大语言模型-微调技术-LoRA及背后原理简介
人工智能·语言模型·自然语言处理
xuehaishijue1 小时前
射击靶标检测系统源码分享
人工智能·计算机视觉·目标跟踪
Kenneth風车1 小时前
【机器学习(九)】分类和回归任务-多层感知机 (MLP) -Sentosa_DSML社区版
人工智能·算法·低代码·机器学习·分类·数据分析·回归
知来者逆1 小时前
ChemChat——大语言模型与化学的未来,以及整合外部工具和聊天机器人的潜力
人工智能·gpt·语言模型·自然语言处理·机器人·llm·大语言模型
AI领航者1 小时前
大型语言模型的结构性幻觉:不可避免的局限性
人工智能·语言模型·自然语言处理·llm·大语言模型·ai大模型·大模型幻觉
fydw_7151 小时前
PyTorch 池化层详解
人工智能·深度学习
豆本-豆豆奶1 小时前
23个Python在自然语言处理中的应用实例
开发语言·python·自然语言处理·编程语音
奥利给少年1 小时前
深度学习——管理模型的参数
人工智能·深度学习