Talk | ACL‘23 杰出论文,MultiIntruct:通过多模态指令集微调提升VLM的零样本学习

本期为TechBeat人工智能社区 536 线上Talk!

北京时间10月11 (周三)20:00弗吉尼亚理工大学博士生--- 徐智阳、沈莹的Talk已准时在TechBeat人工智能社区开播!

他们与大家分享的主题是: "通过多模态指令集微调提升VLM的零样本学习", 介绍了由他们提出的MultiIntruct和第一个多模态指令集微调数据集。

Talk·信息

主题:通过多模态指令集微调提升VLM的零样本学习

嘉宾:弗吉尼亚理工大学博士生 徐智阳

弗吉尼亚理工大学博士生 沈莹

时间:北京时间10 月11日(周三)20:00

地点:TechBeat人工智能社区

点击下方链接,即可观看视频!

TechBeatTechBeat是荟聚全球华人AI精英的成长社区,每周上新来自顶尖大厂、明星创业公司、国际顶级高校相关专业在读博士的最新研究工作。我们希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。https://www.techbeat.net/talk-info?id=815

Talk·介绍

指令集微调可以很有效地提升大语言模型的零样本学习能力并且提高大语言模型执行用户的指令的能力。但是在多模态领域中指令集微调并没有被探索与研究。随着越来越多的生成式视觉语言模型的出现,我们认为指令集微调也可以被拓展到多模态领域。我们提出的MultiIntruct 是第一个探索与研究指令集微调在多模态领域的工作并且提出了第一个多模态指令集微调数据集。我们的实验结果证实了指令集微调可以很大程度提升视觉语言模型的泛化能力。

Talk大纲

1.介绍指令集微调在自然语言处理中的发展与应用

2.提出多模态指令集微调的可能性以及存在的问题

3.介绍视觉语言模型:ofa

4.介绍MultiInstruct 第一个多模态指令集微调数据集

5.讲解在MultiInstruct上的多模态指令集微调的实验细节

6.分析零样本学习的性能并且总结他们的发现

Talk·预习资料

论文链接:

https://aclanthology.org/2023.acl-long.641/

Talk·提问交流

在Talk界面下的**【交流区】**参与互动!留下你的打call🤟和问题🙋,和更多小伙伴们共同讨论,被讲者直接翻牌解答!

你的每一次贡献,我们都会给予你相应的i豆积分,还会有惊喜奖励哦!

Talk·嘉宾介绍

徐智阳

弗吉尼亚理工大学博士生

徐智阳,现为弗吉尼亚理工计算机科学三年级博士,导师为lifu huang。本科获得伦斯勒理工计算机工程学位。研究生就读于麻省大学,与Andrew McCallum 合作发表文章在EMNLP,AKBC,Neurips 等国际会议。博士期间致力于研究自然语言处理和多模态中的零样本和小样本学习并发表多篇论文在ACL,EMNLP。近期工作MultiInstruct 获得ACL 2023 杰出论文奖。

个人主页:

https://www.techbeat.net/grzytrkj?id=34797

沈莹

弗吉尼亚理工大学博士生

沈莹,弗吉尼亚理工大学计算机科学专业的博士生。她的研究兴趣在于深度学习、自然语言处理和多模态机器学习,该研究领域专注于集成和建模多种交流模态,包括语言、听觉和视觉消息。她的研究热情是构建更多类人的交互式代理,以便更好地理解、解释和推理周围的世界。

个人主页:

https://www.techbeat.net/grzytrkj?id=34815


关于TechBeat人工智能社区

TechBeat(www.techbeat.net)隶属于将门创投,是一个荟聚全球华人AI精英的成长社区。

我们希望为AI人才打造更专业的服务和体验,加速并陪伴其学习成长。

期待这里可以成为你学习AI前沿知识的高地,分享自己最新工作的沃土,在AI进阶之路上的升级打怪的根据地!

更多详细介绍>>TechBeat,一个荟聚全球华人AI精英的学习成长社区

相关推荐
大模型最新论文速读16 小时前
PreFT:只在 prefill 时使用 LoRA,推理速度翻倍效果不降
论文阅读·人工智能·深度学习·机器学习·自然语言处理
DisonTangor19 小时前
【字节拥抱开源】ByteDance-Seed开源连续潜在扩散语言模型——Cola DLM
人工智能·语言模型·自然语言处理
财经资讯数据_灵砚智能1 天前
基于全球经济类多源新闻的NLP情感分析与数据可视化(夜间-次晨)2026年5月19日
大数据·人工智能·python·信息可视化·自然语言处理
财经资讯数据_灵砚智能1 天前
基于全球经济类多源新闻的NLP情感分析与数据可视化(日间)2026年5月20日
大数据·人工智能·python·信息可视化·自然语言处理
蓦然回首却已人去楼空1 天前
深度学习进阶:自然语言处理|3.4 QA|共享权重与 `remove_duplicate` 详解
人工智能·深度学习·自然语言处理
AI技术控2 天前
RAG 怎么做 Query 改写?从工程实践看检索增强生成的第一道关键关卡
人工智能·语言模型·自然语言处理·oracle·nlp
byzh_rc2 天前
[自然语言处理-入门] 语音合成
人工智能·自然语言处理
财经资讯数据_灵砚智能2 天前
基于全球经济类多源新闻的NLP情感分析与数据可视化(夜间-次晨)2026年5月18日
人工智能·信息可视化·自然语言处理
蓦然回首却已人去楼空2 天前
深度学习进阶:自然语言处理|3.2.3 QA|word2vec 中为什么输入和输出权重都可以表示单词
深度学习·自然语言处理·word2vec
财经资讯数据_灵砚智能2 天前
基于全球经济类多源新闻的NLP情感分析与数据可视化(日间)2026年5月19日
大数据·人工智能·python·信息可视化·自然语言处理·灵砚智能