
A Novel MLLM-based Approach for Autonomous Driving in Different Weather Conditions
➡️ 论文标题:A Novel MLLM-based Approach for Autonomous Driving in Different Weather Conditions
➡️ 论文作者:Sonda Fourati, Wael Jaafar, Noura Baccar
➡️ 研究机构: Mediterranean Institute of Technology (MedTech), Ecole de Technologie Supérieure (ETS)
➡️ 问题背景:自动驾驶技术(AD)有望通过提高安全性、效率和舒适性来彻底改变日常交通。然而,恶劣环境条件下的自动驾驶面临重大挑战,需要强大的适应性解决方案。当前大多数研究集中在理想天气条件下的自动驾驶,这与全球许多地区的实际情况不符。
➡️ 研究动机:为了应对这一挑战,研究团队提出了一种基于多模态大语言模型(MLLM)的新型自动驾驶方法,称为MLLM-AD-4o,该方法能够在各种天气条件下进行自动驾驶。研究旨在评估MLLM-AD-4o在不同天气条件下的性能,包括安全性、舒适性、效率和速度。
➡️ 方法简介:研究团队利用GPT-4o和LimSim++框架,在CARLA驾驶模拟器中构建了一个闭环交互环境。MLLM-AD-4o通过结合不同传感器模态(如LiDAR和摄像头)的数据,提高了环境感知、场景理解和决策能力。研究团队还开发了一个新的函数来自动化设置不同的天气条件,以模拟现实世界中的恶劣环境。
➡️ 实验设计:实验在CARLA模拟器的多个城镇环境中进行,包括不同的天气条件(如大雨、风暴、雾天和湿滑路面)。实验评估了MLLM-AD-4o在不同传感器配置(如前摄像头、前后摄像头和LiDAR)下的性能。性能评估指标包括安全性评分、舒适性评分、效率评分和速度评分。这些指标分别评估了自动驾驶车辆在不同条件下的安全性、驾驶平顺性、行驶效率和遵守速度限制的情况。
BlueLM-V-3B: Algorithm and System Co-Design for Multimodal Large Language Models on Mobile Devices
➡️ 论文标题:BlueLM-V-3B: Algorithm and System Co-Design for Multimodal Large Language Models on Mobile Devices
➡️ 论文作者:Xudong Lu, Yinghao Chen, Cheng Chen, Hui Tan, Boheng Chen, Yina Xie, Rui Hu, Guanxin Tan, Renshou Wu, Yan Hu, Yi Zeng, Lei Wu, Liuyang Bian, Zhaoxiong Wang, Long Liu, Yanzhou Yang, Han Xiao, Aojun Zhou, Yafei Wen, Xiaoxin Chen, Shuai Ren, Hongsheng Li
➡️ 研究机构: vivo AI Lab、CUHK MMLab
➡️ 问题背景:多模态大语言模型(MLLMs)在处理和整合文本、图像和音频等多种数据形式方面展现出巨大潜力,能够提供更丰富的交互体验和更深层次的上下文理解。然而,将这些模型部署在移动设备上面临诸多挑战,如内存限制、计算能力不足等,导致难以实现流畅的实时处理。
➡️ 研究动机:尽管多模态大语言模型在云平台、桌面PC和边缘设备上得到了广泛研究,但移动设备因其便携性和实时处理能力,成为最有效的部署平台。为了克服移动设备上的部署挑战,研究团队提出了BlueLM-V-3B,通过算法和系统协同设计,优化了模型在移动设备上的性能和资源效率。
➡️ 方法简介:研究团队提出了BlueLM-V-3B,该模型具有2.7B参数的语言模型和400M参数的视觉编码器。通过重新设计动态分辨率方案和实施硬件感知的系统优化,BlueLM-V-3B在移动设备上实现了高效的图像处理和语言生成。具体方法包括:1) 放松的宽高比匹配方法,减少图像令牌数量;2) 批量图像编码和管道并行处理,加速图像编码;3) 令牌降采样和分块计算,优化输入令牌处理。
➡️ 实验设计:研究团队在多个基准数据集上进行了实验,包括Vision-Language Perception (VLP) 和 Image-to-Image (I2I) 任务。实验结果表明,BlueLM-V-3B在多个基准测试中表现出色,尤其是在OpenCompass基准测试中,以66.1的平均分领先于其他参数量相近的模型。此外,BlueLM-V-3B在MediaTek Dimensity 9300处理器上实现了24.4 token/s的生成速度,内存占用仅为2.2GB。
Awaker2.5-VL: Stably Scaling MLLMs with Parameter-Efficient Mixture of Experts
➡️ 论文标题:Awaker2.5-VL: Stably Scaling MLLMs with Parameter-Efficient Mixture of Experts
➡️ 论文作者:Jinqiang Long, Yanqi Dai, Guoxing Yang, Hongpeng Lin, Nanyi Fei, Yizhao Gao, Zhiwu Lu
➡️ 研究机构: Metabrain AGI Lab, Shanghai, China; Gaoling School of Artificial Intelligence, Renmin University of China
➡️ 问题背景:多模态大语言模型(Multimodal Large Language Models, MLLMs)在处理多种文本和视觉任务时表现出色,但简单的数据混合策略导致了"多任务冲突"问题,影响了模型在不同任务上的性能。
➡️ 研究动机:为了解决"多任务冲突"问题,研究团队提出了Awaker2.5-VL,这是一种基于Mixture of Experts (MoE) 架构的多模态大语言模型,通过多个稀疏激活的专家模型来获取多任务能力。
➡️ 方法简介:Awaker2.5-VL通过在每个专家模型中使用低秩适应(LoRA)结构来加速训练和推理。模型包括一个始终激活的全局专家,以确保模型的通用性和泛化能力。此外,研究团队设计了一种简单的路由策略,以提高模型的稳定性和性能。
➡️ 实验设计:在多个最新的基准数据集上进行了实验,包括MME-RealWorld和MMBench。实验结果表明,Awaker2.5-VL在多个任务上取得了最先进的性能,尤其是在中文场景中表现尤为突出。
BanglaDialecto: An End-to-End AI-Powered Regional Speech Standardization
➡️ 论文标题:BanglaDialecto: An End-to-End AI-Powered Regional Speech Standardization
➡️ 论文作者:Md. Nazmus Sadat Samin, Jawad Ibn Ahad, Tanjila Ahmed Medha, Fuad Rahman, Mohammad Ruhul Amin, Nabeel Mohammed, Shafin Rahman
➡️ 研究机构: North South University、Apurba Technologies、Fordham University
➡️ 问题背景:孟加拉语(Bangla)是世界上第五大语言,拥有约1.6亿使用者,其中包含约55种不同的方言。这些方言在发音、语调和词汇上存在细微差异,受到地理位置、教育水平和社会经济地位的影响。方言标准化对于确保有效沟通、教育一致性、技术访问、经济机会以及在尊重文化多样性的前提下保护语言资源至关重要。然而,由于缺乏全面的数据集和处理多样化方言的挑战,相关研究有限。
➡️ 研究动机:现有的研究主要集中在传统的语音识别方法上,而利用多语言大型语言模型(mLLMs)和自动语音识别(ASR)模型处理孟加拉方言的研究较少。本研究旨在通过构建一个大规模的孟加拉方言数据集,开发一个端到端的管道,将方言语音转换为标准孟加拉语语音,以解决低资源语言中的语音识别和翻译问题。
➡️ 方法简介:研究团队构建了一个名为Noakhali Dialect Dataset (NDD)的数据集,包含10小时的Noakhali方言语音数据。数据集经过预处理,包括降噪和分割成5秒的语音片段,以适应模型的输入要求。研究使用了Whisper ASR模型进行方言语音到文本的转换,并使用BanglaT5模型进行方言文本到标准孟加拉语文本的翻译。最后,通过AlignTTS模型将标准文本转换为语音,完成端到端的管道。
➡️ 实验设计:实验包括了数据集的构建、模型的微调和性能评估。具体步骤如下:
- 数据收集与预处理:从YouTube视频、Facebook群组和Noakhali地区的居民访谈中收集方言语音数据,进行降噪和分割处理。
- 模型微调:使用Whisper ASR模型进行方言语音到文本的转换,使用BanglaT5模型进行方言文本到标准文本的翻译。
- 性能评估 :评估模型在方言语音识别和翻译任务中的性能,包括字符错误率(CER)、词错误率(WER)和BLEU分数。
➡️ 实验结果:实验结果显示,Whisper ASR模型在方言语音识别任务中达到了0.8%的CER和1.5%的WER,BanglaT5模型在方言文本到标准文本的翻译任务中达到了41.6%的BLEU分数。这些结果表明,所提出的端到端管道在处理孟加拉方言语音数据方面具有较高的准确性和可靠性。
Learn from Downstream and Be Yourself in Multimodal Large Language Model Fine-Tuning
➡️ 论文标题:Learn from Downstream and Be Yourself in Multimodal Large Language Model Fine-Tuning
➡️ 论文作者:Wenke Huang, Jian Liang, Zekun Shi, Didi Zhu, Guancheng Wan, He Li, Bo Du, Dacheng Tao, Mang Ye
➡️ 研究机构: 武汉大学、浙江大学、南洋理工大学
➡️ 问题背景:多模态大语言模型(MLLM)在各种视觉理解任务中表现出强大的泛化能力,这主要归功于大规模的预训练数据集。然而,MLLM在特定下游任务上的表现通常较差,因为小规模的微调数据集无法覆盖预训练数据集的分布和任务范围,导致模型在微调过程中可能出现灾难性遗忘,即忘记预训练阶段学到的知识。
➡️ 研究动机:现有的微调方法通常冻结视觉编码器,仅对连接层和大语言模型(LLM)部分进行微调,以增强特定任务的性能。然而,这种方法可能导致模型失去泛化能力。因此,研究团队提出了一种新的方法,旨在通过评估参数的重要性来平衡泛化能力和任务特定能力,从而缓解灾难性遗忘问题。
➡️ 方法简介:研究团队提出了一种名为SPIDER的方法,通过测量预训练和微调分布中的参数重要性,选择性地更新对下游任务重要的参数,同时保留对泛化能力重要的参数。具体来说,SPIDER利用预训练权重的大小和微调过程中的梯度来评估参数的重要性,并通过重要性选择掩码(ISM)来选择性地更新参数。
➡️ 实验设计:研究团队在两个主流的MLLM架构(VILA和LLaVA)上进行了实验,评估了图像描述和视觉问答任务的性能。实验包括四个下游数据集:Flickr30k、COCO-Capation、IconQA和ScienceQA。实验结果表明,SPIDER在提高微调性能和缓解泛化遗忘方面具有显著效果。