论文笔记

CVPR优秀论文 | DashGaussian：在200秒内优化三维高斯点绘制本文选自gongzhonghao【图灵学术SCI论文辅导】关注我们，掌握更多顶会顶刊发文资讯论文标题：DashGaussian: Optimizing 3D Gaussian Splatting in 200 Seconds

AR-Align-NN-2024基于注意力重排序策略的无监督多视角对比学习实体对齐框架 AR-Align-NN-2024实体对齐是知识图谱中的关键任务，旨在匹配不同知识图谱中的对应实体。由于现实场景中预对齐实体的稀缺性，无监督实体对齐研究日益受到关注。然而现有方法缺乏信息性实体引导，难以准确预测名称和结构相似的挑战性实体。为此，我们提出AR-Align框架——一种融合注意力重排序策略的无监督多视角对比学习方法。该框架采用两种数据增强技术分别生成邻域和属性的互补视图，通过多视角对比学习缩小增强实体间的语义鸿沟，并创新性地通过计算不同结构上

【文献笔记】ARS: Automatic Routing Solver with Large Language ModelsARS: Automatic Routing Solver with Large Language Models https://github.com/Ahalikai/ARS-Routbench/

【文献笔记】From words to routes: Applying large language models to vehicle routingFrom words to routes: Applying large language models to vehicle routing https://sites.google.com/view/words-to-routes/

多模态大语言模型arxiv论文略读（157）➡️ 论文标题：Automatic Evaluation for Text-to-image Generation: Task-decomposed Framework, Distilled Training, and Meta-evaluation Benchmark ➡️ 论文作者：Rong-Cheng Tu, Zi-Ao Ma, Tian Lan, Yuehao Zhao, Heyan Huang, Xian-Ling Mao ➡️ 研究机构: 北京理工大学计算机科学技术学院 (School of

多模态大语言模型arxiv论文略读（153）➡️ 论文标题：AtomThink: A Slow Thinking Framework for Multimodal Mathematical Reasoning ➡️ 论文作者：Kun Xiang, Zhili Liu, Zihao Jiang, Yunshuang Nie, Runhui Huang, Haoxiang Fan, Hanhui Li, Weiran Huang, Yihan Zeng, Jianhua Han, Lanqing Hong, Hang Xu, Xiaodan Liang

多模态大语言模型arxiv论文略读（155）➡️ 论文标题：Panther: Illuminate the Sight of Multimodal LLMs with Instruction-Guided Visual Prompts ➡️ 论文作者：Honglin Li, Yuting Gao, Chenglu Zhu, Jingdong Chen, Ming Yang, Lin Yang ➡️ 研究机构: Zhejiang University、Westlake University、Ant Group ➡️ 问题背景：多模态大语言模型（MLL

多模态大语言模型arxiv论文略读（156）➡️ 论文标题：De-biased Multimodal Electrocardiogram Analysis ➡️ 论文作者：Haitao Li, Ziyu Li, Yiheng Mao, Ziyi Liu, Zhoujian Sun, Zhengxing Huang ➡️ 研究机构: 浙江大学、Transtek Medical Electronics Co., Ltd、浙江实验室 ➡️ 问题背景：多模态大语言模型（Multimodal Large Language Models, MLLMs）在医疗领

多模态大语言模型arxiv论文略读（151）➡️ 论文标题：A Novel MLLM-based Approach for Autonomous Driving in Different Weather Conditions ➡️ 论文作者：Sonda Fourati, Wael Jaafar, Noura Baccar ➡️ 研究机构: Mediterranean Institute of Technology (MedTech), Ecole de Technologie Supérieure (ETS) ➡️ 问题背景：自动驾驶技术（AD）有

【文献笔记】Automatic Chain of Thought Prompting in Large Language ModelsAutomatic Chain of Thought Prompting in Large Language Models 原文代码：https://github.com/amazon-research/auto-cot

阿里云ACP认证-实时数据仓库Kappa架构：将实时和离线代码统一（优化lambda架构），但是不好修正数据，开发周期长，成本浪费，对于历史数据的高吞吐量力不从心原一代数据仓库：

多模态大语言模型arxiv论文略读（130）➡️ 论文标题：EMMA: Efficient Visual Alignment in Multi-Modal LLMs ➡️ 论文作者：Sara Ghazanfari, Alexandre Araujo, Prashanth Krishnamurthy, Siddharth Garg, Farshad Khorrami ➡️ 研究机构: New York University ➡️ 问题背景：多模态大型语言模型（MLLMs）通过结合视觉基础模型和语言模型，展示了在多种任务中的强大能力。然而，当前的多模态

多模态大语言模型arxiv论文略读（131）➡️ 论文标题：MLLM as Retriever: Interactively Learning Multimodal Retrieval for Embodied Agents ➡️ 论文作者：Junpeng Yue, Xinru Xu, Börje F. Karlsson, Zongqing Lu ➡️ 研究机构: 北京大学、中国科学院软件研究所、北京人工智能研究院 ➡️ 问题背景：多模态大型语言模型（MLLMs）在处理复杂具身任务时展现出潜力，通过检索多模态任务相关轨迹数据来完成任务。然而，当前的

多模态大语言模型arxiv论文略读（125）➡️ 论文标题：Uni-Med: A Unified Medical Generalist Foundation Model For Multi-Task Learning Via Connector-MoE ➡️ 论文作者：Xun Zhu, Ying Hu, Fanbin Mo, Miao Li, Ji Wu ➡️ 研究机构: 清华大学电子工程系、北京邮电大学人工智能学院、清华大学人工智能学院 ➡️ 问题背景：多模态大语言模型（MLLMs）在多种视觉和语言任务中展现了卓越的能力。然而，在医疗领域构建统一

多模态大语言模型arxiv论文略读（123）➡️ 论文标题：Enhancing Advanced Visual Reasoning Ability of Large Language Models ➡️ 论文作者：Zhiyuan Li, Dongnan Liu, Chaoyi Zhang, Heng Wang, Tengfei Xue, Weidong Cai ➡️ 研究机构: The University of Sydney ➡️ 问题背景：当前的视觉-语言模型（Vision-Language Models, VLMs）在视觉感知任务中表现出色，

【论文阅读笔记】ICLR 2025 | 解析Ref-Gaussian如何实现高质量可交互反射渲染会议【ICLR 2025】作者复旦大学，萨里大学；复旦·张力教授团队Github地址 https://github.com/fudan-zvg/ref-gaussian.git

多模态大语言模型arxiv论文略读（118）➡️ 论文标题：VoiceWukong: Benchmarking Deepfake Voice Detection ➡️ 论文作者：Ziwei Yan, Yanjie Zhao, Haoyu Wang ➡️ 研究机构: 华中科技大学 ➡️ 问题背景：随着文本转语音（TTS）和语音转换（VC）技术的快速发展，检测深度伪造语音（Deepfake Voice）变得越来越重要。然而，学术界和工业界缺乏一个全面且直观的基准来评估检测器。现有的数据集在语言多样性方面有限，且缺乏在实际生产环境中遇到的多种操作。 ➡️

多模态大语言模型arxiv论文略读（119）➡️ 论文标题：ODE: Open-Set Evaluation of Hallucinations in Multimodal Large Language Models ➡️ 论文作者：Yahan Tu, Rui Hu, Jitao Sang ➡️ 研究机构: 北京交通大学 (Beijing Jiaotong University) ➡️ 问题背景：多模态大语言模型（Multimodal Large Language Models, MLLMs）在图像描述和视觉问答等任务中取得了显著进展，但这些模型面

多模态大语言模型arxiv论文略读（113）➡️ 论文标题：Grounded Multi-Hop VideoQA in Long-Form Egocentric Videos ➡️ 论文作者：Qirui Chen, Shangzhe Di, Weidi Xie ➡️ 研究机构: Shanghai Jiao Tong University ➡️ 问题背景：当前的视频问答（VideoQA）系统在处理长形式的自拍视频时，面临多跳推理和时间定位的挑战。这些系统通常只能基于单一时间点的视觉线索回答问题，而无法处理需要跨多个时间间隔的信息整合和推理的任务。此外

【投稿优惠】2025年航天技术、雷达信号与无人机应用国际会议 (ATRA 2025)2025年航天技术、雷达信号与无人机应用国际会议（ATRA 2025）即将在福州拉开帷幕。本次大会将吸引来自世界各地的航天工程师、雷达技术专家、无人机开发者以及相关领域的学者和研究人员齐聚一堂，共同探讨航天技术、雷达信号处理及无人机应用的最新进展。