论文笔记

c7695 天前
人工智能·笔记·语言模型·自然语言处理·llm·论文笔记·cvrp
【文献笔记】ARS: Automatic Routing Solver with Large Language ModelsARS: Automatic Routing Solver with Large Language Models https://github.com/Ahalikai/ARS-Routbench/
c7696 天前
人工智能·笔记·数学建模·语言模型·自然语言处理·llm·论文笔记
【文献笔记】From words to routes: Applying large language models to vehicle routingFrom words to routes: Applying large language models to vehicle routing https://sites.google.com/view/words-to-routes/
Jamence13 天前
论文阅读·人工智能·语言模型·自然语言处理·论文笔记
多模态大语言模型arxiv论文略读(157)➡️ 论文标题:Automatic Evaluation for Text-to-image Generation: Task-decomposed Framework, Distilled Training, and Meta-evaluation Benchmark ➡️ 论文作者:Rong-Cheng Tu, Zi-Ao Ma, Tian Lan, Yuehao Zhao, Heyan Huang, Xian-Ling Mao ➡️ 研究机构: 北京理工大学计算机科学技术学院 (School of
Jamence17 天前
论文阅读·人工智能·语言模型·自然语言处理·论文笔记
多模态大语言模型arxiv论文略读(153)➡️ 论文标题:AtomThink: A Slow Thinking Framework for Multimodal Mathematical Reasoning ➡️ 论文作者:Kun Xiang, Zhili Liu, Zihao Jiang, Yunshuang Nie, Runhui Huang, Haoxiang Fan, Hanhui Li, Weiran Huang, Yihan Zeng, Jianhua Han, Lanqing Hong, Hang Xu, Xiaodan Liang
Jamence18 天前
论文阅读·人工智能·计算机视觉·语言模型·论文笔记
多模态大语言模型arxiv论文略读(155)➡️ 论文标题:Panther: Illuminate the Sight of Multimodal LLMs with Instruction-Guided Visual Prompts ➡️ 论文作者:Honglin Li, Yuting Gao, Chenglu Zhu, Jingdong Chen, Ming Yang, Lin Yang ➡️ 研究机构: Zhejiang University、Westlake University、Ant Group ➡️ 问题背景:多模态大语言模型(MLL
Jamence18 天前
论文阅读·人工智能·语言模型·自然语言处理·论文笔记
多模态大语言模型arxiv论文略读(156)➡️ 论文标题:De-biased Multimodal Electrocardiogram Analysis ➡️ 论文作者:Haitao Li, Ziyu Li, Yiheng Mao, Ziyi Liu, Zhoujian Sun, Zhengxing Huang ➡️ 研究机构: 浙江大学、Transtek Medical Electronics Co., Ltd、浙江实验室 ➡️ 问题背景:多模态大语言模型(Multimodal Large Language Models, MLLMs)在医疗领
Jamence18 天前
论文阅读·人工智能·语言模型·自然语言处理·论文笔记
多模态大语言模型arxiv论文略读(151)➡️ 论文标题:A Novel MLLM-based Approach for Autonomous Driving in Different Weather Conditions ➡️ 论文作者:Sonda Fourati, Wael Jaafar, Noura Baccar ➡️ 研究机构: Mediterranean Institute of Technology (MedTech), Ecole de Technologie Supérieure (ETS) ➡️ 问题背景:自动驾驶技术(AD)有
c76924 天前
人工智能·笔记·语言模型·论文笔记
【文献笔记】Automatic Chain of Thought Prompting in Large Language ModelsAutomatic Chain of Thought Prompting in Large Language Models 原文代码:https://github.com/amazon-research/auto-cot
厨 神1 个月前
论文笔记
阿里云ACP认证-实时数据仓库Kappa架构:将实时和离线代码统一(优化lambda架构),但是不好修正数据,开发周期长,成本浪费,对于历史数据的高吞吐量力不从心 原一代数据仓库:
Jamence1 个月前
论文阅读·人工智能·深度学习·语言模型·论文笔记
多模态大语言模型arxiv论文略读(130)➡️ 论文标题:EMMA: Efficient Visual Alignment in Multi-Modal LLMs ➡️ 论文作者:Sara Ghazanfari, Alexandre Araujo, Prashanth Krishnamurthy, Siddharth Garg, Farshad Khorrami ➡️ 研究机构: New York University ➡️ 问题背景:多模态大型语言模型(MLLMs)通过结合视觉基础模型和语言模型,展示了在多种任务中的强大能力。然而,当前的多模态
Jamence1 个月前
论文阅读·人工智能·语言模型·自然语言处理·论文笔记
多模态大语言模型arxiv论文略读(131)➡️ 论文标题:MLLM as Retriever: Interactively Learning Multimodal Retrieval for Embodied Agents ➡️ 论文作者:Junpeng Yue, Xinru Xu, Börje F. Karlsson, Zongqing Lu ➡️ 研究机构: 北京大学、中国科学院软件研究所、北京人工智能研究院 ➡️ 问题背景:多模态大型语言模型(MLLMs)在处理复杂具身任务时展现出潜力,通过检索多模态任务相关轨迹数据来完成任务。然而,当前的
Jamence1 个月前
论文阅读·人工智能·语言模型·自然语言处理·论文笔记
多模态大语言模型arxiv论文略读(125)➡️ 论文标题:Uni-Med: A Unified Medical Generalist Foundation Model For Multi-Task Learning Via Connector-MoE ➡️ 论文作者:Xun Zhu, Ying Hu, Fanbin Mo, Miao Li, Ji Wu ➡️ 研究机构: 清华大学电子工程系、北京邮电大学人工智能学院、清华大学人工智能学院 ➡️ 问题背景:多模态大语言模型(MLLMs)在多种视觉和语言任务中展现了卓越的能力。然而,在医疗领域构建统一
Jamence1 个月前
论文阅读·人工智能·深度学习·语言模型·论文笔记
多模态大语言模型arxiv论文略读(123)➡️ 论文标题:Enhancing Advanced Visual Reasoning Ability of Large Language Models ➡️ 论文作者:Zhiyuan Li, Dongnan Liu, Chaoyi Zhang, Heng Wang, Tengfei Xue, Weidong Cai ➡️ 研究机构: The University of Sydney ➡️ 问题背景:当前的视觉-语言模型(Vision-Language Models, VLMs)在视觉感知任务中表现出色,
LuH11241 个月前
论文阅读·笔记·论文笔记
【论文阅读笔记】ICLR 2025 | 解析Ref-Gaussian如何实现高质量可交互反射渲染会议 【ICLR 2025】作者 复旦大学,萨里大学;复旦·张力教授团队Github地址 https://github.com/fudan-zvg/ref-gaussian.git
Jamence1 个月前
论文阅读·人工智能·语言模型·自然语言处理·论文笔记
多模态大语言模型arxiv论文略读(118)➡️ 论文标题:VoiceWukong: Benchmarking Deepfake Voice Detection ➡️ 论文作者:Ziwei Yan, Yanjie Zhao, Haoyu Wang ➡️ 研究机构: 华中科技大学 ➡️ 问题背景:随着文本转语音(TTS)和语音转换(VC)技术的快速发展,检测深度伪造语音(Deepfake Voice)变得越来越重要。然而,学术界和工业界缺乏一个全面且直观的基准来评估检测器。现有的数据集在语言多样性方面有限,且缺乏在实际生产环境中遇到的多种操作。 ➡️
Jamence2 个月前
论文阅读·人工智能·语言模型·自然语言处理·论文笔记
多模态大语言模型arxiv论文略读(119)➡️ 论文标题:ODE: Open-Set Evaluation of Hallucinations in Multimodal Large Language Models ➡️ 论文作者:Yahan Tu, Rui Hu, Jitao Sang ➡️ 研究机构: 北京交通大学 (Beijing Jiaotong University) ➡️ 问题背景:多模态大语言模型(Multimodal Large Language Models, MLLMs)在图像描述和视觉问答等任务中取得了显著进展,但这些模型面
Jamence2 个月前
论文阅读·人工智能·语言模型·自然语言处理·论文笔记
多模态大语言模型arxiv论文略读(113)➡️ 论文标题:Grounded Multi-Hop VideoQA in Long-Form Egocentric Videos ➡️ 论文作者:Qirui Chen, Shangzhe Di, Weidi Xie ➡️ 研究机构: Shanghai Jiao Tong University ➡️ 问题背景:当前的视频问答(VideoQA)系统在处理长形式的自拍视频时,面临多跳推理和时间定位的挑战。这些系统通常只能基于单一时间点的视觉线索回答问题,而无法处理需要跨多个时间间隔的信息整合和推理的任务。此外
学术交流2 个月前
论文阅读·无人机·论文笔记·航天技术
【投稿优惠】2025年航天技术 、雷达信号与无人机应用国际会议 (ATRA 2025)2025年航天技术、雷达信号与无人机应用国际会议(ATRA 2025)即将在福州拉开帷幕。本次大会将吸引来自世界各地的航天工程师、雷达技术专家、无人机开发者以及相关领域的学者和研究人员齐聚一堂,共同探讨航天技术、雷达信号处理及无人机应用的最新进展。
学术交流2 个月前
论文阅读·能源·论文笔记
2025年能源电力系统与流体力学国际会议 (EPSFD 2025)2025年能源电力系统与流体力学国际会议(EPSFD 2025)将于本年度在美丽的杭州盛大召开。作为全球能源、电力系统以及流体力学领域的顶级盛会,EPSFD 2025旨在为来自世界各地的科学家、工程师和研究人员提供一个展示最新研究成果、分享实践经验及探索未来发展方向的重要平台。
Jamence2 个月前
论文阅读·人工智能·语言模型·自然语言处理·论文笔记
多模态大语言模型arxiv论文略读(111)➡️ 论文标题:SEA: Supervised Embedding Alignment for Token-Level Visual-Textual Integration in MLLMs ➡️ 论文作者:Yuanyang Yin, Yaqi Zhao, Yajie Zhang, Ke Lin, Jiahao Wang, Xin Tao, Pengfei Wan, Di Zhang, Baoqun Yin, Wentao Zhang ➡️ 研究机构: 中国科学技术大学、北京大学、快手科技 ➡️ 问题背景