论文笔记

Jamence1 小时前
论文阅读·人工智能·深度学习·语言模型·论文笔记
多模态大语言模型arxiv论文略读(123)➡️ 论文标题:Enhancing Advanced Visual Reasoning Ability of Large Language Models ➡️ 论文作者:Zhiyuan Li, Dongnan Liu, Chaoyi Zhang, Heng Wang, Tengfei Xue, Weidong Cai ➡️ 研究机构: The University of Sydney ➡️ 问题背景:当前的视觉-语言模型(Vision-Language Models, VLMs)在视觉感知任务中表现出色,
LuH11244 天前
论文阅读·笔记·论文笔记
【论文阅读笔记】ICLR 2025 | 解析Ref-Gaussian如何实现高质量可交互反射渲染会议 【ICLR 2025】作者 复旦大学,萨里大学;复旦·张力教授团队Github地址 https://github.com/fudan-zvg/ref-gaussian.git
Jamence4 天前
论文阅读·人工智能·语言模型·自然语言处理·论文笔记
多模态大语言模型arxiv论文略读(118)➡️ 论文标题:VoiceWukong: Benchmarking Deepfake Voice Detection ➡️ 论文作者:Ziwei Yan, Yanjie Zhao, Haoyu Wang ➡️ 研究机构: 华中科技大学 ➡️ 问题背景:随着文本转语音(TTS)和语音转换(VC)技术的快速发展,检测深度伪造语音(Deepfake Voice)变得越来越重要。然而,学术界和工业界缺乏一个全面且直观的基准来评估检测器。现有的数据集在语言多样性方面有限,且缺乏在实际生产环境中遇到的多种操作。 ➡️
Jamence5 天前
论文阅读·人工智能·语言模型·自然语言处理·论文笔记
多模态大语言模型arxiv论文略读(119)➡️ 论文标题:ODE: Open-Set Evaluation of Hallucinations in Multimodal Large Language Models ➡️ 论文作者:Yahan Tu, Rui Hu, Jitao Sang ➡️ 研究机构: 北京交通大学 (Beijing Jiaotong University) ➡️ 问题背景:多模态大语言模型(Multimodal Large Language Models, MLLMs)在图像描述和视觉问答等任务中取得了显著进展,但这些模型面
Jamence7 天前
论文阅读·人工智能·语言模型·自然语言处理·论文笔记
多模态大语言模型arxiv论文略读(113)➡️ 论文标题:Grounded Multi-Hop VideoQA in Long-Form Egocentric Videos ➡️ 论文作者:Qirui Chen, Shangzhe Di, Weidi Xie ➡️ 研究机构: Shanghai Jiao Tong University ➡️ 问题背景:当前的视频问答(VideoQA)系统在处理长形式的自拍视频时,面临多跳推理和时间定位的挑战。这些系统通常只能基于单一时间点的视觉线索回答问题,而无法处理需要跨多个时间间隔的信息整合和推理的任务。此外
学术交流8 天前
论文阅读·无人机·论文笔记·航天技术
【投稿优惠】2025年航天技术 、雷达信号与无人机应用国际会议 (ATRA 2025)2025年航天技术、雷达信号与无人机应用国际会议(ATRA 2025)即将在福州拉开帷幕。本次大会将吸引来自世界各地的航天工程师、雷达技术专家、无人机开发者以及相关领域的学者和研究人员齐聚一堂,共同探讨航天技术、雷达信号处理及无人机应用的最新进展。
学术交流8 天前
论文阅读·能源·论文笔记
2025年能源电力系统与流体力学国际会议 (EPSFD 2025)2025年能源电力系统与流体力学国际会议(EPSFD 2025)将于本年度在美丽的杭州盛大召开。作为全球能源、电力系统以及流体力学领域的顶级盛会,EPSFD 2025旨在为来自世界各地的科学家、工程师和研究人员提供一个展示最新研究成果、分享实践经验及探索未来发展方向的重要平台。
Jamence10 天前
论文阅读·人工智能·语言模型·自然语言处理·论文笔记
多模态大语言模型arxiv论文略读(111)➡️ 论文标题:SEA: Supervised Embedding Alignment for Token-Level Visual-Textual Integration in MLLMs ➡️ 论文作者:Yuanyang Yin, Yaqi Zhao, Yajie Zhang, Ke Lin, Jiahao Wang, Xin Tao, Pengfei Wan, Di Zhang, Baoqun Yin, Wentao Zhang ➡️ 研究机构: 中国科学技术大学、北京大学、快手科技 ➡️ 问题背景
Jamence10 天前
论文阅读·人工智能·语言模型·自然语言处理·论文笔记
多模态大语言模型arxiv论文略读(110)➡️ 论文标题:CoVLA: Comprehensive Vision-Language-Action Dataset for Autonomous Driving ➡️ 论文作者:Hidehisa Arai, Keita Miwa, Kento Sasaki, Yu Yamaguchi, Kohei Watanabe, Shunsuke Aoki, Issei Yamamoto ➡️ 研究机构: Turing Inc. ➡️ 问题背景:自动驾驶技术面临的主要挑战之一是处理复杂和不可预测的驾驶环境,特别是
迪娜学姐10 天前
论文阅读·人工智能·prompt·powerpoint·论文笔记
GenSpark vs Manus实测对比:文献综述与学术PPT,哪家强?GenSpark和Manus这两款智能体AI产品,无论是团队基因还是产品功能,都有很多相似性。下面这张图娜姐详细对比了两者的异同:
Jamence12 天前
论文阅读·人工智能·语言模型·自然语言处理·论文笔记
多模态大语言模型arxiv论文略读(108)➡️ 论文标题:CROME: Cross-Modal Adapters for Efficient Multimodal LLM ➡️ 论文作者:Sayna Ebrahimi, Sercan O. Arik, Tejas Nama, Tomas Pfister ➡️ 研究机构: Google Cloud AI Research ➡️ 问题背景:多模态大语言模型(Multimodal Large Language Models, MLLMs)在图像-语言任务中表现出色,但其广泛应用面临成本效益的训练和适应挑
Jamence12 天前
论文阅读·人工智能·语言模型·自然语言处理·论文笔记
多模态大语言模型arxiv论文略读(106)➡️ 论文标题:Optimus-1: Hybrid Multimodal Memory Empowered Agents Excel in Long-Horizon Tasks ➡️ 论文作者:Zaijing Li, Yuquan Xie, Rui Shao, Gongwei Chen, Dongmei Jiang, Liqiang Nie ➡️ 研究机构: Harbin Institute of Technology, Shenzhen、Peng Cheng Laboratory ➡️ 问题背景:当前的
Jamence12 天前
论文阅读·人工智能·语言模型·自然语言处理·论文笔记
多模态大语言模型arxiv论文略读(109)➡️ 论文标题:Math-PUMA: Progressive Upward Multimodal Alignment to Enhance Mathematical Reasoning ➡️ 论文作者:Wenwen Zhuang, Xin Huang, Xiantao Zhang, Jin Zeng ➡️ 研究机构: University of Chinese Academy of Sciences、Beijing Institute of Technology、Beihang University ➡️
真难学啊12 天前
论文笔记
在word中点击zotero Add/Edit Citation没有反应的解决办法重新安装了word插件1.关掉word2.进入Zotero左上角编辑-引用3.往下滑找到Microsoft Word,点重新安装加载项
学术交流13 天前
论文阅读·论文笔记·媒体·经济管理
2025年计算机科学与网络安全国际会议(CSNS 2025)第二届计算机科学与网络安全国际会议(CSNS 2025)将在兰州举办,这是一场聚焦于计算机科学领域最新进展及网络安全前沿技术的国际性学术交流盛会。该会议旨在为来自全球各地的研究学者、工程师以及相关行业专业人士提供一个高水平的交流平台,共同探讨计算机科学理论、应用技术以及网络安全方面的新发现、新理念和新趋势。
Jamence13 天前
论文阅读·人工智能·语言模型·自然语言处理·论文笔记
多模态大语言模型arxiv论文略读(105)➡️ 论文标题:UnifiedMLLM: Enabling Unified Representation for Multi-modal Multi-tasks With Large Language Model ➡️ 论文作者:Zhaowei Li, Wei Wang, YiQing Cai, Xu Qi, Pengyu Wang, Dong Zhang, Hang Song, Botian Jiang, Zhida Huang, Tao Wang ➡️ 研究机构: ByteDance Inc, Fud
aloha_78914 天前
图像处理·pdf·论文笔记
论文中pdf图片文件太大怎么办该方法在保证清晰度的同时,内存空间也能实现减少(如果使用线上的压缩pdf工具,清晰度会直线下降)点击文件—>打印 导出为wps pdf,并点击打印
学术-张老师15 天前
大数据·论文阅读·人工智能·智慧城市·论文笔记
PABD 2025:大数据与智慧城市管理的融合之道2025年公共管理与大数据国际会议(ICPMBD 2025)确实在海口举办。本次会议将围绕公共管理与大数据的深度融合、数据分析在公共管理中的应用、大数据驱动的政策制定与优化等议题展开深入研讨。参会者将有机会聆听前沿学术报告,分享研究成果,并促进跨领域、跨国界的交流与合作。
Chasing Aurora15 天前
论文阅读·word·sci·论文笔记
Word双栏英文论文排版攻略等我下学期有时间了,一定要学习Latex啊,word写英文论文,不论是排版还是公式都很麻烦的,而Latex一键就可以搞定呐!!!
Jamence16 天前
论文阅读·人工智能·语言模型·自然语言处理·论文笔记
多模态大语言模型arxiv论文略读(103)➡️ 论文标题:Are Bigger Encoders Always Better in Vision Large Models? ➡️ 论文作者:Bozhou Li, Hao Liang, Zimo Meng, Wentao Zhang ➡️ 研究机构: 北京大学 ➡️ 问题背景:近年来,多模态大语言模型(Multimodal Large Language Models, MLLMs)在现实世界应用中展现出强大的潜力。这些模型因其卓越的多模态信息理解能力和强大的认知推理能力而迅速发展。在MLLMs中,视