论文阅读

张较瘦_4 小时前
论文阅读·人工智能·软件工程
[论文阅读] 人工智能 + 软件工程 | AI助力软件可解释性:从用户评论到自动生成需求与解释arXiv:2507.07344 Automatic Generation of Explainability Requirements and Software Explanations From User Reviews Martin Obaidi, Jannik Fischbach, Jakob Droste, Hannah Deters, Marc Herrmann, Jil Klünder, Steffen Krätzig, Hugo Villamizar, Kurt Schneider Com
张较瘦_19 小时前
论文阅读·人工智能·软件工程
[论文阅读] 人工智能 + 软件工程 | LLM辅助软件开发:需求如何转化为代码?arXiv:2507.07548 From Requirements to Code: Understanding Developer Practices in LLM-Assisted Software Engineering Jonathan Ullrich, Matthias Koch, Andreas Vogelsang Comments: This paper has been accepted for publication at the 33rd IEEE International Req
0x21120 小时前
论文阅读
[论文阅读]Text Compression for Efficient Language GenerationText Compression for Efficient Language Generation[2503.11426] Text Compression for Efficient Language Generation
Jamence1 天前
论文阅读·人工智能·语言模型·自然语言处理·论文笔记
多模态大语言模型arxiv论文略读(153)➡️ 论文标题:AtomThink: A Slow Thinking Framework for Multimodal Mathematical Reasoning ➡️ 论文作者:Kun Xiang, Zhili Liu, Zihao Jiang, Yunshuang Nie, Runhui Huang, Haoxiang Fan, Hanhui Li, Weiran Huang, Yihan Zeng, Jianhua Han, Lanqing Hong, Hang Xu, Xiaodan Liang
莫彩1 天前
论文阅读·人工智能·语言模型
【大模型推理论文阅读】Enhancing Latent Computation in Transformerswith Latent Tokens一篇来自阿里的文章将大型语言模型(LLMs)与辅助标记相结合,已成为提升模型性能的一种颇具前景的策略。在本研究中,我们提出了一种轻量级方法——“潜在标记”(latent tokens)。这些虚拟标记在自然语言中可能不具备可解释性,但可通过注意力机制引导基于Transformer的LLM自回归解码过程。 所提出的潜在标记可与预训练Transformer无缝集成,以参数高效的方式训练,并在推理阶段灵活应用,同时几乎不会为标准Transformer的现有架构增加复杂度开销。我们针对潜在标记的底层机制提出若干假设
崔高杰1 天前
论文阅读·人工智能·笔记·语言模型
微调性能赶不上提示工程怎么办?Can Gradient Descent Simulate Prompting?——论文阅读笔记今天速读一篇文章 Can Gradient Descent Simulate Prompting?针对【新知识应用的场景里,FT效果往往追不上ICL】这个情况,作者引入MAML的思想↓ 内圈让模型学习新知识形成知识FT模型; 外圈通过最小化ICL和知识FT模型的KL散度,来引导模型逼近ICL的效果。
张较瘦_1 天前
论文阅读·人工智能
[论文阅读] 人工智能 | 5C提示词框架的研究arXiv:2507.07045 5C Prompt Contracts: A Minimalist, Creative-Friendly, Token-Efficient Design Framework for Individual and SME LLM Usage Ugur Ari Comments: 5 pages, 5 tables. Includes comparative experimental results across OpenAI, Anthropic, DeepSeek, an
Jamence2 天前
论文阅读·人工智能·计算机视觉·语言模型·论文笔记
多模态大语言模型arxiv论文略读(155)➡️ 论文标题:Panther: Illuminate the Sight of Multimodal LLMs with Instruction-Guided Visual Prompts ➡️ 论文作者:Honglin Li, Yuting Gao, Chenglu Zhu, Jingdong Chen, Ming Yang, Lin Yang ➡️ 研究机构: Zhejiang University、Westlake University、Ant Group ➡️ 问题背景:多模态大语言模型(MLL
Jamence2 天前
论文阅读·人工智能·语言模型·自然语言处理·论文笔记
多模态大语言模型arxiv论文略读(156)➡️ 论文标题:De-biased Multimodal Electrocardiogram Analysis ➡️ 论文作者:Haitao Li, Ziyu Li, Yiheng Mao, Ziyi Liu, Zhoujian Sun, Zhengxing Huang ➡️ 研究机构: 浙江大学、Transtek Medical Electronics Co., Ltd、浙江实验室 ➡️ 问题背景:多模态大语言模型(Multimodal Large Language Models, MLLMs)在医疗领
quintus05052 天前
论文阅读·语言模型
【论文阅读】ARM: Adaptive Reasoning ModelARM: Adaptive Reasoning Model 这篇文章介绍了自适应推理模型(Adaptive Reasoning Model, ARM),该模型能够根据任务难度自适应地选择推理格式,从而在保持性能的同时提高计算效率。ARM支持四种推理格式:三种高效的格式——直接回答(Direct Answer)、短链思考(Short CoT)和代码(Code),以及一种详细的格式——长链思考(Long CoT)
不是吧这都有重名3 天前
论文阅读
[论文阅读]VGGFace2: A dataset for recognising faces across pose and age在本文中,我们提出了一个新的大规模的脸部数据集,叫做VGGFace2。该数据集包含9131个个体的331万张图片,平均每个个体有362.6张图像。图像是从谷歌图像搜索上下载的,在姿势,年龄,光照,种族和职业(例如,演员,运动员,政客)方面非常多样。 数据集的收集有三个目标:(i)在有大量的个体的同时每个个体也要有大量的图像;(ii)涵盖大范围的姿态,年龄和种族(iii)最小化标签噪声。我们阐述了数据集是如何收集的,特别是为了确保个体对应图像的高准确率而进行的自动和手动的过滤步骤。 为了评估使用这个新的数据
Jamence3 天前
论文阅读·人工智能·语言模型·自然语言处理·论文笔记
多模态大语言模型arxiv论文略读(151)➡️ 论文标题:A Novel MLLM-based Approach for Autonomous Driving in Different Weather Conditions ➡️ 论文作者:Sonda Fourati, Wael Jaafar, Noura Baccar ➡️ 研究机构: Mediterranean Institute of Technology (MedTech), Ecole de Technologie Supérieure (ETS) ➡️ 问题背景:自动驾驶技术(AD)有
m0_743106463 天前
论文阅读·计算机视觉·3d·aigc·几何学
【论文笔记】BlockGaussian:巧妙解决大规模场景重建中的伪影问题论文地址:https://arxiv.org/pdf/2504.09048大规模场景的重建方法不仅仅对于高空航拍数据有效,而且对于地面大中场景也有增强效果,故专门来学习一下这一方向的知识。感谢作者大佬们的great work。
张较瘦_3 天前
论文阅读·软件工程
[论文阅读] 软件工程 | 自适应CPS中的人机协作与伦理arXiv:2507.02578 Human-Machine Collaboration and Ethical Considerations in Adaptive Cyber-Physical Systems Zoe Pfister Comments: Copyright 2025 IEEE. Accepted for publication in: 2025 IEEE 33nd International Requirements Engineering Conference (RE), Docto
张较瘦_3 天前
论文阅读·开源·软件工程
[论文阅读] 软件工程 | 一篇关于开源许可证管理的深度综述arXiv:2507.05270 Open Source, Hidden Costs: A Systematic Literature Review on OSS License Management Boyuan Li, Chengwei Liu, Lingling Fan, Sen Chen, Zhenlin Zhang, Zheli Liu Subjects: Software Engineering (cs.SE)
Booksort3 天前
论文阅读
【论文笔记】MBB-MOGWO: Modified Boltzmann-Based Multi-Objective Grey Wolf Optimizer背景:多目标优化问题(MOP)广泛应用于经济、工程、物联网(IoT)等领域,需在冲突目标间寻找权衡(Pareto 最优集)。传统单目标优化仅关注单一目标,而 MOP 需同时优化多个冲突目标。
张较瘦_4 天前
论文阅读·人工智能
[论文阅读] 人工智能 | 读懂Meta-Fair:让LLM摆脱偏见的自动化测试新方法arXiv:2507.02533 Meta-Fair: AI-Assisted Fairness Testing of Large Language Models Miguel Romero-Arjona, José A. Parejo, Juan C. Alonso, Ana B. Sánchez, Aitor Arrieta, Sergio Segura Subjects: Software Engineering (cs.SE)
李加号pluuuus4 天前
论文阅读
【论文阅读】CogView: Mastering Text-to-Image Generation via TransformersCogView:通过Transformers实现文本到图像的生成目标:通用领域中的文本到图像生成一直是一个开放的问题,它既需要强大的生成模型,也需要跨模态的理解。为了解决这个问题,我们提出了CogView,一个具有VQ - VAE表示器的40亿参数Transformer。我们还展示了各种下游任务的微调策略,例如风格学习、超分辨率、文本-图像排序和时尚设计,以及稳定预训练的方法,例如消除Na N损失。CogView在模糊的MS COCO数据集上实现了最先进的FID,超过了以前基于GAN的模型和最近的类似工作
李加号pluuuus4 天前
论文阅读·深度学习·transformer
【论文阅读】CogVideoX: Text-to-Video Diffusion Models with An Expert Transformer提出了一个新颖的大规模文生视频系统 CogVideoX,通过引入 3D VAE、专家 Transformer、渐进式训练机制、视频字幕增强机制 等多项关键技术,显著提升了视频生成的连贯性、动作丰富性和文本一致性。
0x2115 天前
论文阅读·prompt
[论文阅读]Tensor Trust: Interpretable Prompt Injection Attacks from an Online GameTensor Trust: Interpretable Prompt Injection Attacks from an Online Game