论文阅读

mmq在路上9 小时前
论文阅读·深度学习·transformer
SLAM-Former: Putting SLAM into One Transformer论文阅读本文提出了SLAM-Former,这是一种新的神经方法,它将全部SLAM功能集成到单个变压器中。与传统的SLAM系统类似,SLAM-FORM由前端和后端组成,两者串联运行。前端对连续的单目图像进行实时处理,进行增量映射和跟踪,后端进行全局细化,以确保几何一致的结果。这种交替执行允许前端和后端相互促进,从而提高整体系统性能。综合实验结果表明,与目前最先进的密集SLAM方法相比,SLAM-FORM具有更好或更具竞争力的性能。
Vizio<18 小时前
论文阅读·人工智能·学习·机器人·触觉传感器
《基于 ERT 的稀疏电极机器人皮肤技术》ICRA2020论文解析目录一、研究背景与意义二、电阻抗断层成像(ERT)原理(一)正问题(二)逆问题(三)基于深度神经网络(DNN)的图像重建
张较瘦_18 小时前
论文阅读·人工智能·软件工程
[论文阅读] AI+软件工程(需求工程)| 告别需求混乱!AI-native时代,需求工程的5大痛点与3大破局方向arXiv:2510.04380 Reconsidering Requirements Engineering: Human-AI Collaboration in AI-Native Software Development Mateen Ahmed Abbasi, Petri Ihantola, Tommi Mikkonen, Niko Mäkitalo Comments: Accepted at SEAA 2025. Appearing in Springer LNCS 16081, pages 1
张较瘦_2 天前
论文阅读·软件工程·量子计算
[论文阅读] 软件工程 | 量子计算即服务(QCaaS)落地难?软件工程视角的解决方案来了arXiv:2510.04982 Quantum Computing as a Service - a Software Engineering Perspective Aakash Ahmad, Muhammad Waseem, Bakheet Aljedaani, Mahdi Fahmideh, Peng Liang, Feras Awaysheh Comments: 37 pages, 10 images, 5 tables, Manuscript submitted to a Journal (2
byzy2 天前
论文阅读·深度学习·计算机视觉·自动驾驶
【论文笔记】VisionPAD: A Vision-Centric Pre-training Paradigm for Autonomous Driving原文链接:https://arxiv.org/pdf/2411.14716本文提出VisionPAD,一种自监督的预训练范式,用于自动驾驶中的视觉算法。
红苕稀饭6662 天前
论文阅读
Video-of-Thought论文阅读2024.51.摘要background现有的视频理解研究在处理复杂视频时,难以实现深入的理解和推理。这主要源于两大瓶颈:一是在感知层面,缺乏对时空细节的细粒度(fine-grained)感知和定位能力;二是在认知层面,缺乏对视频场景的深层语义理解和常识推理能力。现有模型通常只能进行浅层的、直接的视频内容识别,而无法像人一样进行多步推理,例如解释事件原因或预测未来结果。
张较瘦_2 天前
论文阅读·人工智能·软件工程
[论文阅读] AI+软件工程(迁移)| 从JDK8到21:FreshBrew如何为AI代码迁移画上“可信句号”arXiv:2510.04852 FreshBrew: A Benchmark for Evaluating AI Agents on Java Code Migration Victor May, Diganta Misra, Yanqi Luo, Anjali Sridhar, Justine Gehring, Silvio Soares Ribeiro Junior Comments: 18 pages, 11 figures Subjects: Software Engineering (cs.S
秋雨qy3 天前
论文阅读
VLA论文阅读2为什么国庆还要上班😭Evaluating Uncertainty and Quality of Visual Language Action-enabled Robots 题目:VLA机器人的不确定性和质量评估
网安INF3 天前
论文阅读·人工智能·深度学习·网络安全·黑盒攻击
【论文阅读】-《SparseFool: a few pixels make a big difference》原文链接:https://arxiv.org/pdf/1811.02248深度神经网络在图像分类任务上取得了非凡的成果,但已被证明容易受到经过精心构造的输入数据扰动的攻击。尽管大多数攻击通常会改变图像多个像素的值,但研究表明深度网络也容易受到输入的稀疏修改的影响。然而,目前尚未提出计算稀疏扰动的计算高效方法。在本文中,我们利用决策边界的低平均曲率,提出了 SparseFool,一种受几何启发的稀疏攻击,可以控制扰动的稀疏性。广泛的评估表明,我们的方法能非常快地计算稀疏扰动,并且能高效地扩展到高维数据。我们
张较瘦_3 天前
论文阅读·人工智能·chatgpt
[论文阅读] AI+教学 | 编程入门课的AI助手革命?ChatGPT的4大核心影响全解析该研究针对ChatGPT在C语言入门编程课(CS1)中的应用,对27名学生开展平衡准实验:两组交替在“用ChatGPT”和“不用ChatGPT”条件下完成函数、结构体作业,通过代码质量评分、概念测试、完成时间及问卷评估影响。结果显示,ChatGPT组代码质量显著更高(结构体作业p<0.001)、完成时间大幅缩短(函数作业平均快1890秒),但概念理解效果因主题而异(结构体有提升,函数无差异);学生认可其代码生成/调试价值,却担忧准确性与长期技能发展。研究为AI融入编程教学提供了实证依据。
网安INF3 天前
论文阅读·人工智能·计算机视觉·网络安全·黑盒攻击
【论文阅读】-《Sparse Adversarial Attack via Perturbation Factorization》本文研究稀疏对抗攻击,其目标是在一张良性图像的部分位置上生成对抗性扰动,使得被扰动的图像被某个深度神经网络(DNN)模型错误预测。稀疏对抗攻击涉及两个挑战,即扰动哪些位置以及如何确定扰动幅度。许多现有工作手动或启发式地确定扰动位置,然后使用为密集对抗攻击设计的适当算法来优化扰动幅度。在这项工作中,我们提出将每个像素处的扰动分解为两个变量的乘积,包括扰动幅度和一个二元选择因子(即 0 0 0 或 1 1 1)。如果一个像素的选择因子是 1 1 1,则该像素被扰动,否则不被扰动。基于这种分解,我们将稀疏攻击问
张较瘦_3 天前
论文阅读·人工智能·软件工程
[论文阅读] AI+软件工程(DeBug)| 从11%到53%!双LLM驱动的工业级代码修复方案,Google数据集验证有效为解决工业界“代码自动修复(APR)系统生成的补丁需人工审核,但无效方案太多、浪费开发者时间”的核心痛点,Google研究团队提出双LLM策略:修复前用“Bug规避”筛选APR难以处理的bug,修复后用“补丁验证”剔除无效补丁。在Google三类数据集(174个人工报告bug、198个机器NPE bug、50个sanitizer机器bug)上测试显示,双策略结合后,人工bug的审核成功率从11%飙升至53%,机器NPE bug的有效补丁率从38%升至62%,且假阳性率低至0.04,为工业级APR系统的落地
菜鸟‍4 天前
论文阅读
【论文笔记】2025年图像处理顶会论文2025年4月2日在arXiv上发布v-CLR:面向开放世界实例分割的视图一致性学习开放世界实例分割:实例分割需同时完成目标的检测(定位边界框)和像素级分割(区分每个实例的具体轮廓);开放世界区别于传统 “封闭世界”(训练和测试数据的类别固定且已知),开放世界场景中存在大量训练时未见过的新类别,模型需具备对未知类别的泛化能力,即不仅能分割已知类别,还能识别和分割新增的、未标注的类别实例
张较瘦_4 天前
论文阅读·人工智能·软件工程
[论文阅读] AI+软件工程 | 开发者 AI 需求新指南:任务感知视角下的负责任 AI 实证研究Rudrajit Choudhuri等人针对860名开发者(主要来自微软)开展了大规模混合方法研究,基于认知评估理论探索开发者在日常工作中对AI支持的“何处需要、为何需要及如何设计”,首次建立任务感知的、经验验证的开发者任务认知与AI采纳模式、负责任AI(RAI)优先级的映射关系。研究发现,任务评估(价值、身份认同、问责制、需求)可预测AI采纳:核心工作(如编码、测试)当前AI使用率高且需改进,事务性工作(如文档、运维)需AI减负,身份/人际相关工作(如指导)需限制AI;负责任AI优先级因场景而异(系统类
红苕稀饭6664 天前
论文阅读
M-LLM Based Video Frame Selection for Efficient Video Understanding论文阅读2024.111.摘要background目前的视频多模态大语言模型(M-LLM)在处理长视频时,通常采用均匀采样(Uniform Sampling)的方式来选取视频帧,以减少计算量。然而,这种“一刀切”的方法可能会丢失视频关键片段中的重要视觉信息,导致下游的大模型没有足够的信息来正确回答与视频内容相关的问题。
森诺Alyson6 天前
论文阅读·人工智能·经验分享·深度学习·论文笔记
前沿技术借鉴研讨-2025.9.23 (数据不平衡)【论文链接】 https://doi.org/10.1016/j.eswa.2025.128199 【核心目标】 提供了一种针对不平衡分类问题的数据增强方法,即DN-MWMOTE(Denoising Majority Weighted Minority Oversampling Technique),提升少数类样本的质量和数量,从而改善分类器对少数类的识别能力。 【具体步骤】 1)自适应噪声去除:KNN识别噪声,通过评估可疑噪声对分类器性能的影响(使用AUC指标),区分真正的噪声和误判的噪声,从而更准确地
Chandler_Song6 天前
论文阅读
【读书笔记】《苏东坡》中国人或许有人不太了解苏东坡,但没有人不喜欢他。他的诗词和生活态度融入日常:夏天吃荔枝时吟诵“日啖荔枝三百颗,不辞长作岭南人”;游西湖时想起“欲把西湖比西子,淡妆浓抹总相宜”;登庐山时念及“不识庐山真面目,只缘身在此山中”。这些诗句虽美,却往往被孤立欣赏,忽略了背后的生活情境。
Prettybritany6 天前
论文阅读·图像处理·人工智能·深度学习·计算机视觉
文本引导的图像融合方法语义Test√1.使用clip对text进行编码,将编码后的特征映射到和图像特征统一的维度上,然后作为权重加在图像特征上:
张较瘦_6 天前
论文阅读·人工智能·软件工程
[论文阅读] AI+软件工程 | AI供应链信任革命:TAIBOM如何破解AI系统“可信难题“随着开源与AI技术深度融合,软件供应链复杂度飙升,传统SBOM因无法适配AI系统的动态性、松散耦合依赖(如训练数据、模型权重)及分布式治理挑战而失效。为此,论文提出Trusted AI Bill of Materials (TAIBOM) 框架——通过结构化AI依赖模型(定义Data/Code/AI System类及关联)、跨异构管道的完整性声明传播、组件溯源信任证明,解决AI系统信任缺失问题。经4个核心用例验证,TAIBOM在加密签名验证、动态谱系跟踪、全流水线信任保障上显著优于模型卡片、SPDX等现有
红苕稀饭6667 天前
论文阅读
Logit论文阅读1.摘要background知识蒸馏(Knowledge Distillation, KD)旨在将一个大型“教师”模型的知识迁移到一个小型的“学生”模型中。传统方法通常使用一个基于共享“温度”(temperature)的softmax函数来软化教师和学生的输出,然后通过KL散度(Kullback-Leibler divergence)来最小化它们的差异。然而,这种共享温度的设定带来了一个副作用:它隐式地要求学生模型的logit(即softmax前的原始输出)在数值范围和方差上与教师模型进行精确匹配。考虑到