论文阅读

薛定e的猫咪7 天前
论文阅读·人工智能·算法
【AAAI 2025】基于扩散模型的昂贵多目标贝叶斯优化参考论文:Expensive Multi-Objective Bayesian Optimization Based on Diffusion Models 项目地址:https://github.com/ilog-ecnu/CDM-PSL
YMWM_7 天前
论文阅读·vla
论文阅读“SimVLA: A Simple VLA Baseline for Robotic Manipulation“摘要Vision-Language-Action (VLA) models have emerged as a promising paradigm for general-purpose robotic manipulation, leveraging large-scale pre-training to achieve strong performance. The field has rapidly evolved with additional spatial priors and divers
m0_650108247 天前
论文阅读·零样本·机器人导航·视觉语言导航·未知环境快速适配·符号化场景图·vlm推理
VLN-Zero:零样本机器人导航的神经符号视觉语言规划框架摘要:在未知环境中实现快速适配是机器人实现规模化现实世界自主化的关键要求,然而现有方法要么依赖穷尽式的环境探索,要么采用刚性的导航策略,均无法实现良好的跨环境泛化。本文提出 VLN-Zero—— 一款分两阶段的视觉语言导航框架,该框架利用视觉语言模型高效构建符号化场景图,并实现零样本的神经符号导航。在探索阶段,通过结构化提示词引导基于视觉语言模型的探索过程走向具备信息性和多样性的轨迹,最终生成紧凑的场景图表示。在部署阶段,神经符号规划器通过对场景图和环境观测的推理生成可执行的规划方案,同时缓存增强的执行模
晓山清8 天前
论文阅读
【论文阅读】Self-supervised Learning of Person-specific Facial Dynamics for APR论文关键词:自动人格分析(APR),排序损失,面部时间演变,人格化动态层,自监督学习,卷积神经网络,CNN权重表示 本文主要创新点在于:自监督学习、关注个性化特征
张较瘦_8 天前
论文阅读·人工智能·软件工程
[论文阅读] AI + 教育 | 不是单纯看视频!软件工程培训的游戏化融合之道在软件工程领域,培训始终是两大群体的核心需求:一边是高校里的软件工程专业学生,需要夯实专业基础、培养职业技能;另一边是行业内的从业者,需要持续更新技能、适配职场需求。而随着线上学习的普及,视频化培训早已成为软工培训的主流形式——Coursera的专业课程、LinkedIn Learning的职场技能课、YouTube的实操教程,甚至企业内部的培训视频,都让学习者能按照自己的节奏学习,灵活又便捷。
张较瘦_8 天前
论文阅读·人工智能·软件工程
[论文阅读] AI + 软件工程 | 用统计置信度破解AI功能正确性评估难题——SCFC方法详解Statistical Confidence in Functional Correctness: An Approach for AI Product Functional Correctness Evaluation
Matrix_119 天前
论文阅读·人工智能
论文阅读--Agent AI 探索多模态交互的前沿领域(二)论文阅读–Agent AI 探索多模态交互的前沿领域(一)本节将探讨一种用于训练 Agent AI 的全新范式与框架。我们提出的这一框架旨在实现以下几个核心目标:
万里鹏程转瞬至10 天前
论文阅读·深度学习·aigc
论文简读 | TurboDiffusion: Accelerating Video Diffusion Models by 100–200 Times论文地址:https://jt-zhang.github.io/files/TurboDiffusion_Technical_Report.pdf 项目地址:https://github.com/thu-ml/TurboDiffusion 发表时间:2025年12月18日 内容由豆包ai总结
Matrix_1110 天前
论文阅读·人工智能
论文阅读--Agent AI 探索多模态交互的前沿领域(一)这篇文章是近来介绍 Agent AI 非常全面的一篇综述,围绕多模态交互与通用人工智能(AGI)的发展需求展开,融合了学术研究积累、技术突破与行业应用诉求。整篇文章的结构如下:
@––––––11 天前
论文阅读·笔记
论文阅读笔记:π 0 : A Vision-Language-Action Flow Model for General Robot Control由 Physical Intelligence (Pi) 团队发表的论文 “π0\pi_0π0: A Vision-Language-Action Flow Model for General Robot Control” 是具身智能(Embodied AI)领域的里程碑式工作。它提出了第一个基于流匹配(Flow Matching)的大型视觉-语言-动作(VLA)基础模型,在多项极其困难的灵巧操作任务(如折叠衣服、清理桌面、组装纸箱)上达到了前所未有的自主水平。
万里鹏程转瞬至11 天前
论文阅读·深度学习·aigc
论文阅读 | SLA:sparse–linear attion视频生成95%稀疏度FLOPs降低20倍论文地址:https://arxiv.org/abs/2509.24006 项目地址:https://github.com/thu-ml/SLA 发表时间:2025年11月19日
Y前进四11 天前
论文阅读·人工智能
ICLR 2026 Oral论文阅读 (21篇 对齐、公平、安全、隐私及社会考量)1-7 对齐与奖励建模8-13 安全与攻击13-16 水印于溯源17-19 隐私与去遗忘20-21 行为与监控
是小蟹呀^12 天前
论文阅读·深度学习·分类·elasticface
【论文阅读15】告别死板!ElasticFace 如何用“弹性边缘”提升人脸识别性能在深度人脸识别领域,如何提取出具有极高区分度的人脸特征一直是核心挑战。今天我们要精读的这篇论文提出了 ElasticFace,它通过给模型增加一种“弹性”的惩罚机制,成功在多个主流人脸识别数据集上刷新了 SOTA(State-of-the-Art)。
晓山清12 天前
论文阅读
【论文阅读】Spectral Representation of Behaviour Primitives for Depression Analysis论文关键词:基于视频的自动抑郁分析(ADA),人类行为原语,傅里叶变换,频谱表示,时频分析,卷积神经网络
是小蟹呀^13 天前
论文阅读
【论文阅读14】ARoFace:用对抗性对齐误差提升低质量人脸识别大家好,今天要解读的是一篇很有意思的 CVPR 论文——《ARoFace: Alignment Robustness to Improve Low-Quality Face Recognition》。这篇文章提出了一个全新的视角:低质量人脸识别失败的重要原因,可能不是图片本身的质量,而是对齐误差(Face Alignment Error, FAE)。
是小蟹呀^13 天前
论文阅读·深度学习·分类·adaface
【论文阅读13】AdaFace:低画质人脸识别的破局之作,用“特征范数”重塑损失函数!在深度学习时代,人脸识别技术在 LFW、CFP-FP 等清晰数据集上已经达到了惊人的 98% 以上准确率。然而,当场景切换到监控视频(Surveillance)或无人机拍摄等“低画质(Low Quality)”环境时,由于遮挡、模糊和光线极差,模型的识别能力往往会遭遇滑铁卢。
YMWM_15 天前
论文阅读·人工智能·vla
论文阅读“DM0: An Embodied-Native Vision-Language-Action Model towards Physical AI“摘要Moving beyond the traditional paradigm of adapting internet-pretrained models to physical tasks, we present DM0, an Embodied-Native Vision-Language-Action (VLA) framework designed for Physical AI.  Unlike approaches that treat physical grounding as a fi
xutSwIpZotzM16 天前
论文阅读
MATLAB 风力发电系统低电压穿越之串电阻策略探究MATLAB 风力发电系统低电压穿越—串电阻策略 低电压穿越 双馈风力发电机在风力发电领域,双馈风力发电机(DFIG)因其独特的优势被广泛应用。然而,电网电压跌落时,DFIG 如何安全稳定运行成为关键问题,低电压穿越(LVRT)技术便应运而生。今天咱们就聊聊基于 MATLAB 实现风力发电系统低电压穿越的串电阻策略。
zenpluck17 天前
论文阅读
GS论文阅读--AGSG i s h e l l o G^s_ihello Gishello 我是红色作者在文章中列出了详细的动机和想法:
zenpluck17 天前
c++·论文阅读·学习·机器人
RTAB-Map学习记录(1)--论文阅读RTAB-Map(全称 Real-Time Appearance-Based Mapping)是一个开源的 RGB-D SLAM框架,主要用于机器人导航、3D 重建和环境建图。这个项目目前还在积极的维护和更新,也可以进行实际环境的部署。所以先学习一下相关的原理和论文,为之后的使用打下基础。