论文阅读

chnyi6_ya1 小时前
论文阅读·深度学习·transformer
论文阅读:CogVideoX: Text-to-Video Diffusion Models with An Expert Transformer这篇论文提出了 CogVideoX,一个大规模文本生成视频模型。它的目标是生成更长、更清晰、更连贯的视频。
大模型最新论文速读14 小时前
论文阅读·人工智能·深度学习·机器学习·自然语言处理
SkillOpt:把 skill 文档当成模型权重来训练现有 Agent Skill 要么手写、要么由 LLM 一次性生成或者无约束自修改,SkillOpt 把技能文档视为可训练的外部状态,用有界编辑 + 验证门控 + 拒绝缓冲 + 慢速更新构成完整的文本空间优化器,在 52 个评测格子上达到全部最优
Cloud_Shy61815 小时前
android·数据库·论文阅读·python
解读《Effective Python 3rd Edition》:从练气到老魔(第一章 Item 4 - 6)大家好呀,欢迎来到博主新开的《Effective Python 3rd Edition》学习笔记系列,毕竟也读过几百篇 SCI ,这次来试试阅读原版学习是一种怎样的体验。小伙伴们感兴趣的话,请一定要点赞,收藏加关注呀!
Rocky Ding*1 天前
论文阅读·人工智能·深度学习·机器学习·ai作画·aigc·ai-native
一文读懂HiDream-I1稀疏 DiT 图像生成基础模型【WeThinkIn出品】栏目专注于分享Rocky的认知思考与经验感悟,范围涵盖但不限于AI行业。欢迎大家关注Rocky的知乎:Rocky Ding AIGC算法工程师/开发工程师面试面经秘籍分享:WeThinkIn/Interview-for-Algorithm-Engineer欢迎大家Star~
锅挤2 天前
论文阅读
来一篇儿:《anish into Thin Air: Cross-prompt Universal Adversarial Attacks for SAM2》近期研究揭示了图像分割基础模型 SAM 对对抗性示例的脆弱性。其后续模型 SAM2 由于在视频分割中强大的泛化能力而备受关注。然而,其鲁棒性尚未得到探索,并且现有针对 SAM 的攻击能否直接迁移到 SAM2 上仍不清楚。在本文中,我们首先分析了现有攻击在 SAM 和 SAM2 之间的性能差距,并指出了由其架构差异引起的两个关键挑战:来自提示的方向性引导和跨连续帧的语义纠缠。为了解决这些问题,我们提出了 UAP-SAM2,这是第一个由双重语义偏差驱动的针对 SAM2 的跨提示通用对抗攻击。为了实现跨提示的可
大模型最新论文速读2 天前
论文阅读·人工智能·深度学习·机器学习·自然语言处理
05-29 · LLM 最新论文速览今日候选池 97 篇,硬过滤 + LLM 打分后通过评估 19 篇,精选 Top-10,另列 9 篇速览。
森诺Alyson2 天前
论文阅读·人工智能·深度学习·分类·论文笔记
前沿技术借鉴研讨-2026.5.28(眼动数据预测抑郁&自杀倾向)核心内容: 利用情绪句子阅读任务中的眼动数据,通过深度学习模型发现,决策应答前的水平眼动特征,尤其是对负性刺激的反应,可作为抑郁与自杀意念的无创、客观生物行为标记。 挑战: 抑郁与自杀筛查依赖自评与临床访谈,易受回忆偏差、社会期许影响,缺乏客观标记。 创新点: 眼动是注意与认知加工的直接窗口,难以主动调控,结合深度学习可挖掘细粒度时空特征,弥补传统手工特征不足。
凌晨一点的秃头猪3 天前
论文阅读
GR2(Generative Reasoning Reranker,生成式推理重排器)论文阅读最近的研究越来越多地探索将大语言模型(LLM)作为推荐系统的新范式,这得益于其强大的可扩展性和丰富的世界知识。然而,现有的工作存在三个关键局限性:
Biomamba生信基地3 天前
论文阅读·深度学习·生物信息学·模型训练
《Advanced Science》前沿工具发布:STAID,空间反卷积自优化深度学习框架文章《STAID: A Self-Refining Deep Learning Framework forSpatial Cell-Type Deconvolution with Biologically InformedModeling》(IF=14.1)发布于《Advanced Science》。
仙女修炼史4 天前
论文阅读·人工智能·cnn
CNN更看重Texture还是shape:imagenet-trained cnns are biased《CVPR2019_imagenet-trained cnns are biased towards texture increasing shape bias improves accuracy and robusteness》 说明,以下内容右chatgpt生成,为了个人多次深刻理解,现记录下来,供反复理解。
大模型最新论文速读5 天前
论文阅读·人工智能·深度学习·机器学习·自然语言处理
GRPO 丢失的组内排序信息,LamPO 补回来了一句话总结GRPO 只知道组内谁好谁坏,但丢失了排序结构。LamPO 改用两两对比的方式保留了这一信息,在各基准上一致超越了 GRPO 及其变体,并且不引入显著额外开销
Rocky Ding*5 天前
论文阅读·人工智能·深度学习·机器学习·ai作画·aigc·ai-native
深入浅出讲解ERNIE-Image图像创作大模型欢迎大家关注Rocky的知乎:Rocky Ding AIGC算法工程师/开发工程师面试面经秘籍分享:WeThinkIn/Interview-for-Algorithm-Engineer欢迎大家Star~
小马哥crazymxm7 天前
论文阅读·人工智能·考研
Arxiv论文周选 (2026-W21)同步自EasyReader每周精选模块。 配合“导读+思维导图”功能阅读,效率提升80%。立即体验EasyReader论文阅读
传说故事7 天前
论文阅读·人工智能·具身智能·vla
【论文阅读】MEM: Multi-Scale Embodied Memory for Vision Language Action Models1.题目: MEM: Multi-Scale Embodied Memory for Vision Language Action Models 2.时间: 2025.04 3.机构: Physical Intelligence, Stanford University, UC Berkeley, MIT 4.3个英文关键词: VLA, Memory, Video Encoder
传说故事8 天前
论文阅读·人工智能·3d·具身智能
【论文阅读】VGGT-Ω本文提出了一种名为 VGGT-Ω 的模型,旨在通过扩大模型和数据规模,并改进架构(如引入 Register Attention),实现更快速、更准确的静态和动态场景 3D 重建。
数智工坊8 天前
论文阅读·人工智能·算法·语言模型·机器人·无人机
【Inner Monologue论文阅读】: 首次将大语言模型嵌入机器人控制闭环,实现自我反思和动态行为调整想象一下,你让机器人去厨房拿一瓶可乐。传统的机器人会怎么做?它会生成一个僵硬的计划:1. 走到厨房 2. 拿起可乐 3. 拿给你。然后就一条路走到黑——如果可乐不在桌子上,它会傻站在那里;如果第一次没拿起来,它会直接放弃;如果冰箱里只有雪碧,它完全不知道该怎么办。
传说故事8 天前
论文阅读·人工智能·具身智能·vla
【论文阅读】RLDX-1本文提出了一种名为RLDX-1的通用机器人策略模型,通过整合视觉、语言、动作以及触觉/扭矩等物理信号,并配合合成数据和推理优化,让机器人(尤其是人形机器人)能像人一样灵活地处理复杂的动态和接触丰富的操作任务。
传说故事9 天前
论文阅读·人工智能·具身智能·vla
【论文阅读】StereoVLA: Enhancing Vision-Language-Action Models with Stereo Vision1.题目: StereoVLA: Enhancing Vision-Language-Action Models with Stereo Vision 2.时间: 2025.12 3.机构: Galbot, Peking University, The University of Hong Kong, Institute of Automation. Chinese Academy of Sciences, Beijing Academy of Artificial Intelligence, Xiame
传说故事9 天前
论文阅读·人工智能·具身智能·wam
【论文阅读】MotuBrain: An Advanced World Action Model for Robot Control1.题目: MotuBrain: An Advanced World Action Model for Robot Control 2.时间: 2026.05 3.机构: 生数科技 4.3个英文关键词: World Action Model (WAM), VLA, Diffusion
传说故事9 天前
论文阅读·人工智能·机器人·具身智能
【论文阅读】GEN-0: Embodied Foundation Models That Scale with Physical Interaction本文提出了GEN-0,一种通过海量真实物理交互数据进行预训练的具身基础模型,旨在建立机器人领域的“扩展定律”,实现机器人智能随数据和算力增加而可预测地提升。