论文阅读

s1ckrain12 小时前
论文阅读·计算机视觉·aigc
【论文阅读】PEEKABOO: Interactive Video Generation via Masked-Diffusion原文摘要研究背景与问题现状:现代视频生成模型(如 Sora)已能生成高质量视频,但缺乏用户交互控制能力。
墨绿色的摆渡人18 小时前
论文阅读
论文笔记(八十三)STACKGEN: Generating Stable Structures from Silhouettes via Diffusion引用:主页:https://ripl.github.io/StackGen/ 原文:https://ripl.github.io/StackGen/static/StackGen.pdf 代码、数据和视频:
kaaokou18 小时前
论文阅读·大模型·llm·ocr·多模态·vl
论文笔记——QWen2.5 VL视觉理解和自然语言处理的集成一直是人工智能研究的一个重要焦点,促成了日益复杂的视觉语言模型 (VLMs) 的发展。由阿里巴巴集团 Qwen 团队开发的 Qwen2.5-VL 代表了该领域的重大进步,尤其侧重于增强精细感知能力。
roman_日积跬步-终至千里1 天前
论文阅读
【论文阅读一】掌握高效阅读法,开启学术研究新旅程:S. Keshav教授论文阅读的三遍法S. Keshav教授就如何高效阅读研究论文展开讨论,介绍了一种实用的三遍阅读法,并阐述了其在文献综述中的应用,分享了作者的使用经验,还推荐了相关阅读和写作的参考资料。
寻丶幽风2 天前
论文阅读·笔记·机器人·具身智能·世界模型
论文阅读笔记——TesserAct: Learning 4D Embodied World ModelsTesserAct 论文 采用RGB-DN(RGB+深度+法线) 作为 4D 场景中间表示,由此建模 4D 场景,比纯 2D 视频更准确地建模 3D 几何结构。相比现有的 4D 视频生成,优化速度快,收敛好,且首次从当前帧和文本描述的具身智能体动作直接预测4D场景。 建模分布为 p ( v , d , n ∣ v 0 , d 0 , n 0 , T ) p(v,d,n|v^0,d^0,n^0,T) p(v,d,n∣v0,d0,n0,T) 其中 v, d, n 表示预测的未来 RGB、深度图和法线图的潜在序
悠悠海风2 天前
论文阅读·人工智能·深度学习·目标检测·计算机视觉·分类算法
沥青路面裂缝的目标检测与图像分类任务于2023年发表在《Computer‐Aided Civil and Infrastructure Engineering》
CV-杨帆2 天前
论文阅读
论文阅读:2024 arxiv FlipAttack: Jailbreak LLMs via Flipping总目录 大模型安全相关研究:https://blog.csdn.net/WhiffeYF/article/details/142132328
CV-杨帆2 天前
论文阅读·人工智能·语言模型
论文阅读:2024 arxiv Jailbreaking Black Box Large Language Models in Twenty Queries总目录 大模型安全相关研究:https://blog.csdn.net/WhiffeYF/article/details/142132328
王上上3 天前
论文阅读
【论文阅读26】贝叶斯-滑坡预测-不确定性滑坡预测里,预测失稳时间(Slope Failure Time, SFT) 很关键,但它受两方面不确定性影响:
joseanne_josie3 天前
论文阅读
读论文笔记-CoOp:对CLIP的handcrafted改进现有基于prompt engineering的多模态模型在设计合适的prompt时有很大困难,从而设计了一种更简单的方法来制作prompt。
CV-杨帆3 天前
论文阅读·人工智能·语言模型
论文阅读:2024 ICML In-Context Unlearning: Language Models as Few-Shot Unlearners总目录 大模型安全相关研究:https://blog.csdn.net/WhiffeYF/article/details/142132328
CV-杨帆3 天前
论文阅读
论文阅读:2024 ACM SIGSAC Membership inference attacks against in-context learning总目录 大模型安全相关研究:https://blog.csdn.net/WhiffeYF/article/details/142132328
CV-杨帆3 天前
论文阅读·人工智能·语言模型
论文阅读:2024 EMNLP User Inference Attacks on Large Language Models总目录 大模型安全相关研究:https://blog.csdn.net/WhiffeYF/article/details/142132328
joseanne_josie3 天前
论文阅读·人工智能
读论文笔记-LLaVA:Visual Instruction Tuning《Visual Instruction Tuning》 研究机构:Microsoft Research 发表于2023的NeurIPS
CV-杨帆3 天前
论文阅读
论文阅读 2024 arxiv Comprehensive Assessment of Jailbreak Attacks Against LLMs总目录 大模型安全相关研究:https://blog.csdn.net/WhiffeYF/article/details/142132328
学术交流3 天前
论文阅读·图像处理·人工智能·论文笔记
2025年数字创意设计与图像处理国际会议 (DCDIP 2025)会议简称:DCDIP 2025 大会地点:中国·济南 收录检索:提交Ei Compendex,CPCI,CNKI,Google Scholar等
墨绿色的摆渡人4 天前
论文阅读
论文笔记(八十二)Transformers without Normalization引用:主页:https://jiachenzhu.github.io/DyT/ 原文: https://arxiv.org/abs/2503.10622 代码、数据和视频:
sagima_sdu5 天前
论文阅读
论文笔记-基于多层感知器(MLP)的多变量桥式起重机自适应安全制动与距离预测《IET Cyber-Systems and Robotics》出版山东大学 Tenglong Zhang 和 Guoliang Liu 团队的研究成果,文章题为“Adaptive Safe Braking and Distance Prediction for Overhead Cranes With Multivariation Using MLP”。
Jackilina_Stone5 天前
论文阅读·python·目标检测·rt-detr
【论文阅读/复现】RT-DETR的网络结构/训练/推理/验证/导出模型利用ultralytics仓库,复现RT-DETR官方实验环境。使用基于ResNet50和ResNet101的RT-DETR。
一点.点5 天前
论文阅读·大模型·自动驾驶·端到端
Sce2DriveX: 用于场景-到-驾驶学习的通用 MLLM 框架——论文阅读《Sce2DriveX: A Generalized MLLM Framework for Scene-to-Drive Learning》2025年2月发表,来自中科院软件所和中科院大学的论文。