论文阅读

大写-凌祁4 小时前
论文阅读·人工智能·python·深度学习·学习·机器学习
BLIP论文笔记论文地址:BLIP 代码地址:BLIP视觉-语言预训练(VLP)已经提升了许多视觉-语言任务的性能。然而,大多数现有的预训练模型只在理解类任务或生成类任务中表现出色。此外,性能提升主要通过扩大从网络收集的噪声图像-文本对数据集来实现,这是一个次优的监督来源。在本文中,我们提出了BLIP,一个新的VLP框架,可以灵活地迁移到视觉-语言理解和生成任务。BLIP通过自举标题的方式有效利用噪声网络数据,其中标题生成器生成合成标题,过滤器移除噪声标题。 我们在广泛的视觉-语言任务上取得了最先进的结果,如图像-文本检
周末不下雨6 小时前
论文阅读
【论文阅读】——D^3-Human: Dynamic Disentangled Digital Human from Monocular Vi我们介绍 D 3 D^{3} D3人,一种从单目视频中重建动态解耦数字人体几何的方法。过去的单目视频人体重建主要集中在重建未解耦的衣服人体或仅重建服装,使得其难以直接应用于动画制作等应用中。重建解耦的衣服和身体的挑战在于衣服对身体造成的遮挡。为此,在重建过程中必须确保可见区域的细节和不可见区域的合理性。我们提出的方法结合显式和隐式表示对解耦的衣服人体进行建模,利用显式表示的鲁棒性和隐式表示的灵活性。具体来说,我们将可见区域重建为SDF,并提出一种新颖的人类流形符号距离场(hmSDF)来分割可见衣服和可见身
远瞻。21 小时前
论文阅读·算法·超分辨率重建
【论文精读】2022 CVPR--RealBasicVSR现实世界视频超分辨率(RealWorld VSR)现实世界视频超分辨率 (VSR) 中退化的多样性和复杂性在推理和训练中存在重大挑战。首先,虽然长期传播可以在轻度退化的情况下提高性能,但严重的野外退化可以通过传播夸大,损害输出质量。为了平衡细节合成与伪影抑制,我们发现图像预清理阶段是不可或缺的,它可以减少在传播之前的噪声和伪影。配备经过精心设计的清理模块,我们的RealBasicVSR在质量和效率上均优于现有方法(见图1)。
钟屿1 天前
论文阅读·图像处理·人工智能·深度学习
LIEDNet: A Lightweight Network for Low-light Enhancement and Deblurring论文阅读夜间拍摄的图像常常面临诸如低光和模糊等挑战,这些问题主要是由于昏暗环境和长时间曝光的频繁使用所导致。现有方法要么独立处理这两种退化问题,要么依赖于通过复杂机制生成的精心设计的先验知识,这导致了较差的泛化能力和较高的模型复杂度。为了解决这些挑战,我们提出了一种名为LIEDNet的端到端框架,以高效且有效地在真实和合成数据上恢复高质量图像。具体而言,所提出的LIEDNet由三个关键组件组成:视觉状态空间模块VSSM,局部特征模块LFM 以及双重门控Dconv前馈网络DGDFFN。VSSM和LFM的结合使得模型
jerry6091 天前
论文阅读·人工智能·笔记·深度学习·学习·transformer
LLM笔记(十)vLLM(1)PagedAttention论文笔记vLLM First SF Meetup SlidesPageAttention论文提出了一种名为PagedAttention的注意力算法,其灵感来源于操作系统的虚拟内存和分页技术,以及基于此构建的LLM服务系统vLLM。
崔高杰1 天前
论文阅读·笔记
提升推理能力会丢失指令跟随的能力?——【论文阅读笔记】推理模型正在丢失指令跟随能力——其实应该不止是指令跟随的能力,我这周就经历了这种荒诞事情。Qwen3-14B认为–>说出“你跟我妈商量”这句话的说话人,是教育场景中的家长 🙄
初级炼丹师(爱说实话版)1 天前
论文阅读
VideoMAE论文笔记对比NLP里的Bert提出了视频掩码的自编码器 Video Mask Auto Encoder,目的为了未视频人物提出更有效的视频表示。
CV-deeplearning1 天前
论文阅读·多模态·图像编辑
StepX-Edit:一个通用图像编辑框架——论文阅读笔记代码:https://github.com/stepfun-ai/Step1X-Edit 论文:https://arxiv.org/abs/2504.17761 近年来,图像编辑技术发展迅速,GPT- 4o、Gemini2 Flash等前沿多模态模型的推出,展现了图像编辑能力的巨大潜力。 这些模型展示了令人印象深刻的适应能力,能够满足绝大多数用户驱动的编辑需求,标志着图像处理领域取得了重大进展。然而,开源算法与这些闭源模型之间仍存在较大差距。为此,我们介绍了一种最先进的图像编辑模型——Step1X-Edi
s1ckrain1 天前
论文阅读·计算机视觉·多模态大模型
【论文阅读】LLaVA-OneVision: Easy Visual Task Transfer原文摘要研究背景与目标开发动机:核心目标:关键创新点多场景统一建模:跨模态迁移学习:研究背景与目标AI发展目标:
WoooChi1 天前
论文阅读
【论文阅读】简单稳健的三角形表面布尔运算Simple and Robust Boolean Operations for Triangulated Surfaces † ^{\dagger} †
0x2111 天前
论文阅读
[论文阅读]Pandora: Jailbreak GPTs by Retrieval Augmented Generation PoisoningPandora: Jailbreak GPTs by Retrieval Augmented Generation Poisoning
UQI-LIUWJ1 天前
论文阅读·笔记
论文略读:If Multi-Agent Debate is the Answer, What is the Question?202502 arxiv
周末不下雨2 天前
论文阅读·3d
【论文阅读】——AN EXPRESSIVE REPRESENTATION OF GENERAL 3D SHAPES创建逼真的虚拟世界需要对各种对象的 3D 表面几何体进行精确建模。为此,网格很有吸引力,因为它们 1) 使用逼真的材质和照明实现基于物理的快速渲染,2) 支持物理模拟,以及 3) 对于现代图形管道来说非常节省内存。然而,最近关于重建和统计建模 3D 形状的工作批评网格在拓扑上不灵活。为了捕获各种物体形状,任何 3D 表示都必须能够对固体、水密形状以及薄而开放的表面进行建模。最近的工作集中在前者上,重建开放表面的方法不支持使用材料和照明或无条件生成建模进行快速重建。受到开放表面可以被视为漂浮在水密表面上的岛
江木1232 天前
论文阅读
论文阅读:Auto-Encoding Variational Bayes对图像生成论文自编码变分贝叶斯Auto-Encoding Variational Bayes原理理解和记录
Jamence2 天前
论文阅读·人工智能·语言模型·自然语言处理·论文笔记
多模态大语言模型arxiv论文略读(八十九)➡️ 论文标题:MMRo: Are Multimodal LLMs Eligible as the Brain for In-Home Robotics? ➡️ 论文作者:Jinming Li, Yichen Zhu, Zhiyuan Xu, Jindong Gu, Minjie Zhu, Xin Liu, Ning Liu, Yaxin Peng, Feifei Feng, Jian Tang ➡️ 研究机构: Midea Group、Shanghai University、University of
寻丶幽风2 天前
论文阅读·笔记·文生图·扩散模型·t2i
论文阅读笔记——PixArt-α,PixArt-δPixArt-α 论文 仅使用 28400 美元,28M 训练数据,训练时长为 SD 1.5 的 10.8%,只有 0.6B 参数量,达到接近商业应用的水准。 现有数据集存在的缺陷:图文匹配偏差、描述信息不完整、词汇多样性不足(长尾效应显著)、低质量数据。 为了实现低成本训练,华为采用了三阶段的训练策略:第一个阶段是学习像素依赖关系,简单来说是先学习生成真实的图像,这里是用ImageNet数据集训练一个基于类别的条件扩散模型;然后是学习文本和图像的对齐,即学习文本作为条件下的图像生成,这里的一个关键是采用
berling003 天前
网络·论文阅读·目标检测
【论文阅读 | AAAI 2025 | FD2-Net:用于红外 - 可见光目标检测的频率驱动特征分解网络】题目:FD2-Net: Frequency-Driven Feature Decomposition Network for Infrared-Visible Object Detection
一点.点5 天前
论文阅读·人工智能·语言模型·自动驾驶
DriveGenVLM:基于视觉-语言模型的自动驾驶真实世界视频生成《DriveGenVLM: Real-world Video Generation for Vision Language Model based Autonomous Driving》2024年8月发表,来自哥伦比亚大学的论文。
Jamence5 天前
论文阅读·人工智能·深度学习·语言模型·论文笔记
多模态大语言模型arxiv论文略读(八十三)➡️ 论文标题:LLaNA: Large Language and NeRF Assistant ➡️ 论文作者:Andrea Amaduzzi, Pierluigi Zama Ramirez, Giuseppe Lisanti, Samuele Salti, Luigi Di Stefano ➡️ 研究机构: CVLAB, University of Bologna ➡️ 问题背景:多模态大语言模型(MLLMs)在理解和生成文本方面表现出色,但它们在捕捉对象的外观和几何形状方面存在局限性。神经辐射场(N
东哥说-MES|从入门到精通5 天前
论文阅读
《打造第二大脑》2025/05/08 发表想法是的说的太对了,关键是之前自己一直在找如何能避免出现此问题的方法,今天终于看到了本书所讲的的内容