论文阅读

数智工坊1 小时前
论文阅读·人工智能·深度学习·transformer·迁移学习
ControlNet:为文生图扩散模型注入精准空间条件控制玩过Stable Diffusion的朋友大概率都有过这种崩溃:明明prompt写了「站在厨房的厨师,左手颠锅右手拿铲,身体正对镜头」,结果生成的图里人物姿势千奇百怪,手指还经常多出来几根;想画一张精准构图的场景图,改了几十版prompt,出来的画面还是和脑子里的构想差了十万八千里。
莽撞的大地瓜2 小时前
论文阅读·新媒体运营·内容运营
校对通更新!告别反复转格式 PDF图文/扫描件一键校对校对通更新!告别反复转格式 PDF图文/扫描件一键校对编辑们大概都有过这样的经历:收到一份图文并茂的PDF,正文要校对,图片里的文字、画面、标注、说明也得逐一核查。偏偏很多办公软件不支持直接校对,流程就变成了——先截图或扫描保存成其他格式,运气不好的话转换后会破坏原有排版,还得人工调整、粘贴图片然后重新核对。校对通本次更新,上线三大实用功能,不用转格式、不用拆文件,只需上传就能完成校对。
Ma0407131 天前
论文阅读
SCI投稿1.点Guide of authors,作者指南2.认真阅读写作和格式化1.点击Submit your article
数智工坊1 天前
论文阅读·人工智能·深度学习·cnn·transformer
【DDIM 论文阅读】:扩散模型加速采样的里程碑!10~50 倍快采 + 确定性生成DDPM 效果强、训练稳,但采样慢到离谱:DDIM 站出来说: 不用重训、不用改网络,同一份 DDPM 权重,直接 10~50 倍加速采样,还能做到确定性生成、 latent 插值!
数智工坊2 天前
论文阅读·人工智能·深度学习
【VAE 论文阅读| ICLR 2014】:变分自编码器——深度生成模型的理论基石在VAE出现之前,深度生成模型一直被三个难题卡住:这篇论文直接用变分推断+重参数化一把梭哈,从此VAE成为生成模型三大支柱之一。
数智工坊3 天前
网络·论文阅读
【ECNDNet论文阅读|图像去噪经典】:融合残差、BN与空洞卷积的增强型去噪网络图像去噪的退化模型: y=x+μy = x + \muy=x+μ传统深度CNN去噪(如DnCNN)存在两个硬伤:
数智工坊4 天前
论文阅读·yolo·transformer
【RT-DETR论文阅读】:首个实时端到端Transformer检测器,DETR正式超越YOLO长久以来,实时检测领域一直是YOLO家族的天下,但它们都绕不开一个“拖油瓶”——NMS。 NMS不仅拖慢速度,还严重影响精度稳定性。
数智工坊4 天前
论文阅读·人工智能·迁移学习
【Transfer CLIP论文阅读】跨模态大模型赋能!CLIP迁移学习实现超强泛化图像去噪图像去噪作为计算机视觉底层核心任务,不管是手机拍照、医学影像还是监控画面,都离不开它。但传统深度学习去噪方法有个致命bug:在训练集噪声上表现拉满,碰到分布外(OOD)噪声直接拉胯,比如训练用高斯噪声,碰到真实相机噪声、CT噪声就歇菜。
小马哥crazymxm4 天前
论文阅读·科技·考研
arXiv论文周选 (2026-W18)更新时间: 2026-05-03精选论文,用EasyRader可全文翻译、生成结构化导读、思维导图,节省80%阅读时间 EasyReader论文阅读 - 易读论文阅读| 科研文献翻译
薛定e的猫咪5 天前
论文阅读·人工智能·深度学习
强化学习中的OOD检测:从状态异常到分布偏移摘要:本文系统梳理强化学习(RL)场景下 Out-of-Distribution(OOD)检测的问题定义、四类检测对象(状态 / 动作 / 转移 / 轨迹)、六类主流检测方法,以及代表论文与可复现的开源代码,帮助研究者和工程师建立一套可操作的 RL OOD 检测知识框架。本文是"强化学习 OOD 与可信决策"系列第 1 篇,侧重 检测;第 2 篇侧重检测之后的 决策与行动。
Chunyyyen5 天前
论文阅读
【第四十三周】论文阅读本周完成Glyph项目的复现,同时阅读论文《Filter, Correlate, Compress: Training-Free Token Reduction for MLLM Acceleration》
数智工坊6 天前
论文阅读·深度学习·transformer
【Mask2Former论文阅读】:基于掩码注意力的通用分割Transformer,大一统全景/实例/语义分割在计算机视觉里,图像分割长期被三大任务割据:过去的模型各玩各的: FCN 系主打语义,Mask R-CNN 系主打实例,全景模型又要重新设计。
大模型最新论文速读6 天前
论文阅读·人工智能·深度学习·机器学习·自然语言处理
Select to Think:蒸馏 token 排序能力,效果平均提升24%SLM 的效果差不是因为它不会,而是它没把正确答案排到第一;蒸馏排序能力让 SLM 效果平均提升 24%
chnyi6_ya6 天前
论文阅读·人工智能·学习
论文笔记 | RefineAnything:面向完美局部细节的多模态区域精细化论文:RefineAnything: Multimodal Region-Specific Refinement for Perfect Local Details arXiv: 2604.06870 (2026.04)
数智工坊7 天前
网络·论文阅读·人工智能·深度学习·transformer
【SAM-DETR论文阅读】:基于语义对齐匹配的DETR极速收敛检测框架DETR 凭借端到端、无Anchor、无NMS封神检测领域,但有个致命痛点: 收敛速度极慢,需要 500 epoch 才能训练好,是 Faster R-CNN 的 10 倍以上。
张较瘦_8 天前
论文阅读·人工智能·软件工程
[论文阅读] AI + 软件工程 | 突破LLM代码生成瓶颈:编程知识图谱(PKG)让检索增强更精准如今,大语言模型(LLM)已经能搞定不少日常编程任务,比如写个简单的排序函数、处理字符串拼接。但遇到复杂场景——比如要调用不常用的API、处理边界案例(像输入为空、数据类型不匹配),或者遵循特定编程规范时,LLM就容易“掉链子”。
传说故事8 天前
论文阅读·人工智能·机器人·具身智能
【论文阅读】HY-Embodied-0.5: Embodied Foundation Models for Real-World Agents腾讯团队研发了一套专为机器人设计的视觉语言模型(VLM),通过独特的架构和训练方法,让机器人能更精准地看懂世界、进行空间推理并规划行动。
传说故事8 天前
论文阅读·人工智能·机器人·具身智能·世界模型
【论文阅读】RISE: Self-Improving Robot Policy with Compositional World Model让机器人在"想象空间"里通过世界模型做梦练习,用预测未来+评估好坏的组合方式自我提升策略,避免真实世界中昂贵的试错成本。
传说故事9 天前
论文阅读·人工智能·diffusion
【论文阅读】Diffusion Forcing: Next-token Prediction Meets Full-Sequence Diffusion本文提出了一种叫“扩散强制(Diffusion Forcing)”的新方法,让模型既能像GPT一样自由地生成长短不一的序列(如视频、动作),又能像全序列扩散模型一样进行全局规划和纠错,解决了长序列生成容易“崩”掉的问题。
数智工坊10 天前
论文阅读·人工智能·深度学习·机器学习·数据挖掘·回归·cnn
【SIoU Loss论文阅读】:引入角度感知的框回归损失,让检测收敛更快更准在目标检测里,框回归损失直接决定收敛快慢与定位精度。 从 IoU → GIoU → DIoU → CIoU,大家一直在优化: