【老照片上色+在线运行】DDColor：阿里黑白图像上色模型（2022.12提出）

曾小蛙2024-01-23 18:07

2024-01-18\] `在线运行`demo： \[2023-12-13\] Release the DDColor-`tiny` pre-trained model! \[2023-09-07\] `Model Zoo` 多个模型发布: \[2023-05-15\] `代码开源` ： \[2022-12-22\] 发布`论文` [DDColor: Towards Photo-Realistic Image Colorization via Dual Decoders](https://readpaper.com/paper/4703845885247766529) ## 简介 ![在这里插入图片描述](https://file.jishuzhan.net/article/1749735613520678913/aa9f5b7aaac4e5dfd93983adaf04dd31.webp) `阿里巴巴摩院` 提出基于Unet+Transfomer(cross-attenrtion)。双解码结构的`图像上色着色` （**image colorization**）模型 由于图片残缺脱色破损等病态，多模态的信息的不确定性，自动图像着色是一个具有挑战性的问题。 直接训练深度神经网络通常会导致语义颜色不正确，颜色丰富度低（low color richness） 不像以前的方法是通过额外的网络或手动计算先验来优化颜色可能性，我们的方法使用基于变换的颜色解码器以端到端方式学习自适应语义感知的颜色嵌入。通过使用多尺度图像特征来学习颜色查询，我们的方法减轻了`颜色溢出`，并显著改善了小物体的着色(见图1)。在此基础上，我们提出了一种新的色彩损失，以提高生成结果的色彩丰富度。 ## 主要方法 为了使灰度图像XL上色，我们的模型首先使用`骨干网络`(**ConvNeXt** )提取其视觉特征。然后将这些特征输入`图像解码器`，解码器恢复图像的空间结构。 同时，`颜色解码器`利用图像解码器产生的不同尺度的图像特征学习自适应颜色查询（adaptive color queries）。 `融合模块`(fusion)将两个解码器产生的图像和颜色特征结合起来，产生**色彩生动，语义清晰** (vivid and semantic-aware color)的颜色输出。 最后，我们沿着通道维度(channel dimension)将y\^AB和xL `串联起来`，得到最终的着色结果。 (b)彩色解码器块的结构。以图像特征和`**可学习**`的颜色查询为输入，通过交叉注意、自注意和前馈操作(feed forward operations)建立语义和颜色表示之间的相关性 ![在这里插入图片描述](https://file.jishuzhan.net/article/1749735613520678913/2ed0adeeccfeb3536dd0766f597387ac.webp) 具体的：包括一个`多尺度`(multi-scale) `图像解码器`和一个基于transformer的`颜色解码器`( color decoder)。 前者恢复图像的空间分辨率，而后者通过`交叉注意`(cross-attention)建立颜色和语义表示之间的相关性。 我们的两个解码器不是使用额外的先验，而是协同工作以利用多尺度图像特征来指导自适应颜色查询的优化，从而显著减轻颜色溢出（color bleeding effects）效果。此外，还引入了一种简单而有效的`色彩损失`（colorfulness loss），以进一步提高生成结果的颜色丰富度。 ## 实测 ### 国内阿里demo(打开界面 右侧比较小)： ![在这里插入图片描述](https://file.jishuzhan.net/article/1749735613520678913/4f6e23e0ce8371e85c7c74804236aca1.webp) ![在这里插入图片描述](https://file.jishuzhan.net/article/1749735613520678913/e9ebc4d8ab8c5e57612dab978fa8e488.webp) ### replicate ![在这里插入图片描述](https://file.jishuzhan.net/article/1749735613520678913/dfe2bd1f27ce5bac0396dc40fe090804.webp) ### 本机部署测试 ![在这里插入图片描述](https://file.jishuzhan.net/article/1749735613520678913/46bba77888346542117e59cbace37488.webp)

上一篇：微软高管的邮件账户遭非法入侵

下一篇：纪念碑谷式错觉图像都被「看穿」，港大、TikTok的Depth Anything火了

热门推荐

01UV安装并设置国内源 02Qwen3-Coder 快速上手教程 | Qwen Code + Claude Code 03【2025.08.06最新版】Android Studio下载、安装及配置记录（自动下载sdk）04KGG转MP3工具|非KGM文件|解密音频 052025最新国内服务器可用docker源仓库地址大全（2025年8月更新）06NVIDIA显卡驱动、CUDA、cuDNN 和 TensorRT 版本匹配指南 07蜘蛛磁力搜索引擎大全，如何使用蜘蛛磁力查找磁力链接 08TRAE 规则（Rules）配置指南：个人习惯、团队规范与最佳实践 09阿里开源首个图像生成基础模型——Qwen-Image本地部署教程，超强中文渲染能力刷新SOTA！10全球最强模型Grok4，国内已可免费使用！（附教程）