战胜DALL·E 3和 Midjourney的开源模型来了——playground-v2.5

这是首次超越闭源AI模型的开源时刻。Playground AI 前不久宣布Playground v2.5正式开源。Playground v2.5 是美学质量方面最先进的开源模型,特别关注增强的颜色和对比度、改进的多纵横比生成以及改进的以人为中心的精细细节。并且在美学质量方面树立了新标准,超越了 SDXL 和 PIXART-α 等领先的开源模型,以及其前身 Playground v2。Playground v2.5 和 SDXL 之间的巨大性能差距促使人们进一步比较了 DALL-E 3 和 Midjourney 5.2 等顶级闭源模型。令人印象深刻的是,Playground v2.5 始终超越这些竞争对手,再次证明了其在生成视觉震撼图像方面的优势。

Playground v2.5 功能

颜色和对比度增强

Playground v2.5 使用 EDM 框架,改进了噪点调度,以实现鲜艳的色彩和深对比度。

这使得产生更逼真和令人印象深刻的图像成为可能。

改进了多种纵横比的生成

改善人员代表性

面部细节、眼睛形状、头发纹理和整体照明等表示在生成人体图像时尤为重要。

在 Playground v2.5 中,开发了一种新的对齐方法,其灵感来自 Emu,在这些以人为本的类别中表现良好。

最后

附上一张 RTX2070 vram 8G 运行的截图

参考

https://marketing-cdn.playground.com/research/pgv2.5_compressed.pdf

https://playground.com/blog/playground-v2-5

相关推荐
云知谷2 小时前
【C++基本功】C++适合做什么,哪些领域适合哪些领域不适合?
c语言·开发语言·c++·人工智能·团队开发
rit84324992 小时前
基于MATLAB实现基于距离的离群点检测算法
人工智能·算法·matlab
初学小刘3 小时前
深度学习:从图片数据到模型训练(十分类)
人工智能·深度学习
递归不收敛4 小时前
大语言模型(LLM)入门笔记:嵌入向量与位置信息
人工智能·笔记·语言模型
之墨_4 小时前
【大语言模型】—— 自注意力机制及其变体(交叉注意力、因果注意力、多头注意力)的代码实现
人工智能·语言模型·自然语言处理
从孑开始5 小时前
ManySpeech.MoonshineAsr 使用指南
人工智能·ai·c#·.net·私有化部署·语音识别·onnx·asr·moonshine
墨风如雪5 小时前
DeepSeek OCR:用'眼睛'阅读长文本,AI记忆新纪元?
aigc
涛涛讲AI5 小时前
一段音频多段字幕,让音频能够流畅自然对应字幕 AI生成视频,扣子生成剪映视频草稿
人工智能·音视频·语音识别
可触的未来,发芽的智生5 小时前
新奇特:黑猫警长的纳米世界,忆阻器与神经网络的智慧
javascript·人工智能·python·神经网络·架构
WWZZ20256 小时前
快速上手大模型:机器学习2(一元线性回归、代价函数、梯度下降法)
人工智能·算法·机器学习·计算机视觉·机器人·大模型·slam