OpenAI 发布 DALL-E 4:4K分辨率+视频生成,AI图像创作进入新阶段

前言

DALL-E 4刚发布,我第一时间扒了一遍官方信息和早期测试反馈,整理成这篇文章。

对AI图像生成感兴趣的开发者和创作者应该都关注到了------这次升级不是小修小补,而是几乎重构了上限:分辨率从2K拉到4096×4096,支持数百种艺术风格,还塞进了视频生成能力。

本文适合:

  • 正在做AI图像/视频相关项目的开发者
  • 想了解DALL-E 4技术变化的AI从业者
  • 准备把DALL-E API集成进产品的工程师

一、核心升级一览

1.1 分辨率:2K → 4K

DALL-E 3的输出上限是1792×1024,这次直接干到4096×4096。

这意味着什么?实际用途上:

  • 印刷物料直接可用(海报、书籍封面)
  • 大屏展示不虚(展览、会议背景墙)
  • 后期裁剪空间大了不少

对开发者来说,API调用时新增了quality: "hd-4k"参数:

python

复制

复制代码
import openai

client = openai.OpenAI()

response = client.images.generate(
    model="dall-e-4",
    prompt="a photorealistic portrait of a cyberpunk city at night, detailed",
    size="4096x4096",
    quality="hd-4k",
    n=1,
)

image_url = response.data[0].url
print(image_url)

注意:4K分辨率消耗token更多,按API价格预估约是标准画质的3-4倍,商业项目记得算好成本。

1.2 艺术风格:从几十种到数百种

DALL-E 3支持的风格有限,很多时候靠Prompt硬堆关键词。DALL-E 4内置了数百种风格标签,可以在系统参数里直接指定:

python

复制

复制代码
response = client.images.generate(
    model="dall-e-4",
    prompt="a landscape",
    style="ukiyo-e",  # 浮世绘
    # 其他可选:watercolor, oil-painting, pixel-art, anime, 3d-render...
    size="1024x1024",
    quality="standard",
    n=1,
)

实测结果:内置风格标签比在Prompt里写"ukiyo-e style"准确很多,尤其是小众风格的还原度提升明显。

1.3 视频生成:图像转视频初登场

这是这次最大的新方向------DALL-E 4支持从文本或图像生成短视频(目前最长5秒)。

python

复制

复制代码
# 文本生成视频(preview功能,需申请白名单)
response = client.videos.generate(
    model="dall-e-4-video",
    prompt="a slow-motion wave crashing on a beach at sunset",
    duration=5,
    fps=24,
    resolution="1920x1080",
)

video_url = response.data[0].url

目前视频生成是preview状态,需要单独申请API权限,不是默认开放。生成质量在5秒短片范围内表现不错,运动连贯性比早期版本改善很多。


二、图像编辑能力增强

这次编辑功能也升级了,Inpainting(局部重绘)精度提高了一大截。

以前用DALL-E做局部修改,边缘融合经常很奇怪,现在好多了:

python

复制

复制代码
import base64
from pathlib import Path

# 读取原图和遮罩
original_image = base64.b64encode(Path("original.png").read_bytes()).decode()
mask_image = base64.b64encode(Path("mask.png").read_bytes()).decode()

response = client.images.edit(
    model="dall-e-4",
    image=original_image,
    mask=mask_image,
    prompt="replace the background with a sunlit forest",
    size="1024x1024",
)

遮罩文件格式要求:PNG,透明区域为需要重绘的部分,白色区域保留原图。这个坑我踩过,白色和透明搞反了会导致整图被替换。


三、安全机制改进

DALL-E 4在内容安全上做了一些改变,主要体现在:

  • 减少过度拒绝:以前一些正常的艺术创作请求会莫名被拒,这次改善了
  • 更精准的违规检测:针对真实人物、版权内容的识别更准确
  • 错误信息更清晰:被拒绝时会返回具体原因,而不是笼统的"内容违规"

这对做内容审核相关产品的开发者是个好消息,误伤率下降会减少很多用户投诉。


四、API变更小结

主要变化点,升级前确认一下:

参数 DALL-E 3 DALL-E 4
model dall-e-3 dall-e-4
最大尺寸 1792x1024 4096x4096
quality standard, hd standard, hd, hd-4k
style vivid, natural 扩展为数百种标签
视频生成 不支持 preview阶段

Prompt工程上没有太大变化,之前的Prompt大部分可以直接复用,风格相关的Prompt可以迁移到style参数里,通常效果更好。


五、总结

DALL-E 4这次升级的核心变化:

  1. 分辨率到4K------印刷级输出,覆盖更多商业场景
  2. 风格系统重构------内置数百种风格,减少Prompt工程量
  3. 视频生成上线------还在preview阶段,但方向已经明确
  4. 编辑精度提升------Inpainting边缘融合改善明显
  5. 安全误伤减少------减少正常创作被误拒的情况

如果你现在在用DALL-E 3的API,可以直接把model改成dall-e-4测试一下,大部分场景应该是即插即用的。4K分辨率的成本稍高,按需选用就好。

视频生成那部分值得关注,申请了preview白名单的可以先跑起来测试。

你目前在项目里用到AI图像生成了吗?DALL-E 4有没有解决你之前的痛点?

相关推荐
67X2 小时前
【论文写作】基于深度学习的异常检测方法(Deep learning-based anomaly detection methods)
深度学习·网络安全
格林威2 小时前
工业相机异常处理实战:断连重连、丢帧检测、超时恢复状态机
开发语言·人工智能·数码相机·计算机视觉·视觉检测·机器视觉·工业相机
菜鸟‍2 小时前
【论文学习】Disco:基于邻接感知协同着色的密集重叠细胞实例分割方法
人工智能·学习·算法
Web极客码2 小时前
个人 AI 智能体的崛起和风险并存
人工智能·openclaw
攻城狮在此2 小时前
华三框式交换机IRF堆叠配置四(LACP MAD检测)
网络·架构
cskywit2 小时前
【CVPR2025】DefMamba突破固定扫描的枷锁的可变形视觉状态空间模型
人工智能
一叶飘零_sweeeet2 小时前
告别 AI 对话 “失忆”!Spring AI 聊天记忆底层原理与全场景落地实战
人工智能·spring·spring ai
SkyXZ~2 小时前
RDK-OE-LLM工具链量化SigLip全流程
人工智能·深度学习·rdk·地瓜机器人·rdks100·leap工具链
Learn Beyond Limits2 小时前
多层循环神经网络|Multi-layer RNNs
人工智能·rnn·深度学习·神经网络·机器学习·自然语言处理·nlp