OpenAI 发布 DALL-E 4：4K分辨率+视频生成，AI图像创作进入新阶段

前言

DALL-E 4刚发布，我第一时间扒了一遍官方信息和早期测试反馈，整理成这篇文章。

对AI图像生成感兴趣的开发者和创作者应该都关注到了------这次升级不是小修小补，而是几乎重构了上限：分辨率从2K拉到4096×4096，支持数百种艺术风格，还塞进了视频生成能力。

本文适合：

正在做AI图像/视频相关项目的开发者
想了解DALL-E 4技术变化的AI从业者
准备把DALL-E API集成进产品的工程师

一、核心升级一览

1.1 分辨率：2K → 4K

DALL-E 3的输出上限是1792×1024，这次直接干到4096×4096。

这意味着什么？实际用途上：

印刷物料直接可用（海报、书籍封面）
大屏展示不虚（展览、会议背景墙）
后期裁剪空间大了不少

对开发者来说，API调用时新增了quality: "hd-4k"参数：

python

复制

复制代码

import openai

client = openai.OpenAI()

response = client.images.generate(
    model="dall-e-4",
    prompt="a photorealistic portrait of a cyberpunk city at night, detailed",
    size="4096x4096",
    quality="hd-4k",
    n=1,
)

image_url = response.data[0].url
print(image_url)

注意：4K分辨率消耗token更多，按API价格预估约是标准画质的3-4倍，商业项目记得算好成本。

1.2 艺术风格：从几十种到数百种

DALL-E 3支持的风格有限，很多时候靠Prompt硬堆关键词。DALL-E 4内置了数百种风格标签，可以在系统参数里直接指定：

python

复制

复制代码

response = client.images.generate(
    model="dall-e-4",
    prompt="a landscape",
    style="ukiyo-e",  # 浮世绘
    # 其他可选：watercolor, oil-painting, pixel-art, anime, 3d-render...
    size="1024x1024",
    quality="standard",
    n=1,
)

实测结果：内置风格标签比在Prompt里写"ukiyo-e style"准确很多，尤其是小众风格的还原度提升明显。

1.3 视频生成：图像转视频初登场

这是这次最大的新方向------DALL-E 4支持从文本或图像生成短视频（目前最长5秒）。

python

复制

复制代码

# 文本生成视频（preview功能，需申请白名单）
response = client.videos.generate(
    model="dall-e-4-video",
    prompt="a slow-motion wave crashing on a beach at sunset",
    duration=5,
    fps=24,
    resolution="1920x1080",
)

video_url = response.data[0].url

目前视频生成是preview状态，需要单独申请API权限，不是默认开放。生成质量在5秒短片范围内表现不错，运动连贯性比早期版本改善很多。

二、图像编辑能力增强

这次编辑功能也升级了，Inpainting（局部重绘）精度提高了一大截。

以前用DALL-E做局部修改，边缘融合经常很奇怪，现在好多了：

python

复制

复制代码

import base64
from pathlib import Path

# 读取原图和遮罩
original_image = base64.b64encode(Path("original.png").read_bytes()).decode()
mask_image = base64.b64encode(Path("mask.png").read_bytes()).decode()

response = client.images.edit(
    model="dall-e-4",
    image=original_image,
    mask=mask_image,
    prompt="replace the background with a sunlit forest",
    size="1024x1024",
)

遮罩文件格式要求：PNG，透明区域为需要重绘的部分，白色区域保留原图。这个坑我踩过，白色和透明搞反了会导致整图被替换。

三、安全机制改进

DALL-E 4在内容安全上做了一些改变，主要体现在：

减少过度拒绝：以前一些正常的艺术创作请求会莫名被拒，这次改善了
更精准的违规检测：针对真实人物、版权内容的识别更准确
错误信息更清晰：被拒绝时会返回具体原因，而不是笼统的"内容违规"

这对做内容审核相关产品的开发者是个好消息，误伤率下降会减少很多用户投诉。

四、API变更小结

主要变化点，升级前确认一下：

参数	DALL-E 3	DALL-E 4
`model`	`dall-e-3`	`dall-e-4`
最大尺寸	`1792x1024`	`4096x4096`
`quality`	`standard`, `hd`	`standard`, `hd`, `hd-4k`
`style`	`vivid`, `natural`	扩展为数百种标签
视频生成	不支持	preview阶段

Prompt工程上没有太大变化，之前的Prompt大部分可以直接复用，风格相关的Prompt可以迁移到style参数里，通常效果更好。

五、总结

DALL-E 4这次升级的核心变化：

分辨率到4K------印刷级输出，覆盖更多商业场景
风格系统重构------内置数百种风格，减少Prompt工程量
视频生成上线------还在preview阶段，但方向已经明确
编辑精度提升------Inpainting边缘融合改善明显
安全误伤减少------减少正常创作被误拒的情况

如果你现在在用DALL-E 3的API，可以直接把model改成dall-e-4测试一下，大部分场景应该是即插即用的。4K分辨率的成本稍高，按需选用就好。

视频生成那部分值得关注，申请了preview白名单的可以先跑起来测试。

你目前在项目里用到AI图像生成了吗？DALL-E 4有没有解决你之前的痛点？