前言
DALL-E 4刚发布,我第一时间扒了一遍官方信息和早期测试反馈,整理成这篇文章。
对AI图像生成感兴趣的开发者和创作者应该都关注到了------这次升级不是小修小补,而是几乎重构了上限:分辨率从2K拉到4096×4096,支持数百种艺术风格,还塞进了视频生成能力。
本文适合:
- 正在做AI图像/视频相关项目的开发者
- 想了解DALL-E 4技术变化的AI从业者
- 准备把DALL-E API集成进产品的工程师
一、核心升级一览
1.1 分辨率:2K → 4K
DALL-E 3的输出上限是1792×1024,这次直接干到4096×4096。
这意味着什么?实际用途上:
- 印刷物料直接可用(海报、书籍封面)
- 大屏展示不虚(展览、会议背景墙)
- 后期裁剪空间大了不少
对开发者来说,API调用时新增了quality: "hd-4k"参数:
python
复制
import openai
client = openai.OpenAI()
response = client.images.generate(
model="dall-e-4",
prompt="a photorealistic portrait of a cyberpunk city at night, detailed",
size="4096x4096",
quality="hd-4k",
n=1,
)
image_url = response.data[0].url
print(image_url)
注意:4K分辨率消耗token更多,按API价格预估约是标准画质的3-4倍,商业项目记得算好成本。
1.2 艺术风格:从几十种到数百种
DALL-E 3支持的风格有限,很多时候靠Prompt硬堆关键词。DALL-E 4内置了数百种风格标签,可以在系统参数里直接指定:
python
复制
response = client.images.generate(
model="dall-e-4",
prompt="a landscape",
style="ukiyo-e", # 浮世绘
# 其他可选:watercolor, oil-painting, pixel-art, anime, 3d-render...
size="1024x1024",
quality="standard",
n=1,
)
实测结果:内置风格标签比在Prompt里写"ukiyo-e style"准确很多,尤其是小众风格的还原度提升明显。
1.3 视频生成:图像转视频初登场
这是这次最大的新方向------DALL-E 4支持从文本或图像生成短视频(目前最长5秒)。
python
复制
# 文本生成视频(preview功能,需申请白名单)
response = client.videos.generate(
model="dall-e-4-video",
prompt="a slow-motion wave crashing on a beach at sunset",
duration=5,
fps=24,
resolution="1920x1080",
)
video_url = response.data[0].url
目前视频生成是preview状态,需要单独申请API权限,不是默认开放。生成质量在5秒短片范围内表现不错,运动连贯性比早期版本改善很多。
二、图像编辑能力增强
这次编辑功能也升级了,Inpainting(局部重绘)精度提高了一大截。
以前用DALL-E做局部修改,边缘融合经常很奇怪,现在好多了:
python
复制
import base64
from pathlib import Path
# 读取原图和遮罩
original_image = base64.b64encode(Path("original.png").read_bytes()).decode()
mask_image = base64.b64encode(Path("mask.png").read_bytes()).decode()
response = client.images.edit(
model="dall-e-4",
image=original_image,
mask=mask_image,
prompt="replace the background with a sunlit forest",
size="1024x1024",
)
遮罩文件格式要求:PNG,透明区域为需要重绘的部分,白色区域保留原图。这个坑我踩过,白色和透明搞反了会导致整图被替换。
三、安全机制改进
DALL-E 4在内容安全上做了一些改变,主要体现在:
- 减少过度拒绝:以前一些正常的艺术创作请求会莫名被拒,这次改善了
- 更精准的违规检测:针对真实人物、版权内容的识别更准确
- 错误信息更清晰:被拒绝时会返回具体原因,而不是笼统的"内容违规"
这对做内容审核相关产品的开发者是个好消息,误伤率下降会减少很多用户投诉。
四、API变更小结
主要变化点,升级前确认一下:
| 参数 | DALL-E 3 | DALL-E 4 |
|---|---|---|
model |
dall-e-3 |
dall-e-4 |
| 最大尺寸 | 1792x1024 |
4096x4096 |
quality |
standard, hd |
standard, hd, hd-4k |
style |
vivid, natural |
扩展为数百种标签 |
| 视频生成 | 不支持 | preview阶段 |
Prompt工程上没有太大变化,之前的Prompt大部分可以直接复用,风格相关的Prompt可以迁移到style参数里,通常效果更好。
五、总结
DALL-E 4这次升级的核心变化:
- 分辨率到4K------印刷级输出,覆盖更多商业场景
- 风格系统重构------内置数百种风格,减少Prompt工程量
- 视频生成上线------还在preview阶段,但方向已经明确
- 编辑精度提升------Inpainting边缘融合改善明显
- 安全误伤减少------减少正常创作被误拒的情况
如果你现在在用DALL-E 3的API,可以直接把model改成dall-e-4测试一下,大部分场景应该是即插即用的。4K分辨率的成本稍高,按需选用就好。
视频生成那部分值得关注,申请了preview白名单的可以先跑起来测试。
你目前在项目里用到AI图像生成了吗?DALL-E 4有没有解决你之前的痛点?