目前阶段,DeepSeek R1是不能直接生成图片的,但可以通过优化文本后转换为SVG或HTML代码,再保存为图片。另外,Janus-Pro是DeepSeek的多模态模型,支持文生图,但需要本地部署或者使用第三方工具。还有第三方AI工具结合DeepSeek生成的提示词来生成图片。
DeepSeek 虽然本身并非多模态模型(如 R1 系列),但通过多种方法仍可实现文字生成图片或处理图片的需求。以下是我综合目前多个来源总结的具体方法及步骤:
一、直接生成 SVG 图片
DeepSeek R1 支持直接生成 SVG 格式 的矢量图代码,用户可将其保存为 .svg
文件并通过浏览器查看。具体步骤:
优化文本内容:使用"背景颜色+页面元素需求+约束条件"模板或模仿特定风格优化原始文本。
- 示例提问:" 帮我生成图片:生成一个高端一点的,纯色,渐变的背景图,不要有其他元素,图片风格为清新,尺寸为16:9,主色调:科技蓝(#007BFF)或环保绿(#28A745),渐变过渡,体现科技感和环保主题*"*
- 转换为 SVG :要求 DeepSeek 将优化后的文本转为 SVG 代码,并指定配色、布局等要求。
-
示例指令:"将上述内容转为 SVG 图片,要求配色简约,布局清晰。"
-
这样生成的代码可直接保存为
.svg
文件,或通过在线工具调整样式。 -
如果觉得生成的样式是满意的样式,则复制整块内容,创建一个新文件,修改后缀名为 svg,再将内容贴进去就行了。
-
如果你觉得样式还需要调整,则根据 DeepSeek 提示的配色方案,布局结构等继续调整,直至满意为止。
二、利用html代码完成布局,生成 PNG/JPG 效果图片
-
若需生成常见格式(如 PNG、JPG),可通过以下两种方式:
-
生成 HTML 代码并转换 :
要求 DeepSeek 输出包含文本内容的 HTML 文件,并嵌入下载按钮(生成图片时隐藏按钮)。例如:先生成一篇
"将回答以攻略卡片风格展示为 HTML,每块文本对应一个卡片,配色简约。"运行 HTML 后,通过浏览器截图或使用工具(如 Puppeteer)导出为图片。
-
结合 Python 库 :
利用 DeepSeek 生成调用 Pillow 或 Matplotlib 的代码脚本,自动将文本转换为图片。
三、生成 Mermaid 图表
-
DeepSeek 支持 Mermaid 语法生成流程图、思维导图等图表。步骤:
-
要求生成特定主题的 Mermaid 代码(如书籍思维导图)。
-
示例指令:
"生成《悲惨世界》的思维导图,使用 Mermaid 格式。" -
-
-
将Mermaid数据 粘贴至 Mermaid Live 编辑器 渲染并导出为 PNG/SVG
-
四、结合第三方 AI 工具
DeepSeek 非常擅长生成提示词。所以可以通过 DeepSeek 先生成高质量的提示词,再借助专业文生图工具完成创作:
生成提示词:
-
要求 DeepSeek 输出英文提示词(效果优于中文),例如:
"生成一段英文提示词,描述'鲸鱼跃出海面喷水'的场景,包含细节和艺术风格。" -
使用工具生成图片 :
推荐工具包括 Midjourney(速度快、质量高)、Stable Diffusion(开源可定制)、即梦 AI(支持中文)、Bing Image Creator(基于 DALL·E 3)等。
五、使用多模态模型 Janus-Pro
- 部署步骤:
- 从 GitHub 克隆仓库,安装依赖并运行脚本(需 CUDA 支持)。
- 修改配置加载 7B 模型(需 8GB 以上显存)。
-
生成图片:
输入文本指令(如"生成现代风格的城市天际线"),模型会输出图片。实测显示其生成速度较慢,但指令跟随能力优于 Stable Diffusion。
六、图片处理与代码生成
-
示例 :
"生成 HTML 代码,将上传的图片转为像素圆点风格。"需多次调试代码并配合工具(如 Photoshop 脚本)实现效果。
总结与建议
-
优先场景:直接生成 SVG 或 Mermaid 图表适合快速可视化;复杂图片建议结合第三方工具。
-
性能考量:Janus-Pro 适合本地部署用户,但对硬件要求较高;普通用户推荐即梦 AI 或 Midjourney。
-
提示词优化:通过 DeepSeek 优化提示词可显著提升生成质量,尤其是英文提示词