AI修出写真照

🎨 Picture Painter

CHROMA STUDIO · 图生文 · 文生图

参考图分析风格 → 按描述生成新图,并锁定人物面部


解决什么问题

修图或 AI 出图时,常见需求是:

含义
图 A 想要的光影、构图、色彩、氛围
图 B 必须保留身份的人物照

手写提示词很难同时表达「风格像 A、脸必须是 B」。本项目用两步流水线自动完成:

图 1:风格参考 → 图生文 → 文生图(面部保真)

  1. 图生文 --- 从风格参考图生成专业修图/场景描述(不针对换脸)
  2. 文生图 --- 将描述与人物参考图交给图像 API,在保真面部的前提下生成新图

功能概览

步骤 能力 可选后端
① 图生文 上传参考图 + 身份提示 本地 Qwen VL · OpenAI 兼容多模态 API
② 文生图 描述 + 人物参考图 火山方舟豆包 Seedream · MiniMax 图像 API

环境要求

  • Python 3.10+
  • 本地图生文 :视觉模型置于 checkpoint/xy_model(见目录内说明),建议 NVIDIA GPU + CUDA
  • 文生图:配置对应平台 API Key(环境变量,勿提交 Git)

checkpoint/config.local.yaml 已写入 .gitignore,克隆后需自行准备模型与本地配置。


快速开始

bash 复制代码
# 1. 安装依赖
pip install -r requirements.txt

# 2. 本地配置(勿把密钥提交仓库)
copy config.yaml config.local.yaml
# 指定配置路径:
# set PICTURE_PAINTER_CONFIG=D:\path\config.local.yaml

# 3. API Key(名称以 config 中 api_key_env 为准)
set ARK_API_KEY=your_ark_key
set MINIMAX_API_KEY=your_minimax_key
set OPENAI_API_KEY=your_openai_key

# 4. 启动 → 默认 http://127.0.0.1:8000 ,自动打开浏览器
python server.py

界面操作:上传风格参考图 → 生成描述 → 上传人物参考图 → 生成图片


配置说明

主配置 config.yaml,常用项:

配置项 说明
vision_caption.backend local | openai_compatible
image_generation.backend doubao_ark | minimax_api | none
server.host / server.port 服务地址
model_catalog 前端可选模型列表
paths.checkpoint_relative 本地模型路径(默认 checkpoint/xy_model

项目结构

复制代码
picture_painter/
├── docs/assets/        # README 配图
├── server.py           # FastAPI 入口
├── index.html          # Vue 前端
├── caption_backend.py  # 图生文
├── doubao_ark_image.py # 豆包文生图
├── minimax_image.py    # MiniMax 文生图
├── config.yaml         # 默认配置模板
└── checkpoint/         # 本地视觉模型(git 忽略)

项目展示

B站: link

csdn: link

github: link

相关推荐
百胜软件@百胜软件1 天前
百胜软件亮相“AI消费新生活”主题日活动,AI智能运营平台入选市级案例征集
人工智能·生活·零售数字化·数智中台·珠宝行业
专注搞钱1 天前
GPT-4o写设备Recipe:从3小时到10分钟
数据库·人工智能·gpt·半导体
闻道参看1 天前
贝芯宠AI灵兽 ELFVET 大模型聚焦临床应用,强化宠物诊疗综合能力
人工智能·宠物
MartinYeung51 天前
[论文学习]重新思考大型语言模型忘却目标:梯度视角与超越
人工智能·学习·语言模型
财经资讯数据_灵砚智能1 天前
基于全球经济类多源新闻的NLP情感分析与数据可视化(夜间-次晨)2026年6月14日
大数据·人工智能·python·ai·信息可视化·自然语言处理·灵砚智能
m0_380167141 天前
加密货币价格 API、市场数据 API 与 分析 API 有什么区别?
人工智能·ai·区块链
zyplayer-doc1 天前
企业知识库安全与权限管理完全指南:从加密到审计的六层防护
人工智能·安全·pdf·编辑器·创业创新
后端小肥肠1 天前
小红书笔记爆了 17 万后,我用 Obsidian + Skill 实现了“一句话选品”
人工智能·aigc·agent
哈哈,柳暗花明1 天前
人工智能专业术语详解(M)
人工智能·专业术语
木叶子---1 天前
前端打包出错
前端·人工智能·tensorflow