AI修出写真照

🎨 Picture Painter

CHROMA STUDIO · 图生文 · 文生图

参考图分析风格 → 按描述生成新图,并锁定人物面部


解决什么问题

修图或 AI 出图时,常见需求是:

含义
图 A 想要的光影、构图、色彩、氛围
图 B 必须保留身份的人物照

手写提示词很难同时表达「风格像 A、脸必须是 B」。本项目用两步流水线自动完成:

图 1:风格参考 → 图生文 → 文生图(面部保真)

  1. 图生文 --- 从风格参考图生成专业修图/场景描述(不针对换脸)
  2. 文生图 --- 将描述与人物参考图交给图像 API,在保真面部的前提下生成新图

功能概览

步骤 能力 可选后端
① 图生文 上传参考图 + 身份提示 本地 Qwen VL · OpenAI 兼容多模态 API
② 文生图 描述 + 人物参考图 火山方舟豆包 Seedream · MiniMax 图像 API

环境要求

  • Python 3.10+
  • 本地图生文 :视觉模型置于 checkpoint/xy_model(见目录内说明),建议 NVIDIA GPU + CUDA
  • 文生图:配置对应平台 API Key(环境变量,勿提交 Git)

checkpoint/config.local.yaml 已写入 .gitignore,克隆后需自行准备模型与本地配置。


快速开始

bash 复制代码
# 1. 安装依赖
pip install -r requirements.txt

# 2. 本地配置(勿把密钥提交仓库)
copy config.yaml config.local.yaml
# 指定配置路径:
# set PICTURE_PAINTER_CONFIG=D:\path\config.local.yaml

# 3. API Key(名称以 config 中 api_key_env 为准)
set ARK_API_KEY=your_ark_key
set MINIMAX_API_KEY=your_minimax_key
set OPENAI_API_KEY=your_openai_key

# 4. 启动 → 默认 http://127.0.0.1:8000 ,自动打开浏览器
python server.py

界面操作:上传风格参考图 → 生成描述 → 上传人物参考图 → 生成图片


配置说明

主配置 config.yaml,常用项:

配置项 说明
vision_caption.backend local | openai_compatible
image_generation.backend doubao_ark | minimax_api | none
server.host / server.port 服务地址
model_catalog 前端可选模型列表
paths.checkpoint_relative 本地模型路径(默认 checkpoint/xy_model

项目结构

复制代码
picture_painter/
├── docs/assets/        # README 配图
├── server.py           # FastAPI 入口
├── index.html          # Vue 前端
├── caption_backend.py  # 图生文
├── doubao_ark_image.py # 豆包文生图
├── minimax_image.py    # MiniMax 文生图
├── config.yaml         # 默认配置模板
└── checkpoint/         # 本地视觉模型(git 忽略)

项目展示

B站: link

csdn: link

github: link

相关推荐
薛定猫AI12 小时前
【深度解析】Hermes Agent + 多模型 API:构建可持续运行的自主 AI 工作流
人工智能
手写码匠12 小时前
手写 MoE(混合专家模型):从零实现大模型的稀疏激活架构
人工智能·深度学习·算法·aigc
MediaTea12 小时前
PyTorch:主要模块简介
人工智能·pytorch·python·深度学习·机器学习
技术小猪猪12 小时前
PromptOps:用Python构建生产级提示词工程体系
人工智能·python·ai·自动化·prompt
Black蜡笔小新12 小时前
自动化AI算法训练服务器/企业AI算力工作站DLTM赋能产业智能数字化升级
人工智能·算法·自动化
触底反弹12 小时前
C laude Code 最全技巧总结
人工智能
烟雨江南78512 小时前
跨通道回声消除与离线ASR流式转写的物理级对齐:基于Kaldi与WebRTC Audio Processing的深度重构实践
人工智能·webrtc·语音识别·ai质检
shchojj12 小时前
Advanced Technologies: Beyond Prompting - Choosig a model
人工智能
前端不太难12 小时前
破界而生:AI驱动的下一轮产业革命
人工智能·状态模式