prompt、agent、Stable Diffusion、Midjourney、lora、ComfyUI一文介绍

提示词（prompt）：是用户输入的文本描述，用于精准指导 AI 生成符合预期的内容。它是人与 AI 沟通的核心桥梁，直接决定生成结果的质量和准确性。是输入的文本描述，用于指导 AI 生成内容，分为 "正向提示词"（需包含的元素）和 "反向提示词"（需避免的元素，如 "模糊、低画质"）。

提示词的核心作用

定义主体内容

明确 AI 需要生成的核心对象，例如 "一只戴围巾的橘猫""未来科技感的城市夜景"。
控制细节与风格

补充画面元素、风格、氛围等细节，例如 "油画风格，夕阳下的麦田，金色光线，梵高笔触"。
约束输出方向

避免 AI 生成偏离需求的内容，例如 "禁止出现人物，极简主义，白色背景"。

智能体（agent）：智能体是基于对话的 AI 项目，它通过对话方式接收用户的输入，由大模型自动调用插件或工作流等方式执行用户指定的业务流程，并生成最终的回复。智能客服、虚拟伴侣、个人助理、英语外教都是智能体的典型应用场景。

可以在coze扣子平台创建智能体，并为他赋予独特的技能。

Stable Diffusion（SD）：是一种开源的文本到图像生成模型，它基于扩散模型（Diffusion Models）原理，通过将噪声逐步转换为目标图像来实现高质量的AI绘画。，SD开源免费，但是上手难度和学习成本略大，并且非常吃电脑配置（显卡、内存）。不直接提供操作界面，需要通过工具调用。

**webUI：操作 Stable Diffusion 的 "可视化界面"，**基于网页的图形化操作界面，是普通用户使用 Stable Diffusion 的主要方式。面向普通用户，操作简单，开箱即用。

除了 Automatic1111，还有 InvokeAI、ComfyUI 等其他 WebUI（ComfyUI 更偏向节点式专业操作）。

LoRA：轻量级模型微调技术

Low-Rank Adaptation（低秩适应）的缩写，是一种高效微调 Stable Diffusion 模型的技术，用于让模型学习特定风格、人物、物体等特征。
核心功能 ：
- 解决传统微调的缺点：传统微调需要修改模型全部参数，耗时长、占存大；LoRA 仅训练少量 "低秩矩阵" 参数，轻量化且效果好。
- 应用场景：
  - 训练特定角色（如动漫人物、真人明星）。
  - 学习特定风格（如油画、二次元、赛博朋克）。
  - 控制特定元素（如服装、姿势、场景）。
特点：
- 文件体积小（通常几十到几百 MB），易于分享和加载。
- 需配合基础模型（如 Stable Diffusion v1.5、SDXL）使用，不能单独生成图像。
- 在 WebUI 中可一键加载，通过提示词触发（如<lora:模型名:权重>）。

ComfyUI的全称为 Comfortable User Interface （舒适的用户界面）。这一名称直接体现了其设计核心理念：通过可视化节点系统，为用户提供更灵活、可控且低学习门槛的 AI 图像生成操作体验。是一个模块化的用户界面工具，专为AI创作设计，允许用户通过节点式工作流（node-based workflow）来构建、管理和执行复杂的AI模型任务。简单来说，ComfyUI充当了Stable Diffusion的"操作台"：它提供了一个可视化环境，让用户无需编写代码即可加载、配置和运行Stable Diffusion模型，生成图像

ComfyUI以工作流 的形态完成指定任务，可以减少工作量，类似扣子空间coze的工作流：生成美女跳舞视频、鸡汤视频等

基础流程 ：用户通过 WebUI 输入提示词，选择参数，加载 LoRA 模型，最终由 Stable Diffusion 核心模型计算生成图像。

**Midjourney：**是当前最流行的 AI 图像生成工具，闭源商业产品，不提供模型下载，需通过订阅制使用，主要通过 Discord 机器人交互（输入指令生成图像），2023 年后推出独立网页版，但核心功能仍依赖平台。用户无法修改模型或底层逻辑，所有生成依赖官方服务器，参数调节权限有限。

国内的即梦、可灵AI是抖音、快手推出的一站式AI创作平台，不开源模型支持AI视频生成和AI图片生成。用户可通过自然语言或图片输入生成高质量的图像和视频。即梦AI提供AI绘画、智能画布、视频生成以及故事创作等多种功能，但是这些平台有生成限制，生成的多需要付费。

**模型介绍：**AI 文字生成和图像生成领域，有许多主流模型，文字生成模型如 GPT-4.1、文心一言等、图像生成模型有Stable Diffusion、StyleGAN 4。

豆包和 DeepSeek 都不是单一的模型，而是一系列模型。

文心一言（英文名：ERNIE Bot）是百度打造的人工智能大语言模型。

豆包是字节跳动自研的 AI 大模型，是一个有多模态能力的模型家族。它包含豆包通用模型 pro、豆包通用模型 lite 两个通用模型，以及豆包・角色扮演模型、豆包・语音识别模型、豆包・语音合成模型、豆包・声音复刻模型、豆包・文生图模型、豆包・Function Call 模型、豆包・向量化模型七个细分领域模型，共计 9 个模型。此外，豆包大模型还有 1.6 系列，包括 Doubao-Seed-1.6、Doubao-Seed-1.6-thinking、Doubao-Seed-1.6-flash 等子模型。

DeepSeek 是深度求索公司研发的一系列大语言模型，其产品线主要分为 V 系列（Deepseek Chat）与 R 系列（Deepseek Reasoning）两大类。DeepSeek 系列模型包括 R1、V3、VL、V2、R1-Zero 等，还有从 R1 数据蒸馏得到的蒸馏版 Qwen 和 Llama 小模型。

学习链接：

可灵 AI 使用指南 - 轻雀文档

什么是扣子 - 文档 - 扣子

AI工具集官网 | 1000+ AI工具集合，国内外AI工具集导航大全