prompt、agent、Stable Diffusion、Midjourney、lora、ComfyUI一文介绍

提示词(prompt)是用户输入的文本描述,用于精准指导 AI 生成符合预期的内容。它是人与 AI 沟通的核心桥梁,直接决定生成结果的质量和准确性。是输入的文本描述,用于指导 AI 生成内容,分为 "正向提示词"(需包含的元素)和 "反向提示词"(需避免的元素,如 "模糊、低画质")。

提示词的核心作用

  1. 定义主体内容

    明确 AI 需要生成的核心对象,例如 "一只戴围巾的橘猫""未来科技感的城市夜景"。

  2. 控制细节与风格

    补充画面元素、风格、氛围等细节,例如 "油画风格,夕阳下的麦田,金色光线,梵高笔触"。

  3. 约束输出方向

    避免 AI 生成偏离需求的内容,例如 "禁止出现人物,极简主义,白色背景"。

智能体(agent):智能体是基于对话的 AI 项目,它通过对话方式接收用户的输入,由大模型自动调用插件或工作流等方式执行用户指定的业务流程,并生成最终的回复。智能客服、虚拟伴侣、个人助理、英语外教都是智能体的典型应用场景。

可以在coze扣子平台创建智能体,并为他赋予独特的技能。

Stable Diffusion(SD):是一种开源的文本到图像生成模型,它基于扩散模型(Diffusion Models)原理,通过将噪声逐步转换为目标图像来实现高质量的AI绘画。,SD开源免费,但是上手难度和学习成本略大,并且非常吃电脑配置(显卡、内存)。不直接提供操作界面,需要通过工具调用。

**webUI:操作 Stable Diffusion 的 "可视化界面",**基于网页的图形化操作界面,是普通用户使用 Stable Diffusion 的主要方式。面向普通用户,操作简单,开箱即用。

除了 Automatic1111,还有 InvokeAI、ComfyUI 等其他 WebUI(ComfyUI 更偏向节点式专业操作)。

LoRA:轻量级模型微调技术

  • Low-Rank Adaptation(低秩适应)的缩写,是一种高效微调 Stable Diffusion 模型的技术,用于让模型学习特定风格、人物、物体等特征。
  • 核心功能
    • 解决传统微调的缺点:传统微调需要修改模型全部参数,耗时长、占存大;LoRA 仅训练少量 "低秩矩阵" 参数,轻量化且效果好。
    • 应用场景:
      • 训练特定角色(如动漫人物、真人明星)。
      • 学习特定风格(如油画、二次元、赛博朋克)。
      • 控制特定元素(如服装、姿势、场景)。
  • 特点
    • 文件体积小(通常几十到几百 MB),易于分享和加载。
    • 需配合基础模型(如 Stable Diffusion v1.5、SDXL)使用,不能单独生成图像。
    • 在 WebUI 中可一键加载,通过提示词触发(如<lora:模型名:权重>)。

ComfyUI的全称为 Comfortable User Interface (舒适的用户界面)。这一名称直接体现了其设计核心理念:通过可视化节点系统,为用户提供更灵活、可控且低学习门槛的 AI 图像生成操作体验。是一个模块化的用户界面工具,专为AI创作设计,允许用户通过节点式工作流(node-based workflow)来构建、管理和执行复杂的AI模型任务。简单来说,ComfyUI充当了Stable Diffusion的"操作台":它提供了一个可视化环境,让用户无需编写代码即可加载、配置和运行Stable Diffusion模型,生成图像

ComfyUI以工作流 的形态完成指定任务,可以减少工作量,类似扣子空间coze的工作流:生成美女跳舞视频、鸡汤视频等

基础流程 :用户通过 WebUI 输入提示词,选择参数,加载 LoRA 模型,最终由 Stable Diffusion 核心模型计算生成图像。

**Midjourney:**是当前最流行的 AI 图像生成工具,闭源商业产品,不提供模型下载,需通过订阅制使用,主要通过 Discord 机器人交互(输入指令生成图像),2023 年后推出独立网页版,但核心功能仍依赖平台。用户无法修改模型或底层逻辑,所有生成依赖官方服务器,参数调节权限有限。

国内的即梦、可灵AI是抖音、快手推出的一站式AI创作平台 ,不开源模型支持AI视频生成AI图片生成。用户可通过自然语言或图片输入生成高质量的图像和视频。即梦AI提供AI绘画、智能画布、视频生成以及故事创作等多种功能,但是这些平台有生成限制,生成的多需要付费。

**模型介绍:**AI 文字生成和图像生成领域,有许多主流模型,文字生成模型如 GPT-4.1、文心一言等、图像生成模型有Stable Diffusion、StyleGAN 4。

豆包和 DeepSeek 都不是单一的模型,而是一系列模型。

文心一言(英文名:ERNIE Bot)是百度打造的人工智能大语言模型。

豆包是字节跳动自研的 AI 大模型,是一个有多模态能力的模型家族。它包含豆包通用模型 pro、豆包通用模型 lite 两个通用模型,以及豆包・角色扮演模型、豆包・语音识别模型、豆包・语音合成模型、豆包・声音复刻模型、豆包・文生图模型、豆包・Function Call 模型、豆包・向量化模型七个细分领域模型,共计 9 个模型。此外,豆包大模型还有 1.6 系列,包括 Doubao-Seed-1.6、Doubao-Seed-1.6-thinking、Doubao-Seed-1.6-flash 等子模型。

DeepSeek 是深度求索公司研发的一系列大语言模型,其产品线主要分为 V 系列(Deepseek Chat)与 R 系列(Deepseek Reasoning)两大类。DeepSeek 系列模型包括 R1、V3、VL、V2、R1-Zero 等,还有从 R1 数据蒸馏得到的蒸馏版 Qwen 和 Llama 小模型。

学习链接:

可灵 AI 使用指南 - 轻雀文档

什么是扣子 - 文档 - 扣子

AI工具集官网 | 1000+ AI工具集合,国内外AI工具集导航大全