【AI基础学习系列】五、AIGC从创意到创造

AIGC从创意到创造

什么是AIGC
AIGC适用场景
AIGC进阶
- 提示词
- 提示词局限性
AIGC使用

什么是AIGC

了解AI

AI是一个广泛而深入的概念，其定义可以从多个维度进行阐述。

基本定义：AI是研究、开发用于模拟、延伸和扩展人的智能行为的理论、方法、技术及应用系统的一门综合性科学。

技术与应用 ：AI技术包括但不限于机器学习 、深度学习 、自然语言处理 、计算机视觉 、专家系统等。这些技术使得机器学习能够像人类一样处理语言、音频、图像、视频等各种信息，并从中学习和推断。

底层逻辑与思维方式 ：AI的底层逻辑包括神经网络等计算模型，通过模拟生物神经网络的工作原理来实现智能运算。AI的思维方式包括归纳、演绎和类比等，这些思维方式使得机器能够处理复杂的数据和任务，并从中学习和推理。

AI研究流派

符号主义Symbolicism ：认知就是通过对有意义的表示符号进行推导计算，并将学习视为逆向演绎，主张用显式的公理和逻辑体系搭建人工智能系统。优点是逻辑规则清晰和易解释性。缺点是难以处理模糊和不确定性的问题。典型应用在智能决策和自动控制。
联结主义Connectionism ：利用数学建模来研究人类认知的方法，用神经元的连接截止实现人工智能。优点是能模拟人脑处理信息。缺点是训练要大量时间和资源，缺乏可解释性。典型应用是深度学习和神经网络，图像和语音识别；
行为主义Actionism ：以控制论即感知-动作型控制系统原理模拟行为以复现人类智能；优点是能处理实时环境信息。缺点是需要大量数据和运算，应用范围窄。典型应用是机器人导航和操作控制，机器人和自主控制系统。

内容生成方式的变化趋势

互联网内容生成方式变迁：

互联网形态	Web1	Web2	Web3元宇宙
内容生成方式	PGC（专业生产）	UGC（用户生产）	AIGC（AI生产）
生成主体	专业人（如记者、撰稿人）	非专业人（如抖音网红、微博大V）	非人（如GPT \QWEN ）
核心特点	内容质量高	内容丰富度高	生活效率高

AIGC是指利用人工智能技术生成的内容。AIGC被认为是继专业生成内容（PGC）和用户生成内容（UGC）之后，利用AI技术自动生活曾内容的新型生产方式。

AIGC发展和标志性事件

早期萌芽阶段：小范围实验和应用。1957年出现首支电脑创作的音乐作品，弦乐四重奏《伊利亚克组曲（Illiac Suite）》。80年代末至90年代中由于高成本以及难以商业化，因此同资本投入有限导致AIGC无较多较大成绩；
沉淀积累阶段：AIGC从实验性转向实用性。2006年深度学习算法取得进展，同时GPU，CPU等算力设备日益精进，互联网快速发展，为各类人工智能算法提供海量数据进行训练。2007年首部AI装置完成的小说《I The Road》问世。2012年微软展示全自动同声传译系统，主要基于"深度神经网络"自动将英文讲话内容通过语音识别等技术生成中文。
快速发展阶段：AIGC进入商业。2014年深度学习算法"生成式对抗网络（Generative Adversarial Network，GAN）"推出并迭代。2017年微软AI少年"小冰"推出世界首部由AI写作的诗集《阳光失了玻璃窗》。2018年NVIDIA发布StyleGAN模型可自动生成图片。2019年DeepMind发布DVD-GAN模型可生成连续视频。2021年OpenAI推出DALL-E并更新迭代版本DELL-E-2，主要用于文本、图像的交互生成内容。2022年我国AIGC市场在年底引起较大关注。2023年我国企业端跃跃欲试。虽然行业仍处于起步阶段，距离大规模证明和体系化发展仍有距离，但从资本的加码到应用场景的探索，距离的缝隙有望逐步填补，同时，"模块分拆+个性化推荐"的"泛AIGC"形式有望持续发展。

AIGC现状

认知不准确也是当前AI大模型行业应用推进过程中企业面临的主要痛点，这种认知不准确则分为两类极端：

认知严重不足：部分群体不认可AI大模型的能力；
认知预期过高：对AI大模型能力有较高预期，应用后发现无法达成预期失望。

AI开源大幅度提高工作效率，改革每个人的工作流程。

AI不是一切工作的万能解药：AI的落地，仍然需要在前期投入大量的而资源，包括应用开发、数据处理、学习使用规范。

AIGC适用场景

NLP研究任务类型

3种NLP研究任务的类型，对应三种NLP模型架构

第一种
文本分类
实体识别
情感分析
关系判断
词嵌入
...
第二种
翻译
摘要
代码转换
图像描述生成
...
第三种
开放式文本生成
对话系统和聊天机器人
风格改写
逻辑推理
...

NLP研究领域

3种NLP研究领域：

Encoder-only；
Encoder-Decoder；
Decoder-only

适用场景

大批量的文本（数据、信息）的分析、提取与执行处理重复性的复杂工作。

数据分析
知识库问答
情感分析
文本翻译
智能客服
自动化流程
代码助手
报告生成
文本摘要
PPT生成
...

落地场景

智慧工厂
自动驾驶
文本处理
智慧物流
语音识别
数字人
...

AIGC常见平台

豆包
智谱清言
ChatGPT
文心一言

AIGC进阶

LLM：利用大语言模型实现交互式智能应用；
Verctor DB：通过向量数据库为LLM提供大规模、可靠的行业知识库；
Prompt-as-code：使用提示词工程匹配问题和知识库检索；
Tool Call：根据其他一些外部工具进行调用，赋能增加大模型不具备的一些数据能力，从而达到自身优化目的。

提示词

提示工程是指在使用生成式AI，如ChatGPT、Midjourney时，缩写高效、准确的提示的过程。

形象点说，提示词就是给大模型提供的指令，这个指令可以是问题，也可以是要求，也可以是规则，也可以是禁止条例，通过给大模型的要求，而让大模型根据你的要求生成内容。

良好的提示词可以让你的AI更加智能。

例：

不合格的提示词：请根据用户的描述写一句诗。

合格的提示词：你是一个诗人，擅长诗词创作。你能创作出有感情并能引起共鸣的诗句。要结合用户描述的语境进行创走，并根据语境选择时现代诗或五言律诗。

使用提示词限制AI仅回答某些领域的问题，AI会要求约束自己的回答，在某些场景下会更严谨。

提示词内容：

你是一个办公助理，你的任务是回答办公相关问题。

要求：

当用户询问你非办公问题时，需要回答："我不知道，请问题日常办公相关的问题"

禁止：

和用户交流沟通非办公相关的任何任务。

可以使用提示词让AI完成指定任务，比如直接将用户的输入进行翻译。

提示词内容：

你是一个专业的翻译官，你的任务是把用户的文字翻译成英文

要求：

把用户的文字翻译成英文
给出简洁明确的翻译后内容

禁止：

不要理解和询问用户问题
不要做翻译以外的任何任务

请按照以上规则，将用户的文字翻译成英文。

提示词局限性

大模型本身的幻觉问题
大模型本身知识老旧的问题
大模型的数学推理能力弱问题（解数学问题）
大模型的视觉能力弱问题（构建SVG矢量图等场景）
大模型字数统计问题（不论是字符数和token数，大模型都无法统计准确。需要输出指定字数时，将数值设定的高一些，后期自己调整一下，比如希望他输出100字文案，告诉他输出150字）
同一提示词在不同模型间的性能差异问题。

AIGC使用

RAG

RAG，Retrieval-Augmented Generation。即检索增强生成。是一种结合了检索技术和语言生成技术的方法。

在人工智能领域，存在一种被称为"通用大模型的不可能三角"的理论。这一理论的核心观点是，一个通用的大规模模型难以同时在"经济学"、"泛化性"和"专业性"这三个方面达到最佳平衡状态。

同时，通用大模型的研发和训练成本极高，使得中小企业难以涉足这一领域，因此就衍生出了行业大模型的概念。其本质，就是在利用通用大模型的能力，实现某个垂直领域的上解决方案。

可以通过知识文章的投喂，让AI学习到特定领域的知识，比如公司的人事行政信息，产品说明书，售后维修手册等。让AI充当客服、技术支持等角色。

RAG优势

成本低：可以快速的将垂直领域的相关知识，通过大语言模型AIGC的能力进行应用；
扩展更新：RAG系统运行轻松地扩展和更新知识库，而无需重新训练整个模型。用户可根据自身需求持续添加专业文档、产品信息或行业数据，使AI系统始终保持最新且相关的指示状态；
准确性/相关性：由于RAG系统的回答使基于检索到的具体信息生成的，因此可以提供信息来源和参考依据。这增强了系统输出的透明度和可信度，使用户能够验证信息的准确性和相关性。在需要高度准确性和问责制的领域，这一特性尤为重要，可以帮助用户理解AI的决策过程并增强对系统的信任。

RAG局限性

准确率：通过传统NLP的检索算法（向量+词袋），不在某个通用语境下训练相关的文本转向量模型的话，检索准确率可能只有80%~90%，在特殊语境下可能无法检索出需要的结果。
复杂度：虽然RAG可以检索相关信息，但它在理解复杂的上下文和长期依赖关系方面可能存在困难。特别是在处理跨多个文档或长篇对话的复杂查询时，系统可能难以准确捕捉和整合所有相关的上下文信息，从而影响生成答案的质量和连贯性。

工具

AI还需要更强大的辅助：工具，就可以扩展AI的能力。比如联网搜索、绘制图片或执行指定任务，工具赋予并增强了AI链接外部世界的能力。

不同的AI工具可以执行增强不同方面的能力。比如使用搜索引擎工具的AI可以查询公司最近的新闻，使用画图工具的AI可以按照要求作画。

工具优势

通过集成搜索引擎，AI可以访问最新的信息和数据，不再局限于训练数据的时间范围；
结合图像、语言和视频可以实现多模态交互；
使用统计和机器学习工具，进行预测分析和模式识别；
结合PRA（机器人流程自动化）工具，实现复杂的自动化流程。
通过连接反馈系统和学习算法，AI开源不断从交互中学习和改进。

工具局限性

尽管AI可以调用各种工具，但它可能难以完全理解何时以及如何最优地使用这些工具。AI在复杂、模糊或需要深度领域知识的情况下，可能无法准确判断应该使用哪个工具或如何组合多个工具来解决问题。这可能导致工具使用效率低下或不恰当；
AI系统调用外部工具时可能涉及敏感数据的传输和处理，增加了数据泄露和安全漏洞的风险。特别是在处理个人信息、财务数据或其他机密信息时，确保整个工具调用过程的安全性是一个重大挑战。此外，不同工具可能有不同的安全标准和隐私政策，协调这些差异以确保整体系统的安全性和合规性是一个复杂的任务。

通过工作流将大模型、提示词、RAG和各种工具结合起来，让智能体更智能，更贴合业务场景。