提示词4大经典框架;将AI融入动画工作流的案例和实践经验;构建基于LLM的系统和产品的模式;提示工程的艺术 | ShowMeAI日报

👀日报&周刊合集 | 🎡生产力工具与行业应用大全 | 🧡 点赞关注评论拜托啦!

🤖 高效提示词的4大经典框架:ICIO、CRISPE、BROKE、RASCEF

ICIO 框架

  • Intruction (任务) :你希望AI去做的任务,比如翻译或者写一段文字

  • Context (背景) :给AI更多的背景信息,引导模型做出更贴合需求的回复,比如你要他写的这段文字用在什么场景的、达到什么目的的

  • Input Data (输入数据) :告诉AI你这次你要他处理的数据。比如你要他翻译那么你每次要他翻译的句子就是「输入数据」

  • Output Indicator (输出格式) :告诉AI他输出的时候要用什么格式、风格、类型,如果你无所谓什么它输出时候的格式,也可以不写

CRISPE 框架

  • Capacity and Role (角色) :告诉AI你要他扮演的角色,比如老师、翻译官等等

  • Insight (背景) :告诉AI你让他扮演这个角色的背景,比如扮演老师是要教自己10岁的儿子等等

  • Statement (任务) :告诉AI你要他做什么任务

  • Personality (格式) :告诉AI用什么风格、方式、格式来回答

  • Experiment (实验) :请求AI为你回复多个示例 (如果不需要,可无)

BROKE 框架

  • Background (背景) :说明背景,提供充足信息

  • Role (角色) :你要AI扮演的角色是什么

  • Objectives (目标/任务) :你要AI做的事情的一个描述

  • Key Result (关键结果) :对于AI输出的回答,在风格、格式、内容等方面的要求

  • Evolve (改进) :在AI给出回答以后,三种调整、改进方法

RASCEF 框架

  • Role (角色) :这就是AI假装的人,它可以是电子邮件营销人员、项目经理、厨师或您能想到的任何其他角色

  • Action (行动) :这是人工智能需要做的,例如编写项目执行计划

  • Script (步骤) :这些是 A 完成操作应遵循的步骤

  • Content (上下文) :这是背景信息或情况

  • Example (示例) :这些是说明这一点的特定实例,它们帮助人工智能理解语气和思维/写作风格

  • Format (格式) :这是AI应该呈现其答案的方式,它可以是段落、列表、对话或任何其他格式 ⋙ 即刻 @东风阁主

🤖 YouTube 测试用AI生成视频摘要,用技术改善用户体验

8月1日,YouTube 开始在搜索观看页面测试AI生成的视频摘要,帮助用户更快地获取视频核心内容,提高浏览效率。不过此次测试只面向英文用户且范围有限。

YouTube 表示,这是进一步利用AI技术改善用户体验的尝试,并将在之后将AI生成技术应用到更广泛的视频创意、标题等领域。不过!这并不意味着内容创作者的工作将被机器取代,相反,创作者编写的视频描述仍然是用户获取视频信息的重要来源 ⋙ Search Engine Land

🤖 阿里云宣布「通义千问」开源,国内首个商用开源的大厂模型

8月4日,阿里云官方公众号宣布通义千问70亿参数通用模型Qwen-7B和对话模型Qwen-7B-Chat上架魔搭 ,两款模型均开源、免费、可商用。此举让阿里云成为国内首个加入大模型开源行列的大型科技企业。

Qwen-7B 是支持中、英等多种语言的基座模型,Qwen-7B-Chat 是基于基座模型的中英文对话模型,在许多测基准上都取得了良好的表现。

用户目前已经可以从魔搭社区直接下载模型,也可通过阿里云灵积平台访问和调用这些模型,而通过开源代码,用户可以很方便地在消费级显卡上部署和运行模型 ⋙ 通义千问-7B-预训练 | 通义千问-7B-Chat

🤖 和 AI 一起做动画,将AI融入动画工作流的案例和实践经验

这是一篇超长的实践经验分享文章!作者 @海辛 总结了「使用AI制作动画」的不同路径和技术实现方式,并附上了动画视频和推荐的免费系列教程!

这应该是目前覆盖最全面的、最硬核的教程啦!非常值得放进收藏夹~

🔔 一、根据参考视频进行风格迁移

1 . Runway Gen-1

  • 提供原视频和参考图像,基于风格迁移生成新的视频

  • 无法完全按参考图风格迁移,难以应用于实际项目,仍停留在玩具水准

2 . Stable Diffusion + EbSynth

  • 使用 Stable Diffusion 绘制关键帧,再用 EbSynth 根据原视频+关键帧将其余帧补齐

  • 当画面引入全新的信息时,就要新建一个关键帧;还可以结合传统的影视抠像工具进行叠加,从而指定 AI 仅对画面部分内容进行风格迁移

  • 兼顾生成效果和计算效率,可控性强,是当前最优方案之一

3 . Rerender

  • 自动判断关键帧,保证关键帧间信息连贯一致,避免了上个方案中人工调整关键帧间的信息连续性问题

  • 代码未开源但值得期待

4 . AI + AE

  • AI工具与AE转场、PR剪辑等影视工具结合,发挥两者优势

  • AI 动画特效做得好的人,大多数都是影视/游戏/特效的背景,他们知道如何将 AI 生成的画面结合到其他管线的工具中,从而提升画面效果

🔔 二、AI生长类动画

1 . Disco Diffusion、Stable Diffusion Deforum

  • 用传统 AI 生成图像工具,进行画面的批量生成,通过指定不同关键帧上的画面内容,和关键帧上的镜头运动,从而使得 AI 能生成连续的动画

  • 控制 AI 生成的参数和影视镜头语言其实呈现一定的映射关系

  • Youtube 频道主 DoodleChaos 给 Resonate 的歌曲《Canvas》 做的动画音乐视频,代表此类动画的最高水准之作

🔔 三、根据静态图生成动画

1 . 让肖像画说话

  • D-ID、Movio、Artflow 等工具基于First Order Motion算法,可以让一张静态的肖像画动起来说话的功能

  • 算法成熟,可广泛应用于各类创意内容

2 . 让静态图 (随机) 动起来

  • Pika Labs、Gen-2 等工具的底层技术类似 Animatediff,支持根据单张图输入其随机动态效果

  • 可用于概念预览,但可控性有限,对于目前工业界的帮助还不是很显著 ⋙ 海辛

🤖 构建基于LLM的系统和产品的模式

这篇长文探讨了一个非常实用的话题------在构建基于大语言模型的系统和产品时,需要注意的7个关键模式。

作者分享了自己宝贵经验和深度思考,覆盖了从从模型性能、成本控制到用户体验的各个方面,对于从业者来说是非常实用的指南。

1 . Evals

  • What评估,用于测量性能

  • Why:Evals 可以测量系统或产品的表现,检测任何回归;一个具代表性的 Evals 套件可以大规模测量系统变更;如果没有Evals 就会飞盲,或者必须通过视觉检查每个LLM输出来检测每一个变更

  • More about:Evals包括基准数据集和指标;一些知名基准有 MMLU、EleutherAI Eval、HELM 和 AlpacaEval 等;指标可分为与上下文相关或无关的两类,还需要注意常用指标的局限性

2 . RAG

  • What检索增强生成,用于添加外部知识

  • Why: RAG 可以减少 hallucination,基于检索出的上下文指导模型;相比持续预训练语言模型,使用检索索引更经济高效,也更易于提供最近的数据

  • More about:RAG 通常基于稠密向量检索 (例如 DPR),先 offline 构建文档索引,然后在线为每个查询检索出 Top K 个相关文档,并将其提供给语言模型作为上下文;一些变体包括 RAG-Sequence、RAG-Token、FiD 和 RETRO 等

3 . Fine-tuning

  • What微调,用于提高特定任务的性能

  • Why:Fine-tuning 可以提高开放域语言模型的性能,实现比第三方语言模型更好的效果,也让系统模块化

  • More about:Fine-tuning 通常在预训练模型的基础上进行,一些常见的 Fine-tuning 技术包括软提示调优、前缀调优、适配器和低秩适配等

4 . Caching

  • What缓存,用于降低延迟和成本

  • Why:缓存可以显著减少延迟和成本;对于某些不能容忍秒级延迟的用例,预计算和缓存可能是唯一的实现方式

  • More about:在语言模型中,常见做法是基于输入请求的 Embedding 来缓存响应;不过需要谨慎应用 (例如不要缓存可能过时的价格信息等)

5 . Guardrails

  • What防护栏,用于确保输出质量

  • Why:Guardrails 可以确保模型输出可靠统一到足以用于生产环境,例如可能需要确保输出符合特定 JSON 模式等

  • More about:Guardrails 通常通过验证语言模型的输出来实现,一些常见策略包括结构指导、语法验证、内容安全检查、语义验证等

6 . Defensive UX

  • What防御性UI,用于优雅地处理错误

  • Why:Defensive UX 承认语言模型可能出现不准确或 hallucination 的情况,并提前应对这些情况,主要通过引导用户行为、避免误用和优雅地处理错误

  • More about:一些常见模式包括设定正确的期望值、启用高效驳回、提供归因等,可以提高可访问性、信任度和体验质量

7 . Collect user feedback

  • What收集用户反馈,用于构建数据飞轮

  • Why:收集用户反馈可以了解用户喜好,帮助改进模型、适应个人喜好,并评估系统整体性能

  • More about :反馈可以是明确或隐式的,要方便用户提供反馈;隐式反馈也很有价值,可以提供大量用户行为偏好信息 ⋙ eugeneyan

🤖 为什么AI「智能涌现」对创业者、从业者、普通人都价值巨大

我们一直在谈论的大模型「智能涌现」到底是什么意思?为什么理解这个概念对我们这么重要呢?这篇文章从一幅图的像素数量入手,非常清晰地解释了概念,并探讨了7个非常核心的问题。

正如图所示,当像素的数量多到一定程度时,我们就可以看出图片的基本内容了。宏观涌现可能只是构成系统的微观因素的线性变化的结果。大模型的智能涌现也是同样的道理。

问题1:除600亿参数规模外,还存在其他阈值,可以让AI发生智能涌现吗?

  • 存在多个阈值,对应AI的不同新能力

  • AI模型同理,600亿不是唯一阈值,要实现新的能力需要更大的参数量;涌现时AI表现不稳定,可确定处在一个阈值附近

问题2:随着AI参数规模的增加,AI的能力会持续提升,但这会有上限吗?

  • AI能力会持续增强,会跨越一个又一个阈值

  • 但人类对此的感知有上限,100万亿参数量级接近人脑神经连接数,超过这个量级后,人类将完全感知不到AI的进步

问题3:未来二十年你将会如何感受AI?

  • 未来每当AI跨越一个新阈值,人类会强烈感受到进步,但之后会逐渐感知不明显,直到下一个阈值突破

  • 就像人对新款 iPhone 屏幕的感受,开始惊艳,最后陷入「似乎稍有不同」的微妙感受

问题4:什么是「知识压缩」,它跟AI有什么关系?

  • 知识是压缩数据的方法,训练模型就是在寻找压缩方法 (知识),实现智能

  • 图像压缩实验证明了知识使图像在低像素下依然涌现,压缩越高效,知识越本质

问题5:什么是智能?

  • 智能是一个生成的过程,不是状态;高级智能具有更强的泛化能力,这来自大量知识的涌现,泛化是成规模知识涌现的结果

  • 低级智能以还原为主,高级智能强在泛化,智能必须是生成的过程

问题6:OpenAI到底做对了什么?

  • OpenAI 让AI自主大规模寻找知识,并以生成为目标而非应用

  • 解决了两个悖论:给AI自主学习的机会,以及将生成作为最重要目标 (OpenAI低估了这两点的价值)

问题7:什么是「世界模型」?

  • 世界模型是外部世界在AI内部的建模和模拟,是AI的未来方向

  • 它以层次方式组织知识并模拟世界运行,让AI拥有更强大的直觉式智能,能达到写出红楼梦的水平 ⋙ 阅读全文

🤖 对话「妙鸭」产品负责人:AIGC 的产品第一天不收钱,就可能收不到钱

谁都没有想到,国内 AIGC 第一个真正意义上破圈的现象级产品,诞生在照片美化(写实人像)这个已经相当成熟的赛道。

7月中旬悄悄上市,妙鸭凭借只需「9.9 元和 20 张照片就能生成艺术写真级的个人美照 」这个噱头,在短短几周的时间内引来无数爱美女孩儿下载尝鲜,生成的「美照」席卷了朋友圈等社交媒体。

7月底,妙鸭相机接连受到上海市消保委和央视财经新闻的点名批评,称其退款相关规定违反了消费者权益保护法,并且威胁到了用户隐私。

最近,妙鸭接受了科技媒体的采访,介绍了产品源起和团队背景,并对争议话题进行了回应。感兴趣的小伙伴们可以 ⋙ 阅读原文

🤖 提升ChatGPT性能的实用指南:Prompt Engineering的艺术

提示工程是一门新兴学科,就像是为大语言模型 (LLM) 设计的「语言游戏」。通过这个「游戏」,可以更有效地引导 LLM 来处理问题。也只有熟悉了这个游戏的规则,才能更清楚地认识到 LLM 的能力和局限。

这篇文章非常全面地梳理和总结了提示工程关键知识点,长文!适合查漏补缺!

1 . 什么是提示工程?

2 . 提示工程基础

  • 提示四要素

  • 通用技巧:由浅入深、明确指令、明确细节、明确需求、正向引导,避免反向限制

  • 简单提示解析

3 . 提示工程进阶

  • 零/少样本提示:Zero-Shot Prompting、Few-Shot Prompting

  • 思维链提示:少样本思维链、零样本思维链

  • Explicit 思维链

  • 主动提示

  • 思维树

  • 多模态思维链

  • 一致性提示

  • Progressive-Hint 提示

  • Plan-and-Solve 提示

  • 增强 (检索) 提示:外部知识库、LLM 知识库 (知识生成提示 / Clue And Reasoning 提示 / 知识反刍提示)

4 . 懒人万能提示工程 ⋙ 腾讯技术工程
感谢贡献一手资讯、资料与使用体验的 ShowMeAI 社区同学们!

◉ 点击 👀日报&周刊合集,订阅话题 #ShowMeAI日报,一览AI领域发展前沿,抓住最新发展机会!

◉ 点击 🎡生产力工具与行业应用大全,一起在信息浪潮里扑腾起来吧!

相关推荐
Power2024666几秒前
NLP论文速读|LongReward:基于AI反馈来提升长上下文大语言模型
人工智能·深度学习·机器学习·自然语言处理·nlp
数据猎手小k3 分钟前
AIDOVECL数据集:包含超过15000张AI生成的车辆图像数据集,目的解决旨在解决眼水平分类和定位问题。
人工智能·分类·数据挖掘
好奇龙猫9 分钟前
【学习AI-相关路程-mnist手写数字分类-win-硬件:windows-自我学习AI-实验步骤-全连接神经网络(BPnetwork)-操作流程(3) 】
人工智能·算法
沉下心来学鲁班23 分钟前
复现LLM:带你从零认识语言模型
人工智能·语言模型
数据猎手小k24 分钟前
AndroidLab:一个系统化的Android代理框架,包含操作环境和可复现的基准测试,支持大型语言模型和多模态模型。
android·人工智能·机器学习·语言模型
YRr YRr33 分钟前
深度学习:循环神经网络(RNN)详解
人工智能·rnn·深度学习
sp_fyf_202444 分钟前
计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-11-01
人工智能·深度学习·神经网络·算法·机器学习·语言模型·数据挖掘
红客5971 小时前
Transformer和BERT的区别
深度学习·bert·transformer
多吃轻食1 小时前
大模型微调技术 --> 脉络
人工智能·深度学习·神经网络·自然语言处理·embedding
charles_vaez1 小时前
开源模型应用落地-glm模型小试-glm-4-9b-chat-快速体验(一)
深度学习·语言模型·自然语言处理