一 前言
ChatGPT大众热情逐渐褪去,但在后台技术人的探索还处于热火朝天状态。如果我们生活的世界是一杯清水, 那类似ChatGPT的语言大模型技术的横空出世就如滴入水杯的一滴墨汁,第一滴很显眼,但实际上是后续墨汁慢慢扩散渗透才是最重要的节奏,最后将我们每一个水分子都会被包围,潜移默化地影响我们每个人。
这类大模型技术对于普通人来说,各种屏障,各种技术名词让人眼花缭乱,还是有较高的使用门槛的。即使对于技术领域的人来说,也是需要时间来学习和消化的。但好在技术万变不离其宗,都是物理和数学定理的不同表现形式,最后还是能够被搞技术驾驭的,但非技术背景的普通人则需要学习一下基本知识。
本文就是为帮助不懂大模型的普通人来入局大模型应用。你读一遍或两遍后就对大模型有了基本了解。对于大模型应用在聊天,基本内容生成领域你可以轻松应对,至少能满足你对娱乐,个人工作效率的提升。同时如果后续你需要在工作环境中充分利用大模型的能力,了解一些背景知识也可以有助于你选择方向继续深造。
二 步骤
使用大模型应用,你需要遵循的步骤是:
第一步。懂基础:先了解ChatGPT等大模型的背景知识
第二步。找应用:根据你的需求来找到适合你的ChatGPT类应用
第三步。学技巧:学会你选中的大模型应用的基本使用技巧
第四步。建功效:进阶到高级用户水平来解决你工作中的实际问题
下面,我们就从四个步骤进行详细解释。
1. 第一步 懂基础
第一步就是了解ChatGPT和其它大语言模型应用的相关背景知识,基础概念。这一步非常重要。举一个例子,给原始人一部汽车,因为他对汽车没有任何概念和背景知识,就要琢磨很长时间才能弄清楚这是什么,能做什么用?方向盘,发动机,轮胎的作用。
++问题:什么是大模型应用?++
通俗来讲,ChatGPT和其它类大语言模型应用是一个计算机程序,这个程序构建过程就是将人类历史上产生的文字信息输入到计算机中的机器学习模型程序中进行训练,让这个程序对这些知识进行整理,总结,归纳,甚至推理,训练到一定程度后这个计算机程序就能与人类或者其它计算机程序流畅地以文字为主要形式进行交互和生成内容。
++问题:大模型应用的主要组成部分是什么?++
在上面这个大模型应用的通俗定义中包括三个重要部分:机器学习模型 ,输入数据,和应用场景。
机器学习模型是人工智能用来做训练和推理的。机器学习模型的学习过程就研究员(开发人员)先设计一个算法计算机程序,然后找到有代表性的各种文字,图形,声视频等知识信息输入到这个算法程序中,让它寻找和总结隐藏在这些信息中的各种规律,比如如何分析,如何理解,如何推理,如何产生新的话语等等,这就是一个学习过程。与一个人类婴儿从小到大不断接受声音,图像视频,文字的学习过程一样,婴儿的大脑就是一个算法程序,对外界的一切知识进行学习整理总结推理,逐渐就能够与其他人进行正常沟通。
与婴儿学习类比,机器学习只不过将这个人类学习,推理,说话的大脑变成一个计算机算法程序。
大语言模型 主要是指文本(语言)形态交互的,而多模态大模型则是将范围推广到图像,视频,声频等领域的学习和内容生成。这些语言大模型,和基于大模型的图像识别分析技术等都属于人工智能技术大类中的小类。
去年年底开始爆火的ChatGPT在与人类对话,写作(又称文本生成能力),总结,推理,内容创造等领域能力非常强,这些都是应用场景。而通过人工智能技术创造文字,图形,视频等内容称之为AIGC-人工智能生成内容**。AIGC是大模型目前最常见的应用场景。**
++问题:之前科学家一直做这类工作,但为什么ChatGPT的上线引起了这么大的轰动呢?++
这是因为之前人工智能方面尝试的产品效果都不能令人满意,训练出来的模型只能达到人类很低智商水平,而且只能专注于某个特定领域。而ChatGPT回答人的问题水平已经能达到甚至在一些领域超越人的水平。而且是用一个模型同时在多个领域上进行学习和输出。这就是所谓的通用人工智能(AGI),人工智能领域的圣杯。通用人工智能的优点就是只需要训练一次,就可以将训练后的结果应用到大多数领域。这里就是和语言相关的任何领域,比如:回答问题,写文章,分析文章,翻译,还有通过语言解释的数学,物理,化学,生物,伦理问题等等。
训练计算机程序以达到人工智能能力有两个重要的影响因素:算法模型和输入数据。
- 算法模型等同于一个人大脑,它能接受,学习知识并进行处理,总结和推理。
- 输入数据如同一个人的经验阅历(无论是自己看到,听到,还是读书学习的)。
如果你大脑一团浆糊,无论上多少学,行多少里路,你还是不能达到高水平做出判断。
输入数据要多而且信噪比低。也就是说数据质量要好,量要大。就如同你大脑再聪明,但你没有机会看过任何一本书,从来没有走出你的房间,没有任何学习参考的资料,或者看到的知识都不是对的,那你还是不能学会对世界的基础认知能力,进入到社会还是不能处理基本工作。高效算法模型和高质量大量输入数据都不可缺。
++问题:为什么是OpenAI有了巨大的技术突破?++ 其它公司之前从各个角度,各种技术方案中尝试了许多路径,但只有Open AI在算法模型 和数据 这两方面都选择对了,取得了巨大的成功。它使用一种叫转换器(Transformer)的机器学习模型,对这个模型输入了几乎是互联网上人类所有公开高质量信息,在2048个复杂的GPU(图像处理单元芯片)芯片的计算机上进行数万个小时的学习训练,而打造出来ChatGPT背后的大模型。公司经过近8年不懈的试错和努力,终于开发出这个在语言理解,问答,写作,甚至一些推理水平最终与真人相比甚至达到了以假乱真效果的产品,也就是ChatGPT(高级版本4.0)可以通过评估人工智能水平最知名的图灵测试(Turing Test),这与之前的人工智能探索工作而得到的其它结果相比都是革命性的。
图灵测试是AI系统智能程度的一种衡量标准。它由英国数学家阿兰·图灵在1950年提出。测试的主要内容是:人与机器通过文字交互对话,如果人无法分辨对方是人还是机器,那么这个机器就能通过这个测试,被视为具有"人工智能"。
++问题:为什么ChatGPT类背后的模型都称之为大模型?++
这是因为模型参数的数目,以及用于学习的知识数量(称之为语料),以及学习需要花费的计算机算力和时间与之前的模型相比都是数量级的提高。比如ChatGPT使用的模型参数3.0 版本是1750亿,4.0估计在万亿。训练数据集的大小也是数TB规模。综合这些参数大小和输入数据,学习时间等因素,称这些模型叫大模型。
总结一下,上面讨论了AI大模型的关键概念 包括**:**机器学习(ML),人工智能(AI),算法程序(Algo),输入数据(DataSet),判断人工智能水平的图灵测试(Turing Test),语言大模型(LLM),AI生成内容(AIGC),通用人工智能(AGI).下面来看看如何选择大语言模型相关的产品应用。
2. 第二步 找应用
从去年年底到现在,ChatGPT类的大模型应用经过了爆发性的发展,几乎每日都有新应用,新模型出现。对于普通人来说,信息爆炸导致无所适从,到底该使用哪些应用,怎么用呢?对于普通人来说,大语言模型或者其它基于人工智能机器学习的产品常用的领域基本上就是聊天,写作,图像视频创作,编程(码农近水楼台先得月,但先把自己解雇了)。你就是需要从上面领域中找到适合你的模型应用产品(可访问性,性能,费用方面进行考虑)。每个领域都有领军型产品,但由于各种原因(隔离,限制,安全,费用等方面考虑),你可能无法使用这些领军产品,但好消息是国内国外市场上出现了众多应用,从这些众多应用里面,你总可以找到平替或者能力稍微弱一些的应用产品来从一定程度上满足你的需求。国内外大模型应用一般都有免费版和付费版,两者区别可能是在准确度,模型版本,响应时间,能够输入或者聊天的数据量等维度上。
-
因为性能还是比较领先的,所以用户一般首选国外大模型应用,比如ChatGPT,但国外大模型应用在国内一般不能直接访问,但有授权的国内公司或者AI爱好者会建立程序通过网页或者微信公告号,小程序等进行后台链接到国外的大模型比如ChatGPT上。具体地址需要自己去网上或者群里寻找。国内也有一些转发网站只让你试用一次,然后让你去充值。这种一般都不是好的方式。
-
国内也有很多平替模型应用,比如清华大学和智源开发的ChatGLM模型, 可以去ChatGLM(http://chatglm.cn)网站注册。注册流程也比较简单。
-
还有一些集成网站,把不同模型集成到一个应用上,用户可以在一个平台上切换不同模型进行尝试。如http://poe.com
可以点击原文链接来进入**http://All4AI.net**应用导航网站,查看上千个应用介绍和源链接。
下面我们就从这几个常用的产品和应用方面开始介绍。
++类别1. 聊天应用 - 文本类:++
体验大模型应用最简单的方法就是使用人工智能APP/网站来聊天。这个门槛最低,你只要输入问题,应用就回答你。OpenAI的ChatGPT是第一个爆款产品, 也是现在公认最好的产品。类似于chatGPT目前市场上出现最多的应用,用户一般需要下载一个APP或者登录网站,在输入框中输入问题(专业名词叫提示语,提示指令),就可以与背后的大模型进行聊天,非常简单的界面。而聊天的领域可以是方方面面,无论你说什么,问什么,应用都能够八九不离十地给出你答案。
其它国外聊天应用包括:Claude,ChatGPT团队人出来做的,还有Google 的Bard等。也有很多聊天应用基于Meta脸书的开源LLama模型的。国内的替代产品包括清华和智源做的ChatGLM, 还有百度的文心一言,科大讯飞的基于星火大模型应用。可以去http://all4ai.net 找到更多类似应用。大模型应用聊天比之前的帮助查询程序高明之处在于它能够持续记住和分析你和它聊天的上下文,根据上下文来回答问题。这种形式更接近两个人之间的聊天。
比如下面对话:
- ·问:烤鸭好吃吗?
- ·答:好吃。
- ·问:为什么?
- ·答:脆皮味道好!
这里人都会知道第二个问句是问为什么烤鸭好吃。但让计算机程序能够知道这两个问题的联系并不是很容易的事情, 比如搜索网站的查询方式,每次都只知道你问的第一个问题,第二个问题从重新开始进行解释,并没有把第一个问题和后续问题的联系性一并考虑。而现在大模型知道这个上下文关系了。
++类别2. 写作应用 - 文本生成类:++
实际上面提到的聊天应用都可以用于写作,因为回答问题或者提示指令的内容就是写作的过程。让应用写作一般是以指令形式来"命令"大模型应用进行创作的。国外可以使用ChatGPT,Claude,国内有清华与智源的ChatGLM,百度的文心一言等等(见导航网站中的中国大模型导航部分)。例如下面例子,威写一个简历。只需要一句话,2分钟就可以洋洋洒洒写出这么多字。如果再进行细化提示,会更专业。
你还可以使用大模型应用一键生成PPT。对于办公室白领来说,PPT应用场景绝不会少,行业研究,工作汇报,问题总结等等。
++类别3. 绘画应用 - 图像生成类:++
比较有名的产品是MidJourney,Stable Diffusion,Dall-E。
大模型可以通过文本到图像生成的方式,根据描述文字输出与之对应的图像。这种技术通常需要大量标注图像数据进行训练。绘画创作,图像生成类应用中的大模型,可以通过如下步骤实现原画创作功能:
- 你输入你需要的画的要素(提示语)。
- 大模型理解文本描述中的场景、人物、动作等要素。
- 构建文本描述的视觉轮廓。
- 通过大模型技术,将轮廓转换为具体的图像。
- 输出图像结果。
目前这种原画生成仍有很多局限性,但可以胜任一般应用场景的插画,设计样稿等。
++类别4. 视频应用,声频内容创作 - 视频声频类++
与图像生成类应用一样,都是依赖大量数据输入到人工智能算法模型中进行训练而造就的。只不过用户以文本提示指令输入,应用输出视频或者声频作品。之前需要几个人一个星期的视频创作工作现在使用AI技术只需要一个人不到一个小时的工作量。大大提升了工作效率。很多以假乱真的数字人也是采用这些文本,视频,声频多模态人工智能技术来实现的。比如runway 视频生成软件是基于Gen2 大模型的从文字自动生成视频的应用,你只需要输入一段文字,它就帮你自动产生相关视频。
生成上面短片的提示文字是:++在浩瀚的宇宙中,远望一个红色的星球,逐渐zoomin直到星球表面的一个城市轮廓。整个城市的建筑都被巨大的玻璃罩子罩住,在城市的大门两旁伫立着两个巨大的石人像,带面具的石像。++
软件界面是这样的。
++类别5. 编程助手 - 效率类++
这类应用一类是在上述聊天软件(ChatGPT等)中可以使用这个功能,对于初学编程的人简直就是福音啊。几句话就可以编出一段带注释的程序。还有一类是以插件形式(最好的工具是OpenAI的code interpreter, GitHub的copilot, 国内的是CodeGeex)更专业地帮助你编程。但一般来说这类应用的问题是你对产生的程序还是需要检验,修改。复杂程序是不能直接运行的。最好的模式就是你让它产生程序框架,然后对于这个框架内的每一段函数提示它完成具体功能。现在也有类似集成的控制工具。
3. 第三步 学技巧
确定了你的应用场景,选择一两个应用,下一步就是学习如何使用了。大语言模型或者其它AIGC应用一般流程都是用户给系统一系列的指令(prompt),然后应用来生成回答,或者文章,或者图像,视频等。说白了,就是你以聊天谈话方式告诉应用要做什么事情. 这一点与之前的应用有比较大的区别,之前都是点击某个菜单,按钮来执行确定的任务。 用聊天谈话方式指示系统做事情有好处也有坏处,好处是用户使用起来比较方便,毕竟每个人都会一定程度的聊天谈话。坏处是如果指令不明确,应用程序执行的任务就不对了,或者没有充分发挥系统的作用。这个就如同领导安排任务给下属一样,指令要明确一样。所以你使用大模型应用需要学习的第一个重要的技巧就是如何使用合理的提示语来让应用回答问题或者创作内容。现在甚至出现了一个专门的岗位:提示工程师,据说可以年薪百万。下面列出2个提示语示例和ChatGPT给出的回答:
示例1: 请写一篇引人入胜的苹果手机广告,直接与我的客户对话,并鼓励他们在我的网站:http://buymyuniqueapplephone.com上下单。
**示例2:**你的任务是以小红书博主的文章结构,以我给出的主题写一篇帖子推荐。你的回答应包括使用表情符号来增加趣味和互动,以及与每个段落相匹配的图片。请以一个引人入胜的介绍开始,为你的推荐设置基调。然后,提供至少三个与主题相关的段落,突出它们的独特特点和吸引力。在你的写作中使用表情符号,使它更加引人入胜和有趣。对于每个段落,请提供一个与描述内容相匹配的图片。这些图片应该视觉上吸引人,并帮助你的描述更加生动形象。我给出的主题是:九寨沟旅游
你既可以使用非常简单的提示语,也可以使用比较复杂的提示语。但往往是复杂的,更精确的提示语会给你更为准确的回答。为什么会这样呢?这背后的原因就与大模型本身特性有关系了。想象你有个储物的房子,每个房间空间有限,只能放10件东西。如果你这个房子只有两间房子,然后从这两间房试图找到一个东西,应该不费力,只要一个一个查过来。但如果这个房子有一万个房间,这时让你找个东西就很费劲了,如果限制了时间,那么大概率你找不到。 但如果你有了目录,哪怕是能将范围限制到10个房间里,你也应该不难找到。人类的知识好比是这些房间的东西, 大模型通过学习归纳把他们分门别类地放到它有很多房间的房子里,知识非常多,很难一件一件去找。而合理的指令则是大模型把范围缩小的最好方法。不好的指令可能将大模型带偏了。大模型应用真正的是看人(指令)下饭碟的。当然,上面例子过于简化处理,但基本上就是一个通用人工智能(AGI)产品,其知识量非常大,需要一层一层地(一个指令一个指令)启发它找到正确的房间。这也如同与真人谈话一样,需要想出很多话来一步一步地获得更正确的信息。为了能够帮助普通人更好地驾驭大模型应用,网上也出现很多提示数据库,来帮助你更好地问问题和给出指令。只要你多用,就很快能够达到基础级别的能力,满足你娱乐或者工作场合一般使用目的。我们还从市场看到了大量命名为不同角色的聊天机器人,比如律师,算命,小红书文案等等,实际上都是使用简单的指令预设方法来实现的。这些应用(称之为大模型套壳应用),基本上一个简单的转发网站或者app,一端链接你,一端链接大模型应用。每次你打开应用时,这个系统就从后台将预设指令发到这些大模型应用上,大模型就会根据预设指令来定位自己的寻址空间,然后你后续提的问题被转发到大模型应用那里,它就会将之前预设的指令和你的指令合并进行回答。因为这些预设指令时隐藏在后台的,你就会有这个大模型是专用领域的大模型错觉。
套壳中间商示意图目前各个大语言模型都有输入指令的大小限制。这个也就限制了你能使用这些指令来获得优质答案的能力。
4. 第四步 建功效
进阶到高级用户水平来解决你工作中的实际问题。要求的质量也是从娱乐级别升级到生产级别。 这样的转变有几个需求点:
- 模型输出更准确,更专业
- 模型能够处理更复杂的场景
这便是进阶水平需要掌握的了,后续补充。
本文只是方便了解熟悉ChatGPT的概念和使用,整理自别人的贴子。