本文同步在个人博客shymean.com上,欢迎关注
在过去的一年多时间里面,AIGC似乎成了一个大家都耳熟能详、甚至常常挂在嘴边的词语。
本文将总结我------一个普通的程序员,截止目前对于AIGC的一些个人看法。
前置概念
先整理一下一些基本概念。
通用人工智能AGI
通用人工智能(Artificial General Intelligence, AGI)是指能够像人类一样,在多个认知领域都表现出智能水平的人工智能系统,
通用人工智能是目前人工智能技术的最高目标。
截止到目前,虽然在特定领域内已经出现了超过人类水平的人工智能系统(围棋AlphaGo
等),但距离真正实现通用人工智能还有很长的路要走。
NLP与Gen AI
自然语言处理(Natural Language Processing, NLP)是人工智能领域的一个重要分支和发展方向,旨在使计算机能够理解和生成人类语言,是实现人机交互和信息处理的关键技术。
这两年非常火热的生成式人工智能(Generative AI),是自然语言处理中的一种重要技术。
生成式人工智能专注于使用机器学习模型来生成新的自然语言内容,旨在通过训练模型来生成新的、与训练数据相似的内容。
大语言模型
生成式AI的典型代表就是大型语言模型(Large Language Model,缩写为LLM):一种具有大规模参数和计算能力的自然语言处理模型。
LLM是大模型(也称为基础模型Foundation Models)的一种典型应用。
大模型是指具有大规模参数和复杂计算结构的机器学习模型,本质上是一个使用海量数据训练而成的深度神经网络模型,其巨大的数据和参数规模,实现了智能的涌现,展现出类似人类的智能。
这也是为什么有说大模型是迈向通用人工智能的正确方向。
至于涌现能力为什么会出现,现在好像还并没有科学的解释。总之就是大力出奇迹。
不管怎么样,得益于涌现能力,生成式AI迎来了有意义的技术突破,各种AIGC(Artificial Intelligence Generated Content,由AI创作生产内容)开始爆发。
也是就是过去一两年中,我们看到的各种通过生成式AI生成文本、图像、音频、视频等各种形式的内容。
AIGC 的理解能力
从很原始的"金立语音王"、到iOS上的siri、以及更后面的各种智能音箱,这些智能助手似乎都不太"智能":需要用特定的格式,向他们输入内容。
"嘿siri"
"我在听"
稍微换一种问法,可能就是"抱歉,我不懂你在说什么"了。
从体验上来看,ChatGPT等工具在理解人类的语言上面更胜一筹。
看起来就是现在AI能够理解我们输入的自然语言了,这是NLP领域的突破。
LLM完成了自然语言处理领域的历史性跨越,通过大规模预训练模型,形成人工智能技术理解自然语言和文本生成能力。
这个理解自然语言的能力,意味着AI可以理解人类社会中的各种内容,包括下达的任务指令、书籍内容等。
基于NLP自然语言理解能力的突破,我感觉未来应用的GUI交互可能会发生变化:可能会由传统的点击,变成自然语言的输入(包括文字和语言甚至是手势等)。
基于这个理解能力,我感觉已经可以让AI来完成很多工作了,比如
- 特定领域的智能客服
- 分局用户评论内容做情感分析
- ...
当然,理解自然语言并不能代表现在的AI具备了真正的思维和意识。
AIGC的创作能力
目前可以创作的领域
- 生成文字和代码,比如
chatGPT
、claude
- 生成图片,比如
stable Diffusion
、Midjourney
- 生成音频,比如
suno
- 生成视频,比如
pika
、sora
(还未开放体验)
照相机与绘画
相关书籍《摄影如何影响绘画》、《低垂之眼:20世纪法国思想对视觉的贬损》
如果单看生成图片这一个领域,AI绘画与照相机有点相似:显著提高图片的创作速度。
参考历史,在相机发明之后,传统画家是怎么看待这个可以显著提高生产力的工具呢?
从14世纪的文艺复兴------ 19 世纪欧洲的美术作品都归为写实绘画,画家通过对外部物象的观察和描摹,通过绘画来再现外界的物象。
1827年法国的約瑟夫·尼塞福爾·涅普斯在感光材料上制出了世界上第一张照片,但成像不太清晰,而且需要八个小时的曝光。
1839年8月19日法国画家路易·达盖尔发明了世界上第一台真正的照相机,可携式木箱照相机。
早期摄影作品为了取得作为艺术的地位和正当性,甚至在向绘画的风格上面靠,模拟绘画的构图和色调。
因此摄像机出来之后,也有很多画家抵制,他们认为照相机会让绘画走上绝路。
但实际上,写实绘画本身就很难实现还原现实的功能,照相机在写实这一点上面可以碾压手绘。
相反地,照相机出来之后,绘画不用再承担模仿现实和记录的功能了,画家可以按照自己的偏好、艺术风格、主观意愿来绘制。
到了现在
- 绘画并没有消失,甚至发展出了超写实绘画的风格:以绘画的形式尽可能地模仿现实,以至于观者很难分辨出绘画和真实场景之间的区别;
- 照相机也发展出了摄影艺术、影视等功能,极大地丰富了媒体内容。
创作
类比照相机与AIGC,那么可以参照照相机推测出AIGC之后的发展,以及对于人类社会的影响呢?
我想到了下面几个问题。
第一个问题:AIGC生成的内容,到底有什么用?
- 从内容形态来看,AIGC 应用包括文本、音频、图像、视频、代码等内容生成形式
- 从应用价值来看,AIGC 应用价值体现在降本增效、增加内容多样性、生成个性化内容、也许还可以提升内容质量等方面
有了AIGC,内容制作成本将不再是制约创作的限制条件,创作者需要将注意力集中到作品的创意内容上面,这跟摄像机发明之后解放了绘画的写实工作比较相似。
当然,解放的前提是:AI可以很准确地按照我们的需求输出内容,而不是现在这样还是需要靠各种花样的提示词,生成一段仍然比较随机的内容------抽奖式的生成内容显然还不能达到创作者最终的需求。
第二个问题:如果AI已经可以完美还原你想要制作的内容,那么你还需要做什么呢?
这里指的"完美还原",并不是那种跟AI说"写一部类似于三国演义"的小说,他咔咔一通输出,就创造一部出了文学巨作。这显然是不太能达到的;否则,直接跟他说"写一段可以优化你模型的调参程序",那AI自己就无限进化了,这也太违背常识了~
我设想中的还原是:"输出一些武侠风格游戏的背景图,要求xx、xxx",AI输出的内容跟我们预期的内容很像,可以直接用在生产中,这应该就够了。
那就需要你能够想到你要做的内容,然后将他们清楚地描述出来。换句话说,就是需要你自己拥有创作能力。
并不是所有人都拥有足够的创作能力,这带来的情况可能是:即使AIGC已经很发达了,但大部分还是AIGC内容的消费者,而不是内容的生产者。
因此,如果是想要使用AIGC,面对现在各种层出不穷的新技术,包括如何写好prompt、如何搭建sd或者训练自己的模型,我感觉更重要的还是要加强自己的创作能力。
写代码
作为写了快8年代码的程序员从业者,我对于AI生成文本、图片、音频甚至视频是没有什么担心的,甚至有点期待(对于不影响自己、只影响别人的事情似乎有一点看热闹的心态。
但是AI写代码好像也挺行的。
在过去的一年中,我体验了各种AI生成代码的工具,比如github colpoit
、Amazon CodeWhisperer
等,这些工具对于解释代码片段,生成工具函数比较感觉挺有用的,在编写测试用例方面也很有用。
在使用过程中发现,貌似这些工具还是只能理解单个文件的局部代码(不知道是不是我打开方式的问题),对于理解项目工程而言,并没有特别大的帮助,因此我认为AI暂时还不能完成工程代码,更像是一个更智能的搜索引擎。
但是最近最近有个很火的DeVin,其口号是"the first AI software engineer"。
在演示案例中,devin看起来可以自己编写代码、debug、自动部署,确实有点像一个真实的程序员。
很多自媒体普天盖地的转发这个新闻以及证实他们的观点:AI也可以取代程序员了。
我开始思考,如果AI真的可以取代程序员了,那我该怎么办?或者应该提前准备些什么。
在查阅资料的时候,看到这样一篇文章:developers are on edge,写的挺不错的。
文中的观点认为:过去半个世纪,程序员通过自动化别人的工作 获得了很多收益,并且认为随着自动化程序的普及,生产力的提升,世界会变得更好。然而当这种压力落在自己的程序员工作上时,大家却又开始焦虑,害怕AI真的会替代程序员的工作。
暂且不提AI到底能不能替代程序员、或者什么时候才能够真正替代程序员的问题,思考一下技术革新的历史浪潮。
在传统的农业文明中,绝大部分人都需要从事农业生产;而到了现在,需要进行农业生产的人数已经大大减少了,其他的人被分配到其他的社会岗位中。
因此,新的技术肯定会提升原有社会的工作效率,会带走一部分重复的工作,也会带来全新的工作岗位。
我们写代码时为了避免重复,提升效率,这不跟AIGC提升生产力的功能一样吗?
在AI的时代,除了科学家和算法工程师,程序员应该是距离这些新技术靠的比较近的行业了,也更容易理解AI的原理、创建基于AI的应用以及可能出现的新机会。
我毕业后本身是在造船厂造船的,转行当程序员最大的原因是我想做一款游戏(当然后面阴差阳错之下去当了个前端)。
我一直在尝试启动游戏开发的项目,但独立游戏的最大问题在于一个人要干很多事情,而每个人的精力和擅长的东西都是有限的。拿游戏开发来说,写代码是我的强项,策划勉强能做,而美术就是彻底的短板。
虽然现阶段AI产生的内容还无法应用在项目中,如果理想中的AIGC会出现,那我感觉会更有机会实现每个人都是一个团队、每个人都可以创作的情景。
因此,我感觉不必过于恐慌,即使最坏的情况出现,也并没有什么规定要求我们必须要限制在固定的工作上干一辈子。
可能的问题
下面是整理的一些目前AIGC技术上存在的潜在问题。
内容上限
在过去的一段时间里,我都在尝试使用AIGC创作一部小说,作为游戏开发的故事框架。
但我发现这是一件很难的事情:AI可以写出通顺的文本,但不容易写出有创意的作品。
如果是大模型在阅读了海量的内容之后,通过概率推测出了上一个字之后的后一个字,按照概率来看,他的选择应该会是那些更普通、更大众的文字,这会不会是导致AI现在无法进行完整创作的原因?
这也是有的人现在对AIGC不太看好的原因:一眼假、AI味儿太浓...
不知道这个问题会不会随着技术的发展取得进步。
涌现能力?
参考:
在前面提到,因为大模型的规模上去之后出现的涌现能力,生成式AI迎来了有意义的技术突破。
大模型的"涌现能力"是指人工智能系统在学习过程中自发展现出的一些意外且强大的新能力,比如概括总结、逻辑推理、多任务处理、自我修正等,使它们看起来具备某种"通用智能"。
这些能力并非直接设计或编程,而是从底层规则或者训练数据中自然涌现出来的。
涌现的现象是宇宙中广泛存在的
自然界中,当一个复杂系统由很多微小个体构成,这些微小个体凑到一起,相互作用,当数量足够多时,在宏观层面上展现出微观个体无法解释的特殊现象,就可以称之为"涌现现象",比如
- 蚂蚁集群智能
- 城市交通拥堵:单个司机的
- 雪花的形成:多个水分子最终形成有规律的进行装
大模型的涌现是否真的等同于人类意义上的"智能"仍有待深入探讨。
不管怎么样,现在对于涌现能力的本质理解仍然有限(甚至有没有必要去研究这个涌现都存在争议),以至于大模型到底是不是通往AGC的正确方向,也没有人可以说的清。
能耗成本
尽管没有查到目前比较权威的AIGC 能耗benchmark,但是还是有一些新闻和数据在指出AI耗电和耗水的问题
- 训练 GPT-3 这样的大型语言模型估计消耗了数亿度电力
- ChatGPT每天消耗超过50万千瓦时的电力,用于处理约2亿个用户请求,相当于美国家庭每天用电量的1.7万多倍
- 生成单张图像的二氧化碳排放量相当于驾驶电动汽车63英里产生的排放。
此情此景,让我不由得想到前几年数字货币挖矿的场景,甚至有将矿厂建在水厂旁边的情况。
算力背后都是电力的消耗,这些成本最终应该都会放在用户身上。
此外,对AI进行训练需要更强的算力中心和与之匹配的散热能力,水冷是目前比较主流的方式,因此也会消耗大量的水资源。
小结
在去年初识ChatGPT这篇文章中,简单整理了一下GPT相关的术语,并在最后简单的给出了对于AIGC的一些看法
chatGPT像一个更智能的搜索引擎,帮助我快速找到想要了解的资料,但最后的产出,还是需要我来修改和调整。
时过一年,AIGC的发展还是很迅速的,比如claude 3
、sora
(希望不全是营销)等。因此,现在我的观点是
即使AIGC很完善了,大部分人应该还是内容的消费者,而不是生产者,因为很多人都缺乏创作内容的能力。
AIGC肯定是可以提升一部分岗位的工作效率的,不用抱着自己可能被取代的焦虑来抵制它。
新技术的出现,往往存在很多争议,目前整个社会对于AIGC的关注度非常高,也存在很多贩卖焦虑、收割韭菜的乱象,希望大家保持自己的分辨能力和学习能力。
本文提到的各种内容也都只是我本人的看法,无法保证正确或者错误,交给时间来解答吧。
期待明年的这个时候AI技术能进一步发展!