2023,生成式AI狂飙的一年

1、前言

2022年11月,随着OpenAI宣布正式推出ChatGpt,全球的科技界工业界仿佛被点燃引爆,开始疯狂投入AI领域,各大厂商争先恐后入局加码,有了很多令人瞩目的AI产品和模型,一场AI世界的Big Bang疯狂上演。

网上找了这张图非常棒,总结的相当的到位。源自如下地址

2、大爆炸

底层大模型

这部分可谓是百家争鸣,百舸争流。自从2022年11月ChatGPT横空出世,它仅用短短五天便吸引了100万用户,两个月后用户数更是突破了亿级,创造了互联网产品增长的最快记录。ChatGPT的成功归功于两大技术突破:一是通过精细的人工调教,使其回答人类问题变得更加自然、流畅;二是发掘了大型模型的"涌现"现象。所谓"涌现",是指当AI模型的规模扩大到一定程度时,会展现出在小规模模型中不明显的智能行为或能力。比如,随着模型参数数量的增加,模型可能突然能够生成更自然、连贯的语言,或在图像识别任务中展现出更高的准确度。这种现象有时被视为"智能的涌现",因为它似乎标志着模型从简单数据处理向更高层次的认知能力转变,如上下文学习和思维链能力。

2月,关系微妙的Bing Chat紧随ChatGPT之后发布,在2月就占得先机,原本市场份额不大的Bing搜索引擎因此焕发新生。MetaAI开源的LLaMA模型开启了大模型开源生态的繁荣之路,此后多个所谓的"开源大模型"均源自LLaMA。同月,上海复旦大学发布了国内首个开源大模型MOSS,引起国内极大关注。

3月,OpenAI的GPT4强势发布,被誉为地表最强模型,无数人开始探索如何注册和使用这款耗资数十亿美元打造的"大杀器"。紧接着,Anthropic的Claude和Google的Bard也相继上线,虽然Google显得稍微迟缓,但其最早提出的Transformer架构在大模型技术储备上令人瞩目。国内百度发布了文心一言,虽效果一般,但也算先行者。智谱AI推出了开源中文大模型ChatGLM。斯坦福开源的Alpaca(7B)将微调大模型的成本降至600美元,开启了低成本微调方法的新时代。

4月,LLaMA的泄露事件带来了大模型进化的全新开源分支。GPT和LLaMA这对iOS和Android,共同开启了生成式AI的寒武纪大爆发。Stability AI发布了开源大模型Stable LM,以及文本生图模型Stable Diffusion XL,重新激发了人们对文生图能力的期待。阿里巴巴发布了通义千问大模型。

5月,全球大模型开始百花齐放,Google推出PaLM2,试图追赶OpenAI,但效果仍有待观察。Claude则继续发力,支持长达100K文本上下文。

6月,国内百模大战进入白热化,无数国内企业都拿出了自家的大模型产品。Runway Gen2的发布让大模型在生成式视频领域的玩法更加精进。

7月,MetaAI开源第二代LLaMA2模型,开源模型再上新台阶。同时GPT-4最强对手Claude2也来袭,PDF阅读理解第一名。

8月,MetaAI继续发力,开源编程大模型Code LLaMA发布。

9月,OpenAI发力,GPT多模态版本发布,实时联网功能发布。HeyGen的真人视频生成Demo席卷全球。而Mistral 7B的发布,让欧洲之光的MistralAI进入大众视野。此外StabiltyAI继续在多模态大模型发力,开源StableAudio。

10月,GPT4V发布,让GPT有了眼睛,可以学会看图了。沉寂已久的 DALL·E 更新到第三代。

11月,OpenAI 高层戏剧化政变,Sam Altman几进几出,全球观众不眠不休追剧。GPTs发布让人人开发自己的大模型成为可能。马斯克Grok入局,李开复的01万物开源Yi-34B,苹果也不甘示弱,继续开源更适合苹果硬件的大模型框架MLX。

12月,2023年收官之际,Google发布多模态AI模型Gemini,并开始崭露头角,可以理解文字、图片、代码和音视频。大模型从语言开始卷多模态!成为GPT4V的强力竞争者。Google 在几个月内完成了生成式 AI 生态的完整布局,不得不让人感叹家底雄厚。

应用类

在探讨了AI模型的诸多进展之后,我们不禁将目光转向应用领域,那里的创新如同百花齐放,各领风骚。2023年3月,OpenAI与向量数据库厂商联手,推出了插件体系,为ChatGPT增添了联网功能和代码解释器。这一创新举措引起了广泛关注,为了赋予模型记忆能力和上下文理解力,向量数据库厂商迅速成为了市场的宠儿。同时,这也催生了如langchain这样的框架,它将大模型的能力拓展至聊天工具之外,赋予了智能体更多的功能,如检索知识库、使用工具,甚至协作完成任务。这种发展逐步推动了Agent概念的盛行,为大语言模型的未来展望开辟了新的视野。

然而,当OpenAI开始自行构建向量数据库,并内置向量检索功能,发布Assistants API,将Agent的各项能力封装其中时,这一系列行动对插件服务商构成了沉重打击。那些辛苦培养起来的用户,似乎一夜之间就被OpenAI所吸引。Sam Altman在9月的YC分享会上也提醒创业者,不应仅仅依赖于ChatGPT的套壳。缺乏专业领域知识和数据壁垒的AI创业,将难以构建起自己的护城河,最终可能被不断成长的大模型能力所取代。

在AI绘画领域,创新同样令人瞩目。Midjourney以其简单易用和高画质著称,从V4升级至V5,即将推出V6,其生成的图片稳定性和自然性不断提升,对光影的掌控更是令人叹为观止。StableDiffusion凭借其免费、开源和可定制的特性,稳固地占据了市场的一席之地。其丰富的插件和多样的checkpoint及Lora模型,支撑起一个价值千万的生态系统。无论你偏爱何种画风,只需一个Lora模型,就能源源不断地生成图片。而ControlNet插件在StableDiffusion中稳居榜首,它控制着构图和风格,是AI绘画不可或缺的工具。OpenAI的Dalle模型,随着Dalle3的发布,画质再次跻身顶级,加之背后GPT大模型的支持,其潜力难以估量。

在视频领域,HeyGen的真人视频生成技术引起了全球轰动,该产品能够整合多项技术,让人物以自己的声音说出任何话语,展示了大模型在视频生成方面的惊人能力。Runway引领的生成式视频领域发展迅速,Runway Gen-2的上线开启了视频生成的新篇章,Pika、LumaAI、Morph Studio、Moonvalley、PlaiDay、Mootion等应用如雨后春笋般涌现。11月,竞争进入白热化阶段,Gen-2在Pika等竞争对手的刺激下完成了重大更新,视频质量实现了质的飞跃。Pika 1.0在可控性方面取得了显著的进步。

Meta和Stability AI分别发布了Emu和Stable video diffusion,学术界也在努力降低生成成本。预计明年,生成式视频将迎来爆发式增长,彻底改变图像创意工作者的工作流程。

3、总结

回顾2023年,AI领域的技术进步和广泛应用令人瞩目。展望未来,我们期待AI能够更好地服务于人类,同时也希望各方共同努力,确保技术的发展与道德伦理相协调,为人类创造一个更加美好的未来。2024年,AI的迅猛发展预示着一个充满希望的新时代已经到来。

4、AI高地坐标

OpenAI

Claude

Gemini - Google DeepMind

Llama 2 - Meta AI

Runway - Advancing creativity with artificial intelligence.

MidJourney

Stability AI

5、引用

2023年最引人瞩目的AI大模型产品和技术 | 数据学习(DataLearner)

2023,生成式AI狂奔的一年

ChatGPT一周年,你错过了多少革命性时刻?一图总结2023生成式AI里程碑大事件时间线-36氪

2023年人工智能行业总结

相关推荐
GOTXX2 分钟前
基于Opencv的图像处理软件
图像处理·人工智能·深度学习·opencv·卷积神经网络
IT古董7 分钟前
【人工智能】Python在机器学习与人工智能中的应用
开发语言·人工智能·python·机器学习
CV学术叫叫兽22 分钟前
快速图像识别:落叶植物叶片分类
人工智能·分类·数据挖掘
WeeJot嵌入式1 小时前
卷积神经网络:深度学习中的图像识别利器
人工智能
脆皮泡泡1 小时前
Ultiverse 和web3新玩法?AI和GameFi的结合是怎样
人工智能·web3
机器人虎哥1 小时前
【8210A-TX2】Ubuntu18.04 + ROS_ Melodic + TM-16多线激光 雷达评测
人工智能·机器学习
码银1 小时前
冲破AI 浪潮冲击下的 迷茫与焦虑
人工智能
用户37791362947551 小时前
【循环神经网络】只会Python,也能让AI写出周杰伦风格的歌词
人工智能·算法
何大春1 小时前
【弱监督语义分割】Self-supervised Image-specific Prototype Exploration for WSSS 论文阅读
论文阅读·人工智能·python·深度学习·论文笔记·原型模式
uncle_ll1 小时前
PyTorch图像预处理:计算均值和方差以实现标准化
图像处理·人工智能·pytorch·均值算法·标准化