1、前言
2022年11月,随着OpenAI宣布正式推出ChatGpt,全球的科技界工业界仿佛被点燃引爆,开始疯狂投入AI领域,各大厂商争先恐后入局加码,有了很多令人瞩目的AI产品和模型,一场AI世界的Big Bang疯狂上演。
网上找了这张图非常棒,总结的相当的到位。源自如下地址。
2、大爆炸
底层大模型
这部分可谓是百家争鸣,百舸争流。自从2022年11月ChatGPT横空出世,它仅用短短五天便吸引了100万用户,两个月后用户数更是突破了亿级,创造了互联网产品增长的最快记录。ChatGPT的成功归功于两大技术突破:一是通过精细的人工调教,使其回答人类问题变得更加自然、流畅;二是发掘了大型模型的"涌现"现象。所谓"涌现",是指当AI模型的规模扩大到一定程度时,会展现出在小规模模型中不明显的智能行为或能力。比如,随着模型参数数量的增加,模型可能突然能够生成更自然、连贯的语言,或在图像识别任务中展现出更高的准确度。这种现象有时被视为"智能的涌现",因为它似乎标志着模型从简单数据处理向更高层次的认知能力转变,如上下文学习和思维链能力。
2月,关系微妙的Bing Chat紧随ChatGPT之后发布,在2月就占得先机,原本市场份额不大的Bing搜索引擎因此焕发新生。MetaAI开源的LLaMA模型开启了大模型开源生态的繁荣之路,此后多个所谓的"开源大模型"均源自LLaMA。同月,上海复旦大学发布了国内首个开源大模型MOSS,引起国内极大关注。
3月,OpenAI的GPT4强势发布,被誉为地表最强模型,无数人开始探索如何注册和使用这款耗资数十亿美元打造的"大杀器"。紧接着,Anthropic的Claude和Google的Bard也相继上线,虽然Google显得稍微迟缓,但其最早提出的Transformer架构在大模型技术储备上令人瞩目。国内百度发布了文心一言,虽效果一般,但也算先行者。智谱AI推出了开源中文大模型ChatGLM。斯坦福开源的Alpaca(7B)将微调大模型的成本降至600美元,开启了低成本微调方法的新时代。
4月,LLaMA的泄露事件带来了大模型进化的全新开源分支。GPT和LLaMA这对iOS和Android,共同开启了生成式AI的寒武纪大爆发。Stability AI发布了开源大模型Stable LM,以及文本生图模型Stable Diffusion XL,重新激发了人们对文生图能力的期待。阿里巴巴发布了通义千问大模型。
5月,全球大模型开始百花齐放,Google推出PaLM2,试图追赶OpenAI,但效果仍有待观察。Claude则继续发力,支持长达100K文本上下文。
6月,国内百模大战进入白热化,无数国内企业都拿出了自家的大模型产品。Runway Gen2的发布让大模型在生成式视频领域的玩法更加精进。
7月,MetaAI开源第二代LLaMA2模型,开源模型再上新台阶。同时GPT-4最强对手Claude2也来袭,PDF阅读理解第一名。
8月,MetaAI继续发力,开源编程大模型Code LLaMA发布。
9月,OpenAI发力,GPT多模态版本发布,实时联网功能发布。HeyGen的真人视频生成Demo席卷全球。而Mistral 7B的发布,让欧洲之光的MistralAI进入大众视野。此外StabiltyAI继续在多模态大模型发力,开源StableAudio。
10月,GPT4V发布,让GPT有了眼睛,可以学会看图了。沉寂已久的 DALL·E 更新到第三代。
11月,OpenAI 高层戏剧化政变,Sam Altman几进几出,全球观众不眠不休追剧。GPTs发布让人人开发自己的大模型成为可能。马斯克Grok入局,李开复的01万物开源Yi-34B,苹果也不甘示弱,继续开源更适合苹果硬件的大模型框架MLX。
12月,2023年收官之际,Google发布多模态AI模型Gemini,并开始崭露头角,可以理解文字、图片、代码和音视频。大模型从语言开始卷多模态!成为GPT4V的强力竞争者。Google 在几个月内完成了生成式 AI 生态的完整布局,不得不让人感叹家底雄厚。
应用类
在探讨了AI模型的诸多进展之后,我们不禁将目光转向应用领域,那里的创新如同百花齐放,各领风骚。2023年3月,OpenAI与向量数据库厂商联手,推出了插件体系,为ChatGPT增添了联网功能和代码解释器。这一创新举措引起了广泛关注,为了赋予模型记忆能力和上下文理解力,向量数据库厂商迅速成为了市场的宠儿。同时,这也催生了如langchain这样的框架,它将大模型的能力拓展至聊天工具之外,赋予了智能体更多的功能,如检索知识库、使用工具,甚至协作完成任务。这种发展逐步推动了Agent概念的盛行,为大语言模型的未来展望开辟了新的视野。
然而,当OpenAI开始自行构建向量数据库,并内置向量检索功能,发布Assistants API,将Agent的各项能力封装其中时,这一系列行动对插件服务商构成了沉重打击。那些辛苦培养起来的用户,似乎一夜之间就被OpenAI所吸引。Sam Altman在9月的YC分享会上也提醒创业者,不应仅仅依赖于ChatGPT的套壳。缺乏专业领域知识和数据壁垒的AI创业,将难以构建起自己的护城河,最终可能被不断成长的大模型能力所取代。
在AI绘画领域,创新同样令人瞩目。Midjourney以其简单易用和高画质著称,从V4升级至V5,即将推出V6,其生成的图片稳定性和自然性不断提升,对光影的掌控更是令人叹为观止。StableDiffusion凭借其免费、开源和可定制的特性,稳固地占据了市场的一席之地。其丰富的插件和多样的checkpoint及Lora模型,支撑起一个价值千万的生态系统。无论你偏爱何种画风,只需一个Lora模型,就能源源不断地生成图片。而ControlNet插件在StableDiffusion中稳居榜首,它控制着构图和风格,是AI绘画不可或缺的工具。OpenAI的Dalle模型,随着Dalle3的发布,画质再次跻身顶级,加之背后GPT大模型的支持,其潜力难以估量。
在视频领域,HeyGen的真人视频生成技术引起了全球轰动,该产品能够整合多项技术,让人物以自己的声音说出任何话语,展示了大模型在视频生成方面的惊人能力。Runway引领的生成式视频领域发展迅速,Runway Gen-2的上线开启了视频生成的新篇章,Pika、LumaAI、Morph Studio、Moonvalley、PlaiDay、Mootion等应用如雨后春笋般涌现。11月,竞争进入白热化阶段,Gen-2在Pika等竞争对手的刺激下完成了重大更新,视频质量实现了质的飞跃。Pika 1.0在可控性方面取得了显著的进步。
Meta和Stability AI分别发布了Emu和Stable video diffusion,学术界也在努力降低生成成本。预计明年,生成式视频将迎来爆发式增长,彻底改变图像创意工作者的工作流程。
3、总结
回顾2023年,AI领域的技术进步和广泛应用令人瞩目。展望未来,我们期待AI能够更好地服务于人类,同时也希望各方共同努力,确保技术的发展与道德伦理相协调,为人类创造一个更加美好的未来。2024年,AI的迅猛发展预示着一个充满希望的新时代已经到来。
4、AI高地坐标
Runway - Advancing creativity with artificial intelligence.
5、引用
2023年最引人瞩目的AI大模型产品和技术 | 数据学习(DataLearner)