1、前言

2022年11月，随着OpenAI宣布正式推出ChatGpt，全球的科技界工业界仿佛被点燃引爆，开始疯狂投入AI领域，各大厂商争先恐后入局加码，有了很多令人瞩目的AI产品和模型，一场AI世界的Big Bang疯狂上演。

网上找了这张图非常棒，总结的相当的到位。源自如下地址。

2、大爆炸

底层大模型

这部分可谓是百家争鸣，百舸争流。自从2022年11月ChatGPT横空出世，它仅用短短五天便吸引了100万用户，两个月后用户数更是突破了亿级，创造了互联网产品增长的最快记录。ChatGPT的成功归功于两大技术突破：一是通过精细的人工调教，使其回答人类问题变得更加自然、流畅；二是发掘了大型模型的"涌现"现象。所谓"涌现"，是指当AI模型的规模扩大到一定程度时，会展现出在小规模模型中不明显的智能行为或能力。比如，随着模型参数数量的增加，模型可能突然能够生成更自然、连贯的语言，或在图像识别任务中展现出更高的准确度。这种现象有时被视为"智能的涌现"，因为它似乎标志着模型从简单数据处理向更高层次的认知能力转变，如上下文学习和思维链能力。

2月，关系微妙的Bing Chat紧随ChatGPT之后发布，在2月就占得先机，原本市场份额不大的Bing搜索引擎因此焕发新生。MetaAI开源的LLaMA模型开启了大模型开源生态的繁荣之路，此后多个所谓的"开源大模型"均源自LLaMA。同月，上海复旦大学发布了国内首个开源大模型MOSS，引起国内极大关注。

3月，OpenAI的GPT4强势发布，被誉为地表最强模型，无数人开始探索如何注册和使用这款耗资数十亿美元打造的"大杀器"。紧接着，Anthropic的Claude和Google的Bard也相继上线，虽然Google显得稍微迟缓，但其最早提出的Transformer架构在大模型技术储备上令人瞩目。国内百度发布了文心一言，虽效果一般，但也算先行者。智谱AI推出了开源中文大模型ChatGLM。斯坦福开源的Alpaca（7B）将微调大模型的成本降至600美元，开启了低成本微调方法的新时代。

4月，LLaMA的泄露事件带来了大模型进化的全新开源分支。GPT和LLaMA这对iOS和Android，共同开启了生成式AI的寒武纪大爆发。Stability AI发布了开源大模型Stable LM，以及文本生图模型Stable Diffusion XL，重新激发了人们对文生图能力的期待。阿里巴巴发布了通义千问大模型。

5月，全球大模型开始百花齐放，Google推出PaLM2，试图追赶OpenAI，但效果仍有待观察。Claude则继续发力，支持长达100K文本上下文。

6月，国内百模大战进入白热化，无数国内企业都拿出了自家的大模型产品。Runway Gen2的发布让大模型在生成式视频领域的玩法更加精进。

7月，MetaAI开源第二代LLaMA2模型，开源模型再上新台阶。同时GPT-4最强对手Claude2也来袭，PDF阅读理解第一名。

8月，MetaAI继续发力，开源编程大模型Code LLaMA发布。

9月，OpenAI发力，GPT多模态版本发布，实时联网功能发布。HeyGen的真人视频生成Demo席卷全球。而Mistral 7B的发布，让欧洲之光的MistralAI进入大众视野。此外StabiltyAI继续在多模态大模型发力，开源StableAudio。

10月，GPT4V发布，让GPT有了眼睛，可以学会看图了。沉寂已久的 DALL·E 更新到第三代。

11月，OpenAI 高层戏剧化政变，Sam Altman几进几出，全球观众不眠不休追剧。GPTs发布让人人开发自己的大模型成为可能。马斯克Grok入局，李开复的01万物开源Yi-34B，苹果也不甘示弱，继续开源更适合苹果硬件的大模型框架MLX。

12月，2023年收官之际，Google发布多模态AI模型Gemini，并开始崭露头角，可以理解文字、图片、代码和音视频。大模型从语言开始卷多模态！成为GPT4V的强力竞争者。Google 在几个月内完成了生成式 AI 生态的完整布局，不得不让人感叹家底雄厚。

应用类

在探讨了AI模型的诸多进展之后，我们不禁将目光转向应用领域，那里的创新如同百花齐放，各领风骚。2023年3月，OpenAI与向量数据库厂商联手，推出了插件体系，为ChatGPT增添了联网功能和代码解释器。这一创新举措引起了广泛关注，为了赋予模型记忆能力和上下文理解力，向量数据库厂商迅速成为了市场的宠儿。同时，这也催生了如langchain这样的框架，它将大模型的能力拓展至聊天工具之外，赋予了智能体更多的功能，如检索知识库、使用工具，甚至协作完成任务。这种发展逐步推动了Agent概念的盛行，为大语言模型的未来展望开辟了新的视野。

然而，当OpenAI开始自行构建向量数据库，并内置向量检索功能，发布Assistants API，将Agent的各项能力封装其中时，这一系列行动对插件服务商构成了沉重打击。那些辛苦培养起来的用户，似乎一夜之间就被OpenAI所吸引。Sam Altman在9月的YC分享会上也提醒创业者，不应仅仅依赖于ChatGPT的套壳。缺乏专业领域知识和数据壁垒的AI创业，将难以构建起自己的护城河，最终可能被不断成长的大模型能力所取代。

在AI绘画领域，创新同样令人瞩目。Midjourney以其简单易用和高画质著称，从V4升级至V5，即将推出V6，其生成的图片稳定性和自然性不断提升，对光影的掌控更是令人叹为观止。StableDiffusion凭借其免费、开源和可定制的特性，稳固地占据了市场的一席之地。其丰富的插件和多样的checkpoint及Lora模型，支撑起一个价值千万的生态系统。无论你偏爱何种画风，只需一个Lora模型，就能源源不断地生成图片。而ControlNet插件在StableDiffusion中稳居榜首，它控制着构图和风格，是AI绘画不可或缺的工具。OpenAI的Dalle模型，随着Dalle3的发布，画质再次跻身顶级，加之背后GPT大模型的支持，其潜力难以估量。

在视频领域，HeyGen的真人视频生成技术引起了全球轰动，该产品能够整合多项技术，让人物以自己的声音说出任何话语，展示了大模型在视频生成方面的惊人能力。Runway引领的生成式视频领域发展迅速，Runway Gen-2的上线开启了视频生成的新篇章，Pika、LumaAI、Morph Studio、Moonvalley、PlaiDay、Mootion等应用如雨后春笋般涌现。11月，竞争进入白热化阶段，Gen-2在Pika等竞争对手的刺激下完成了重大更新，视频质量实现了质的飞跃。Pika 1.0在可控性方面取得了显著的进步。

Meta和Stability AI分别发布了Emu和Stable video diffusion，学术界也在努力降低生成成本。预计明年，生成式视频将迎来爆发式增长，彻底改变图像创意工作者的工作流程。