大模型相关调研及端应用形态讨论

大模型创业领域与应用模式

国内AIGC创业领域

2023年AIGC创业领域,相关创业公司呈现出以下趋势:

  • 与 2022 年 受到 Stable Diffusion 和 ChatGPT 刺激后快速涌现出的生产力工具方向的创业公司不同,2023 年有更多比例的新公司聚焦在底层技术的创新上,更多大模型公司和 infra 工具链公司在以技术大拿为主的创始人主导下成立。反映在数据上,具体表现为聚焦在底层技术的创业公司占比从 14% 提升到了 29%,而生产力工具型的应用公司占比则从 65% 下降到 46%。此外,在生产力工具的方向上,不同于此前仅微调 Stable Diffusion 等开源模型的创业公司,最新涌现的创业公司往往由更高级别的AI 人才领导。
  • 大模型创业公司开始分化,在通用大模型创业公司方兴未艾的同时,许多面向特定行业的垂直大模型公司开始出现,主要聚焦在医疗、电商、科研、工业、自动驾驶和机器人等方向。
  • 具备行业属性的智能助手方向的创业企业开始增加,如求职、招聘、求学、法律、健康、购物、企业知识问答等方向的个人助手和员工助手方向的创业公司持续涌现,这代表着在经过一段时间对 ChatGPT、Stable Diffusion 的熟悉后,具备更强行业知识和资源的行业老炮型创始人逐渐进入生成式 AI 领域。

2022年到现在国内AIGC领域创业趋势从基于通用大模型搞各类应用开始逐渐转向垂直大模型和底层技术领域

通用大模型与垂直大模型

通用大模型

作为模型层公司代表的 OpenAI,2020 年发布的 1750 亿参数的 GPT-3 曾一度是 AI 历史上最大的机器学习模型,相比于 15 亿参数量的 GPT-2,GPT-3 参数量提高约 117 倍,预训练的数据量也从 50 GB 提高到 570 GB。2023 年 3 月,OpenAI 发布的 GPT-4 则再次扩展了深度学习的边界,结合多模态能力达到了里程碑式的效果,并在各种专业和学术基准上表现出可以与人类媲美的水平。 可以说,GPT-3 打响了大模型竞争的第一枪,而 ChatGPT 和 GPT-4 的出现进一步加速了大模型主导权的竞争,是否拥有一个大语言模型底座对于大模型企业后续进一步优化出更好的模型至关重要。ChatGPT 是 OpenAI GPT-3.5 优化后的模型和产品化体现,其背后的技术从 2018 年的 GPT-1(2018)开始,逐渐经过GPT-2(2019),GPT-3(2020)逐渐达到里程碑式的突破,此后 2 年内 GPT-3 又经过两次重要迭代,引入基于人类的反馈系统(RLHF)后形成 ChatGPT。从 ChatGPT 的发展可以看出,对于模型层公司来说,技术的演进极为重要,公司需要极强的技术掌舵人和融资能力来保障研发投入的稳定性。

此外,通过对海外市场的观察,当前大模型竞赛中,由高级别 AI 人才主导的创业公司更加领先,例如OpenAI, Anthropic 和 Cohere 等公司。同样,类似 Adept,Inflection 和 Character.ai 等公司以极快速度实现了极高的估值,也表明顶级的 AI 人才正在通过研发大模型来构建有壁垒的应用,以此参与到生成式 AI 领域的竞赛中,而市场也更青睐这些顶级 AI 人才创立的公司。

垂直大模型

垂直大模型企业往往不会作为模型提供商来存在,更多的是"自建大模型的垂直应用"的模式。 除了创业公司以外,有兴趣研发垂直大模型的组织主要还有互联网公司、AI 1.0 企业和行业龙头等。对于自研垂直模型的企业,行业数据尤为重要,拥有高质量的行业数据和私有数据,是针对特定行业优化大模型表现的关键。以彭博自研的BloomBergGPT 为代表,金融行业数据超过了公开数据,占比达到 51%。因此,最终模型效果在很多在金融任务上有出色的表现。

目前构建面向垂直行业的模型有以下三种方式:

  • 在已经完成训练的通用大模型基础上,结合大量自身的行业数据进行微调(fine-tuning),在此之前是否对通用大模型进行蒸馏、后续是否外挂知识库则视情况而定。
  • 通过改变数据的分布,结合更多特定行业的数据进行预训练,直接打造行业大模型。
  • 通过自定义一种专属语言,并用(文本,专属语言)这样的 pair 对大模型进行 fine-tuning,并将生成的专属语言输入到自研的 AI 模型中,完成【用户输入 -- 大模型 -- 专属语言输出 -- 自有 AI 模型 -- 业务结果输出】的全过程。

大模型应用形态

目前大多数的基于大模型的应用不需要从头训练大模型,只需要直接利用底座模型的能力,叠加对于场景和行业的深刻理解,就可以支持相关业务。

根据 AI 能力来源及其占比,这些应用大致可以分为三类:

  • 调用外部大模型的 API 为主的模式。这类团队本身通常不会有很强的预训练模型开发能力,更多是具备应用层的能力。基于 API 或开源模型去开发应用,至多做一些微调与修改。
  • 结合了 AI 1.0 模型能力的模式。他们仍以调用 API 或使用开源模型为主,但又涉及大模型技术以外的 AI 算法。这类团队内部培养了一些深度学习算法的工程师,才能更好地实现既定效果。
  • 自研 AI 2.0 模型能力的模式。这就是"模型 + 应用"的垂直大模型模式。这类团队通常需要高度熟练的机器学习科学家、大量相关的数据、训练基础设施和计算能力。团队领袖往往是 AI 行业的顶尖人才,有过成功的大模型预训练经验。当然,这些公司也不会介意借鉴一些开源模型加快研发速度。

三类模式并没有孰优孰劣之分。不同应用场景,不同发展阶段,需要合理采用不同的模式。

从行业对标看业务方向

应用方向 相关说明 典型应用
文本类 直接生成应用型文本,已发展较成熟,以客服类的聊天问答、新闻撰写为核心场景 直接生成创作型文本,适用于剧情续写、营销文本等 细分场景 生成交互型文本,典型场景为智能客服/聊天机器人/ 虚拟伴侣/游戏中的NPC个性化交互等 文本辅助生成,是目前国内工具落地最为广泛的场景 聊天问答: ChatGPT:Chat Generative Pre-Trained Transformer,2022年11月,OpenAI在推出其基于 GPT-3.5的新型 AI聊天机器人ChatGPT免费预览版软件。用户只需向ChatGPT提出需求,即可实现文章创作、代码创作、回答问题等功能。如今更新至GPT-4.0比以往更具创造性和协作性。基于客户需求可完成生成、编辑和迭代创意和技术写作任务,如创作歌曲、编写剧本或学习用户的写作风格。同时可以接受图片作为输入并生成标题、分类和分析。GPT-4.0能够处理超过25,000字的文本,允许使用案例,如长形式的内容创作、扩展的对话以及文件搜索和分析。 文心一言:百度全新一代知识增强大语言模型,文心大模型家族的新成员,能够与人对话互动,回答问题,协助创作,高效便捷地帮助人们获取信息、知识和灵感。
新闻撰写/剧情续写: 阅文写作助手:阅文妙笔大模型 全面探索有声、漫画、动画、衍生等开发链条的AI应用。 "快笔小新":新华社第一位机器人记者,AI写稿
营销与广告文案: Jasper:通过其文字生成功能,用户可以轻松生成Instagram 标题,编写TikTok 视频脚本、广告营销文本(已实现商业变现,估值达15亿美元) Copy.ai:是一个通过人工智能(AI)技术帮你写各种推广文案的创业公司,你可以用它几秒钟内生成高质量的广告和营销文案。主要列举了三个场景:For email、For blogs、For Social median,根据不同场景不同主题,可以根据用户提供的关键词生成不同的文案,并进行润色发表。
知识辅助: Notion AI: Notion公司推出Notion AI,它是一款集成了笔记、知识库、数据表格、看板、日历等多种能力于一体的应用,支持个人用户单独使用,也可以与他 人进行跨平台协作。目前,部分公司及个人使用Notion 来撰写笔记。
代码生成: GitHub Copilot,是 GitHub 和 OpenAI 合 作开发的一个人工智能工具,用户在使用 Visual Studio Code、Microsoft Visual Studio、Vim 或JetBrains集成开发环境时可以 通过 GitHub Copilot注释或命令写代码:可生成任意语言,如:java、 python、go等智能纠错、代码补全:可根据上下文纠正错误代码
图像类 根据简单描述、关键词自动生成或修改图像 图像属性编辑、图像局部生成及更改 : 主要是图像编辑工具,图片去水印、自动调整光影、设置滤镜、 修改颜色纹理、复刻/修改图像风格、提升分辨率、修改面部特征(Metaphysics,可调节自身照片的情绪、年龄、微笑等);美图AI平台:绘画机器人、人物漫画、一键修图
端到端的图像生成: Midjourney:是一款2022年3月面世的AI绘画工具, 它是由Midjourney研究实验室开发的人工智能程序, 可根据文本生成图像,使用者可通过Discord的机 器人指令进行操作,可以创作出的图像作品。常见功能: 人物卡通化:将人物照片转换成有趣的卡通形象。 轮廓生成:根据输入的文字描述生成对应的图像轮廓。 色彩生成:利用GAN模型生成具有艺术感和创意的彩色图像。 视频换脸:实现对视频中人物的面部进行换脸操作。 人脸合成:将不同人物的面部特征进行合成,生成新的面孔。 视觉问答:通过图像识别和自然语言处理技术,实现对话。 6pen.art:国内AI图像生成公司,打造任何人都可轻易使用的AI技术,将你的绝妙想法快速转化成看得见的图像,并在6pen社区中获得展示,点赞和更多潜在收益;
音频类 音频生成主要应用于流行歌曲、乐曲、有声书的内容创作,以及视频、游戏、影视等领域的配乐创作,目前在众多场景已获初步发展,在部分场景已广泛 应用、趋于成熟。现有的落地场景集中在TTS、语音克隆、乐曲/歌曲生成。 TTS与语音克隆(声音IP化): 在声音IP化的基础上,对于动画、 电影以及虚拟人行业有重要意义。常用于智能客服、有声读物制作、语音播报、 自媒体配音、导航播报等 喜马拉雅 运用TTS技术重现单田芳声音版《毛氏三兄弟》和历史类作品 AI孙燕姿:AI孙燕姿火爆B站 恐龙贝克App:采用AI语音合成技术复刻爸妈的声 音为0-6岁儿童讲故事
音乐生成: 美团AI-音乐生成:美团目前已发展出基于 AI 的音乐生成创作能力,主要包括条件音乐生成音乐标签体系 建设,并已应用于美团多个业务场景 Amper Music:基于云算法的平台,帮助简化电影和视频游戏的音轨制作过程广泛应用领域(播客、电影和视频游戏)快速创 建音乐:只需提供音乐的风格、情绪、长度、关 键词即可快速创作音乐。数百万的样品和多种工具:有效改进音乐制作的 水准。
视频类 视频自动剪辑、属性编辑、视频到视频的自动生成等 视频属性编辑:视频画质修复、删除画面中特定主体、自动跟踪主题剪辑、生成视频特效、自动添加特定内容、 视频自动美颜等。Runway ML 、Wisecut、Adobe Sensei、Kaleido、帝视科技、 CCTV AIGC、影谱科技、Versa (不咕剪辑)、美图影像研究院等
视频自动剪辑 : 基于视频中的画面、声音等多模态信息的特征融合进行学习,按照氛围、情绪等高级语义限定, 对满足条件片段进行检测并合成。影谱科技(智能视频编辑)、 Adobe(与斯坦福共同研发的AI视 频剪辑系统)、IBM Watson(自动剪辑电影预告片)、Sony CSL (Flow Machine)等
视频自动生成Runaway:基于文本和图片生成视频,推出了一个新的人工智能模型 「Gen-1」,该模型通过应用文本 prompt(提示词)或参考图像指定的任何风格,可将现有视频转化为新视频。改变视频风格: Runway的Gen 1系统可以根据用户需求改变视频风格或在视 频上添加更多细节。文本生成内容: Runway发布Gen 2系统,该系统可以根据用户提示生成短视频。使用该系统,用户可以输入简短的视频描述,例如"一只行走在雨中的猫",Gen 2根据语义生成大约3秒钟的视频。 chat.d-id:该产品可以使用其新的技术创造一个能够表达各种情感的多语言电视主播、为客户支持互动创建虚拟聊天机器人角色、开发用于专业发展的培训课程、并创建交互式对话视频广告。Chat D-ID为首个使用ChatGPT实现人与虚拟人面对面对话的应用程序,整合了ChatGPT与D-ID生成式技术。它使用实时人脸动画和先进的文本到语音来营造一种身临其境的感觉。D-ID的原理在于人脸识别,不仅是改变脸部和动画生成,同时可以根据少量信息生成逼真的人物视频或从单个静止图像生成动态人物。脸识别技术分为4步:人脸检测、人脸对齐、人脸编码、人脸匹配。

从行业看,应用层在文本、图像、视频等方向均有较为成熟应用

  • 各业务线侧重点各异,比如酒旅、平台更关注营销、广告领域在文案/图像/视频等素材的生成或者降成本方面的应用;
  • 助手类应用较多集中在知识库问答层面,未过多深入业务流程改造;
  • 搜索推荐类业务,选择增强原有能力,利用大模型能力让用户能够用更自然的方式表达需求,并提供与需求精准匹配的供给。

端应用

什么样的问题必须依靠大模型的能力?

综上,无论是行业还是公司内的应用方向和产品形态基本相差不大,那端上什么样的问题是必须依靠大模型的能力才能解决或者解决的更好的呢?

从输入输出视角看,大模型解决的问题的数据源一定是非结构化的 (音频、文本、图像) ,如果是结构化的数据,那么所需要解决的问题,通过小模型,无论是分类模型、预测模型或者其他模型都是可以解决的。

badcase:畅想过应用Copilot的一种形态,"大模型"作为"AI"大脑,通过不断的感知用户的时空信息,辅助用户做出相关决策

这个场景里有几个典型的问题:

  1. AI大脑感知的时空信息基本上都是结构化数据(各类时序特征),基于这类数据做智能决策,不需要用到大模型的能力,现有的小模型就可以;
  2. 目前大模型自身对复杂任务的调度或者决策能力很弱,准确度无法保证;

所以,设想的场景是需要AI模型,但不一定真正用到到大模型;要用大模型,就必须关注到业务场景中是否有非结构化的数据需要处理

从数据源看业务方向

如果从数据源角度出发,在个人创作、广告营销、设计等领域都有丰富的文本、音频和视频数据,所以大模型都有比较好的应用范式。但是C端业务场景下非结构化的数据来源相对较少

数据形式 来源 应用方向
文本 用户反馈、用户社区、用户评论、用户搜索 搜索增强 商城导购 辅助发帖 智能客服
语音 语音输入 情绪分析 时空信息挖掘
图像/视频 用户头像、用户UGC 用户创作 用户形象生成

前端领域看大模型

从大模型相关项目中看前端承担角色和相关技术挑战,我理解主要还是以下几个方面,主动在大模型层面做功的空间不大。

方向 说明
研发提效 需求归纳辅助方案设计、方案调研辅助编码单元测试 AI大模型辅助提升研发效能实践
AI应用架构 与常规开发相比,其差异主要在于要和模型迭代的链路进行深入结合。大语言模型模糊了技术和语言的边界,也模糊了产品和技术的边界。当风起时,如何扬帆,这是每一个研发人员的课题。 大语言模型时代的 C 端产品研发
混合AI计算 在云端和终端进行分布式处理的混合 AI 才是 AI 的未来。混合 AI 架构,或仅在终端侧运行 AI,能够在全球范围带来成本、能耗、性能、隐私、安全和个性化优势。 鸿蒙小艺:升级大模型 小米小爱大模型

相关资料

部分资料引自:《启明创投x未尽研究 生成式AI报告》

相关推荐
想成为高手4994 小时前
生成式AI在教育技术中的应用:变革与创新
人工智能·aigc
hunteritself15 小时前
ChatGPT高级语音模式正在向Web网页端推出!
人工智能·gpt·chatgpt·openai·语音识别
z千鑫17 小时前
【人工智能】PyTorch、TensorFlow 和 Keras 全面解析与对比:深度学习框架的终极指南
人工智能·pytorch·深度学习·aigc·tensorflow·keras·codemoss
Doker 多克18 小时前
Spring AI 框架使用的核心概念
人工智能·spring·chatgpt
程序员X小鹿1 天前
AI视频自动剪辑神器!点赞上万的影视剧片段,一键全自动剪辑,效率提升80%!(附保姆级教程)
aigc
曼城周杰伦1 天前
自然语言处理:第六十二章 KAG 超越GraphRAG的图谱框架
人工智能·pytorch·神经网络·自然语言处理·chatgpt·nlp·gpt-3
爱技术的小伙子1 天前
【ChatGPT】ChatGPT在多领域知识整合中的应用
chatgpt
学习前端的小z1 天前
【AIGC】如何准确引导ChatGPT,实现精细化GPTs指令生成
人工智能·gpt·chatgpt·aigc
刘悦的技术博客2 天前
MagicQuill,AI动态图像元素修改,AI绘图,需要40G的本地硬盘空间,12G显存可玩,Win11本地部署
ai·aigc·python3.11
段传涛2 天前
LLM( Large Language Models)典型应用介绍 1 -ChatGPT Large language models
人工智能·语言模型·chatgpt