2024年度最佳大型语言模型(LLMs)汇总

大型语言模型(LLMs)是人工智能文本处理的主要类型,也现在最流行的人工智能应用形态。ChatGPT是迄今为止最著名的使用LLM的工具,它由OpenAI的GPT模型的特别调整版本提供动力。但还有许多其他聊天机器人和文本生成器,包括从Google Bard和Anthropic的Claude到Writesonic和Jasper,它们都是建立在LLMs之上的。

自2010年代末以来,众多的LLM一直在研究实验室中酝酿,如果不是ChatGPT的出现,它们可能还会继续待在实验室里孤芳自赏,但在ChatGPT发布并展示出色实力后,它们也冲出实验室,进入了现实世界。 有些 LLM 已经开发了多年,有些则迅速发展起来以赶上最新的炒作周期,还有更多的是开源研究工具。

2024年最佳LLMs

目前大概有几十个主要的LLMs,还有数百个由于某种原因而具有争议的,将它们全部列出几乎是不可能的,而且无论如何,由于LLMs的发展速度很快,它可能会在几天内过时。

对于"最佳"这个词,我们不妨持保留态度:我已经试图通过提供一个最重要、最有趣和最流行的 LLM(和 LMM)列表来缩小范围,而不一定是那些在基准测试中表现优异的(尽管其中大多数是这样)。 我还主要关注您可以使用的 LLM,而不是那些超级有趣的研究论文的主题,因为我们喜欢在这里保持实用性。

在开始之前还有最后一件事:很多人工智能应用都没有列出它们所依赖的LLM。有些我们可以猜测,或者从他们的营销材料中可以清楚地看出,但对于大多数应用,我们只是不知道。这就是为什么你会在下面的表格中看到"未披露"------这只是意味着我们不知道任何使用LLM的主要应用,尽管可能有一些应用使用了它。

|-------------------|---------------------------------|-------------------------------------------------------|-------------------------------------------|-------------|
| LLM | 开发者 | 热门应用 | 参数数量 | 访问方式 |
| GPT | OpenAI | Microsoft, Duolingo, Stripe, Zapier, Dropbox, ChatGPT | 175 billion+ | API |
| Gemini | Google | Some queries on Bard | Nano: 1.8 & 3.25 billion; others unknown | API |
| PaLM 2 | Google | Google Bard, Docs, Gmail, and other Google apps | 340 billion | API |
| Llama 2 | Meta | 未披露 | 7, 13, and 70 billion | Open source |
| Vicuna | LMSYS Org | Chatbot Arena | 7, 13, and 33 billion | Open source |
| Claude 2 | Anthropic | Slack, Notion, Zoom | Unknown | API |
| Stable Beluga | Stability AI | 未披露 | 7, 13, and 70 billion | Open source |
| StableLM | Stability | 未披露 | 7, 13, and 70 billion | Open source |
| Coral | Cohere | HyperWrite, Jasper, Notion, LongShot | 未知 | API |
| Falcon | Technology Innovation Institute | 未披露 | 1.3, 7.5, 40, and 180 billion | Open source |
| MPT | Mosaic | 未披露 | 7 and 30 billion | Open source |
| Mixtral 8x7B | Mistral AI | 未披露 | 46.7 billion | Open source |
| XGen-7B | SalesforceSalesforce | 未披露 | 7 billion | Open source |
| Grok | xAI | Grok Chatbot | 未知 | 聊天机器人 |


什么是LLM?

LLM,或大型语言模型,是一种通用的人工智能文本生成器,是所有人工智能聊天机器人和人工智能写作生成器的后台系统。

LLMs具有超级的自动完成能力。除去花哨的界面和其他变通方法,他们所做的更本任务是接受一个提示,并使用一串貌似合理的后续文本生成一个答案。建立在LLMs之上的聊天机器人不会寻找关键词,以便他们可以用固定答案回答,相反,他们会尽最大努力理解被问到的问题,并适当地回答。

这就是LLM真正厉害的原因:相同的模型(有或没有一点额外的培训)可以用来回答客户的询问,撰写营销材料,总结会议记录,以及做很多其他的事情。

LLMs是如何工作的?

早期的LLM,比如GPT-1,在生成几句话后就会崩溃,开始生成无意义的句子,但如今的LLM,比如GPT-4,可以生成数千个有意义的单词。

为了达到这个目的,LLMs在巨大的语料库上进行了训练。不同的LLM之间的细节略有不同,这取决于开发人员在充分获得他们正在使用的材料的权利方面有多仔细,但作为一般规则,你可以假设他们在相当于整个公共互联网和每本已出版的主要书籍上进行了训练。这就是为什么LLMs可以生成在如此广泛的主题上听起来如此权威的文本。

从这些训练数据中,LLM能够使用高维向量来模拟不同单词(或者实际上是单词的一部分,称为标记)之间的关系。这是所有事情变得非常复杂和数学化的地方,但基本原理是每个单独的标记都有一个唯一的ID,相似的概念被分组在一起。然后,这被用来生成一个神经网络,一种基于人脑工作方式的多层算法,这是每个LLM的核心。

神经网络有一个输入层,一个输出层和多个隐藏层,每个隐藏层都有多个节点。正是这些节点计算了输入之后应该出现什么单词,不同的节点有不同的权重。例如,如果输入字符串包含单词"Apple",神经网络将不得不决定接下来应该出现"Mac"或"iPad"之类的单词,或者"pie"或"crumble"之类的单词,或者完全是其他的单词。当我们谈论LLM有多少参数时,我们基本上是在比较底层神经网络中有多少层和节点。一般来说,节点越多,模型能够理解和生成的文本就越复杂。

当然,在开放的互联网上训练的人工智能模型几乎没有方向,听起来就像噩梦一样。它可能也不会非常有用,所以在这一点上,LLMs进行了进一步的培训和微调,以引导它们生成安全和有用的响应。其中一个主要的工作方式是通过调整不同节点的权重,尽管还有其他方面。

所有这些都是说,虽然LLMs是黑盒子,但它们内部发生的事情并不神奇。一旦你对它们的工作方式有了一点了解,就很容易理解为什么它们如此擅长回答某些类型的问题。这也很容易理解为什么它们倾向于编造(或产生幻觉)随机的事情。

LLMs可以用于什么?

LLM 之所以强大,主要是因为它们能够被推广到许多不同的情境和用途。相同的核心 LLM(有时稍微调整一下)可以用于完成许多不同的任务。虽然它们所做的一切都是基于生成文本,但它们被提示执行任务的具体方式会改变它们所具有的特性。

以下是LLMs通常用于的一些任务:

  • 通用聊天机器人(如ChatGPT和Google Bard)
  • 根据您的业务文档和数据进行培训的客户服务聊天机器人
  • 将文本从一种语言翻译成另一种语言
  • 将文本转换为计算机代码或将一种语言转换为另一种语言。
  • 生成社交媒体帖子、博客文章和其他营销文案
  • 情绪分析
  • 调节内容
  • 校对和编辑写作
  • 数据分析

还有成百上千的其他事情,我们还只是处在当前人工智能革命的早期。

但也有许多LLMs做不到的事情,但其他类AI模型可以做到。

  • 解释图片
  • 生成图像
  • 在不同格式之间转换文件
  • 在网上搜索
  • 执行数学和其他逻辑操作

当然,有些LLM和聊天机器人可以做这些事情,但在大多数情况下,会有另一个AI服务介入协助,当一个模型处理几种不同类型的输入时,它实际上不再被认为是一个大型模型,而是成为一个叫做多模态大型模型(large multimodal model)的东西(尽管在某种程度上,它只是语义)。

有了这些背景知识,让我们转向 LLM 本身。

2024年最佳LLMs

GPT
  • 开发人员:OpenAI
  • 参数:超过1750亿
  • 访问:API

OpenAI的生成式预训练Transformer(GPT)模型开启了最新的人工智能炒作周期。目前有两个主要模型:GPT-3.5-turbo和GPT-4。GPT是一个带有API的通用LLM,它被各种各样的公司使用,包括微软、Duolingo、Stripe、Descript、Dropbox和Zapier,为无数不同的工具提供动力。不过,ChatGPT可能是其能力最受欢迎的演示。

你也可以将Zapier连接到GPT或ChatGPT,这样你就可以直接从技术栈中的其他应用程序中使用GPT。这里有更多关于如何自动化ChatGPT的信息,或者你可以从这些预制工作流之一开始。

Gemini
  • 开发人员:谷歌
  • 参数:Nano有18亿和32.5亿版本,其他未知
  • 访问:API

谷歌Gemini是谷歌的人工智能模型家族。三个模型-Gemini Nano,Gemini Pro和Gemini Ultra-旨在不同设备上运行,从智能手机到专用服务器。虽然能够生成像LLM一样的文本,但Gemini模型也能够处理图像、音频、视频、代码和其他类型的信息。

Gemini Pro现在为谷歌聊天机器人Bard的一些查询提供动力,并通过谷歌AI Studio或Vertex AI向开发人员提供。Gemini Nano和Ultra将于2024年推出。

PaLM 2
  • 开发人员:谷歌
  • 参数:3400亿
  • 访问:API

PaLM 2是谷歌的LLM,专为自然语言任务设计,支持Google Bard上的大多数查询,以及谷歌在Docs和Gmail等应用程序中的许多其他AI功能。

Llama 2
  • Meta 开发人员:元
  • 参数:70亿、130亿和700亿
  • 访问:开源

Llama 2是Meta(Facebook和Instagram的母公司)的一个开源LLM系列,它是最流行和最强大的开源LLM之一,你可以从Github上下载源代码,因为它对研究和商业用途是免费的,许多其他的LLM都以Llama 2为基础。

Vicuna
  • 开发人员:LMSYS Org
  • **-**参数:70亿、130亿和330亿
  • **-**访问:开源

Vicuna是一个基于Meta的Llama LLM构建的开源聊天机器人,它被广泛用于人工智能研究,并作为Chatbot Arena的一部分,Chatbot Arena是由LMSYS运营的聊天机器人基准。

Claude 2
  • 开发人员:Anthropic
  • 参数:未知
  • 访问:API

Claude 2可以说是GPT最重要的竞争对手之一。它旨在为企业客户提供有用、诚实、无害和关键的安全使用。因此,Slack、Notion和Zoom等公司都与Anthropic合作。

与所有其他专有LLM一样, Claude 2只能作为API提供,尽管它可以根据您的数据进行进一步培训,并根据您的需要进行微调。您还可以将Claude连接到Zapier,以便从所有其他应用程序中自动执行Claude 。以下是一些预制的工作流,以帮助您开始。

++Stable Beluga and StableLM++
  • 开发人员:Stability AI
  • 参数:70亿、130亿和700亿
  • 访问:开源

Stability AI是Stable Diffusion背后的团队,它是最好的AI图像生成器之一,他们还发布了几个基于Llama的开源LLM,包括Stable Beluga和StableLM,尽管它们远不及图像生成器受欢迎。

++Coral++
  • 开发人员:Cohere
  • 参数:未知
  • 访问:API

与Claude 2一样,Cohere的Coral LLM是为企业用户设计的。它同样提供了一个API,并允许组织在其自己的数据上训练模型的版本,以便能够准确地回答客户的查询。

++Falcon++
  • Developer: Technology Innovation Institute开发商:技术创新研究所
  • 参数:13亿、75亿、400亿和1800亿
  • 访问:开源

Falcon是一个开源的LLM家族,在各种AI基准测试中表现良好。它拥有高达1800亿个参数的模型,并在某些任务中优于PaLM 2、Llama 2和GPT-3.5。它在允许的Apache 2.0许可下发布,因此适合商业和研究用途。

++MPT++
  • 开发人员:
  • 参数:70亿、300亿
  • 访问:开源

Mosaic的MPT-7B和MPT-30B LLM是两个更强大、更受欢迎、更商业化的LLM。有趣的是,它们不是建立在Meta的Llama模型之上,与许多其他开源模型不同。MPT-30B的性能优于原始的GPT-3,并以Apache 2.0许可证发布,就像Falcon一样。有几个不同的版本可供选择,对聊天等进行微调,最有趣的是,一个7B版本的微调用于生成长篇小说。

++Mixtral 8x7B++
  • 开发人员:Mistral
  • 参数:467亿
  • 访问:开源

Mistral的Mixtral 8x7B使用一系列子系统来有效地超越更大的模型.尽管有显著更少的参数(因此能够运行得更快或在更弱的硬件上),它能够超越Llama-70B并匹配或击败GPT-3.5.它也是在Apache 2.0许可下发布的.

++XGen-7B++
  • 开发商人员:Salesforce
  • 参数:70亿
  • 访问:开源

Salesforce的XGen-7B并不是一个特别强大或流行的开源模型,它的性能与其他拥有70亿个参数的开源模型差不多。但我仍然认为它值得包括在内,因为它突出了有多少大型科技公司拥有人工智能和机器学习部门,可以开发和推出自己的LLM。

++Grok++
  • 开发人员:xAI
  • 参数:未知
  • 访问:聊天机器人

Grok,一个根据X(前身为Twitter)的数据训练的聊天机器人,并不真正能凭借自身的优点在这个列表上占据一席之地,因为它还没有被广泛使用,也不是特别好。尽管如此,我在这里列出它是因为它是由埃隆·马斯克(Elon Musk)创办的人工智能公司xAI开发的。虽然它可能不会在人工智能领域掀起波澜,但它仍然得到了大量的媒体报道,所以它的存在值得知道。

为什么会有这么多的LLMs?

直到一两年前,LLM还局限于研究实验室和人工智能会议的技术演示。现在,它们为无数的应用程序和聊天机器人提供动力,并且有数百种不同的模型可供您自己运行(如果您有计算机技能)。我们是如何走到这一步的?

有几个因素在起作用。其中一些主要的因素是:

  • 通过GPT-3和ChatGPT,OpenAI证明了人工智能研究已经达到了可以用来构建实用工具的地步,因此许多其他公司也开始这样做。
  • LLM需要大量的计算能力来训练,但基于现有的算力能力,通常可以在几周或几个月内完成。
  • 有很多开源模型可以重新训练或适应新模型,而无需开发一个全新的模型。
  • 人工智能公司投入了大量资金,因此对于任何拥有技能和知识的人来说,都有很大的激励来开发任何类型的LLM来这样做。

未来LLMs的期望是什么

我认为在不久的将来,我们将看到更多的LLM,特别是来自大型科技公司。亚马逊、IBM、英特尔和NVIDIA都在开发、测试或提供给客户使用的LLM。它们不像我上面列出的模型那么热门,普通人也不太可能直接使用它们,但我认为,期待大型企业开始广泛部署它们是合理的。

我还认为,我们将看到更多高效的LLM,专门用于智能手机和其他轻量级设备。谷歌已经在Gemini Nano上暗示了这一点,它在Google Pixel Pro 8上运行了一些功能。Mistral的Mixtral 8x7B等开发表明,一些技术使小型LLM能够与大型LLM有效竞争。

另一个即将到来的大事是大型多模态模型(large multimodal models or LMMs 即 LMMs)。这些模型将文本生成与其他模态相结合,如图像和音频,因此您可以询问聊天机器人在图像中发生了什么,或者让它用音频回答。GPT-4 Vision(GPT-4V)和谷歌的Gemini模型是第一个可能被广泛部署的LMM中的两个,但我们肯定会看到更多。

三年前,我绝对不认为我们会有像ChatGPT这样强大的人工智能,也许几年后,我们会有通用人工智能(AGI)。

相关推荐
鼠鼠龙年发大财2 分钟前
【鼠鼠学AI代码合集#7】概率
人工智能
龙的爹233310 分钟前
论文 | Model-tuning Via Prompts Makes NLP Models Adversarially Robust
人工智能·gpt·深度学习·语言模型·自然语言处理·prompt
工业机器视觉设计和实现23 分钟前
cnn突破四(生成卷积核与固定核对比)
人工智能·深度学习·cnn
我算是程序猿1 小时前
用AI做电子萌宠,快速涨粉变现
人工智能·stable diffusion·aigc
萱仔学习自我记录1 小时前
微调大语言模型——超详细步骤
人工智能·深度学习·机器学习
湘大小菜鸡2 小时前
NLP进阶(一)
人工智能·自然语言处理
XiaoLiuLB2 小时前
最佳语音识别 Whisper-large-v3-turbo 上线,速度更快(本地安装 )
人工智能·whisper·语音识别
哪 吒2 小时前
吊打ChatGPT4o!大学生如何用上原版O1辅助论文写作(附论文教程)
人工智能·ai·自然语言处理·chatgpt·aigc
Eric.Lee20212 小时前
音频文件重采样 - python 实现
人工智能·python·深度学习·算法·audio·音频重采样
爱喝白开水a2 小时前
关于大模型在企业生产环境中的独立部署问题
人工智能·深度学习·llm·大语言模型·ai大模型·计算机技术·本地部署大模型