大型语言模型(LLMs)是如何工作的?

大型语言模型(LLMs)如ChatGPT、Bing的"Sydney"模式和Google的Bard正在占据新闻头条。与其讨论它们将使哪些工作变得过时,本文将探讨这些模型的工作原理,包括它们从哪里获取数据以及使它们能够生成令人信服的真实文本的基本数学方法。

机器学习101LLMs是一种机器学习模型,就像许多其他模型一样。要理解它们的工作原理,让我们从了解一般的机器学习基础知识开始。

注意:有许多优秀的在线视觉资源可以更详细地解释机器学习,可能比我能解释得更好------我建议查看它们!然而,我将在这里介绍基本概念。

掌握基本的ML模型的最简单方法是考虑预测:基于我已经知道的,在一个新情况下会发生什么?这类似于你的大脑如何工作。

想象你有一个总是迟到的朋友。你正在计划一个聚会,所以你预计他还会迟到。虽然不确定,但根据他的记录,你认为有很大的可能性。如果他准时到达,你会感到惊讶,并且你会记住这一点;也许下次你会调整对他的迟到的期望。

你的大脑中有许多这样的模型不断工作,但目前我们还不完全了解它们在内部是如何实际工作的。在现实世界中,我们不得不使用算法来应对------有些简单,有些非常复杂------它们从数据中学习并预测新情况下可能会发生的事情。通常,模型被训练来做特定的事情(如预测股票价格或创建图像),但它们正变得越来越多功能化。

机器学习模型有点像API:它接收输入,你教它产生特定的输出。以下是这个过程:

  1. 收集训练数据:收集关于你想要建模的数据的一堆信息。
  2. 分析训练数据:查看数据以找到模式和细节。
  3. 选择模型:选择一个算法(或几个)来理解数据及其工作原理。
  4. 训练:运行算法,它学习并存储它所推断出的内容。
  5. 推理:将新数据呈现给模型,它将给出它的想法。

根据模型需要完成的具体任务,你创建模型的接口,决定它接收什么信息以及返回什么信息。

你可能会问,这个算法是做什么的?嗯,可以把它想象成一个超级聪明的分析师。它可以发现你提供的数据中的关联关系,这些关联关系通常是你自己很难发现的。数据通常包含一些X元素------比如特征、设置、细节------以及一些Y元素------实际发生的事情。如果你正在查看这些数据:

你不需要机器学习来告诉你当X为15时,Y约为150,000。但是如果有30个不同的X因素呢?或者数据看起来很怪异?或者是文本?机器学习就是解决我们人类技能不足的棘手情况。就是这样。

这就是为什么ML算法可以像线性回归(如统计1)一样简单,也可以像具有数百万节点的神经网络一样复杂。最近新闻中的超级先进模型非常复杂,需要很多人和多年的研究。但在许多公司中,数据科学家使用简单的算法仍然可以获得良好的结果。

从零开始构建强大的ML模型是一个非常专业化的领域。一些数据科学家和机器学习工程师使用PyTorch和Tensorflow等工具创建模型,而其他人则增强现有的开源模型。您还可以选择将整个模型开发过程外包,并使用别人创建的现成模型。

创建模型就像是一个试错的过程。除非你的数据非常直接,否则你可能需要测试不同的方法并在你的模型开始有意义之前进行不断的调整。它融合了科学、数学、艺术和一些随机性。

语言模型和生成文本当你的数据有时间元素时------比如预测未来股票价格或理解即将到来的选举------模型的作用就很明显了。它使用过去来预测未来。然而,许多机器学习模型,如语言模型,根本不处理时间序列数据。

语言模型只是处理文本数据的机器学习模型。你可以在所谓的"语料库"(或仅仅是文本)上训练它们,然后你可以将它们用于各种任务,例如:

1、回答

2、问题搜索

3、摘要

4、转录语言模型的概念已经存在一段时间了,但最近深度学习和神经网络的兴起是一个重大事件;我们将讨论这两者。

概率语言模型简单来说,概率语言模型就像单词或词组的概率图。在英语中,它检查一段文本并分析哪些单词出现,何时出现,出现的频率以及它们出现的次序等等。所有这些信息都是通过统计捕获的。

现在,让我们快速制作自己的语言模型。

以下是两个可能或不一定表达我真实想法的句子:

"最好的曼哈顿鸡尾酒配方使用两盎司Van Brunt帝国黑麦威士忌,一盎司Cocchi Di Torino甜苦艾酒,一撮安格斯图拉苦味酒和一撮橙子苦味酒。我在调酒杯中搅拌大约60次,倒入一个冷却的Nick and Nora杯中,并用一颗樱桃装饰。"

要制作一个简单的概率语言模型,我们将收集n-grams,这是一组词的高级统计术语。让我们将n设置为1,这意味着我们只会计算单词出现的频率。

如果n设置为2:

模型所做的是生成一堆n-grams,关注哪些单词一起出现以及它们的顺序。

😰 不要担心细节 😰

我通过n-gram练习只是为了说明许多模型正在做的事情并不是那么复杂(尽管对某些人来说是这样的)。因此,如果您没有理解上述所有细节,请不要感到压力。

😰 不要担心细节 😰

一旦您存储了这些信息,就可以预测接下来可能出现的单词。如果我们要从两个鸡尾酒句子中创建一个新的句子,我们会以一种类似于之前的方式将单词组合在一起。

神经网络和语言模型概率语言模型已经存在了几十年。然而,最近使用神经网络(一种更复杂的算法)进行语言建模变得越来越流行。这些网络使用称为嵌入的东西以更有意义的方式学习发生了什么。对于模型来说,直接从单词中学习是很困难的,但更容易从这些单词的数学表示中学习。

嵌入是一种方法,可以将具有大量维度的数据(如包含大量离散单词和组合的大型文本)以较少的数据进行数学表示,同时不会丢失太多细节。对于一个机器学习模型来说,处理关于制作鸡尾酒的100个不同1500字的博客文章的文本(总共有15万个单词!)是一项艰巨的任务。但是,如果我们能够将这些信息转化为一系列数字,那么我们就走对了路。

配备了更易于使用的单词和文本表示形式后,神经网络可以学习有关文本的重要信息,例如:

单词之间的语义关系引入更多上下文(单词或句子前后的句子)确定哪些单词重要,哪些不重要这些东西变得相当复杂。但是目标很简单:一个足够强大的模型,在预测下一个单词、句子或段落时可以考虑很多上下文,就像我们的大脑一样。

大型语言模型现在ChatGPT及其同类本质上是大规模语言模型(这就是为什么它们被称为这样)。它们建立在过去十年的层层进展之上,包括:

Word2Vec模型LSTM(长短时记忆)模型RNN(循环神经网络)Transformers(是的)(也称为"基础模型")您不必真正了解每个模型是什么。关键是要认识到这些大型语言模型并不是某种突然的科学突破。研究人员多年来一直在稳步迈向今天的现实,并且每一项新的发展都对达到这一点起到了至关重要的作用。当LSTM在2019年获得关注时(尽管该概念在90年代就引入了),有一个大的炒作周期,而所有这些也是如此。研究有点奇怪!

ChatGPT和LLMs创建整段文本的方式是通过反复进行单词猜测游戏。

以下是概述:

  1. 您给模型一个提示(这是"预测"短语)。
  2. 它根据提示预测一个单词。
  3. 它根据第一个单词预测第二个单词。
  4. 它根据前两个单词预测第三个单词。
  5. ...

当您将其分解时,这很简单。但是事实证明,当您的模型在互联网的所有文本上进行训练时,单词猜测游戏可以非常强大。数据科学家经常说关于ML模型:"垃圾输入意味着垃圾输出",意思是您的模型只与用于训练它们的数据一样好。通过与微软合作,OpenAI能够使用大量的计算资源来收集这些数据并在强大的服务器上训练这些模型。

以整个书面互联网为上下文,LLMs可以生成很少偏离"正常"的句子,与旧模型不同。如果短语"我在玻璃杯周围用曼哈顿冰镇鸡尾酒安格斯图拉"在网页上不存在,那么该模型可能不会生成它。而这个简单的事实是这些模型如此出色的一个主要原因。

这引出了一个重要的问题:这些大型语言模型真的理解它们提供的答案吗?弄清楚这个问题涉及到数学、哲学和语义学("理解"到底是什么意思?)的混合。

如何学习AI大模型?

作为一名热心肠的互联网老兵,我决定把宝贵的AI知识分享给大家。 至于能学习到多少就看你的学习毅力和能力了 。我已将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

一、全套AGI大模型学习路线

AI大模型时代的学习之旅:从基础到前沿,掌握人工智能的核心技能!

二、640套AI大模型报告合集

这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。

三、AI大模型经典PDF籍

随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。

四、AI大模型商业化落地方案

作为普通人,入局大模型时代需要持续学习和实践,不断提高自己的技能和认知水平,同时也需要有责任感和伦理意识,为人工智能的健康发展贡献力量。

相关推荐
云起无垠1 小时前
【论文速读】| FirmRCA:面向 ARM 嵌入式固件的后模糊测试分析,并实现高效的基于事件的故障定位
人工智能·自动化
Leweslyh3 小时前
物理信息神经网络(PINN)八课时教案
人工智能·深度学习·神经网络·物理信息神经网络
love you joyfully3 小时前
目标检测与R-CNN——pytorch与paddle实现目标检测与R-CNN
人工智能·pytorch·目标检测·cnn·paddle
该醒醒了~3 小时前
PaddlePaddle推理模型利用Paddle2ONNX转换成onnx模型
人工智能·paddlepaddle
小树苗1933 小时前
DePIN潜力项目Spheron解读:激活闲置硬件,赋能Web3与AI
人工智能·web3
凡人的AI工具箱4 小时前
每天40分玩转Django:Django测试
数据库·人工智能·后端·python·django·sqlite
大多_C4 小时前
BERT outputs
人工智能·深度学习·bert
Debroon4 小时前
乳腺癌多模态诊断解释框架:CNN + 可解释 AI 可视化
人工智能·神经网络·cnn
反方向的钟儿4 小时前
非结构化数据分析与应用(Unstructured data analysis and applications)(pt3)图像数据分析1
人工智能·计算机视觉·数据分析
Heartsuit4 小时前
LLM大语言模型私有化部署-使用Dify的工作流编排打造专属AI搜索引擎
人工智能·dify·ollama·qwen2.5·ai搜索引擎·tavily search·工作流编排