AGI的基石:什么是机器学习

**什么是机器学习:**机器学习是人工智能的子集,深度学习是其重要的组成部分,包括不限于:deep neural networksdeep belief networksrecurrent neural networks。在深度学习中,有三种基本的神经网络架构:FFNN、RNN和CNN。主要区别是在不同类型数据上的表现差异。

深度神经网络 :

Deep Neural Networks(DNNs)通常是前馈网络(Feed Forward Networks - FFNN)类型,其中数据从输入层流向输出层,不会反向流动,层与层之间是单向的,永远不会再次回到触发节点。


输出是通过基于"我们想要的信息"的监督学习和具有某些信息的数据集通过反向传播获得的。就像你去餐馆,厨师给你介绍你餐点的配料。FFNNs(前馈神经网络)的工作方式与此相同,你会在吃饭时尝到那些特定配料的味道,但吃完饭后你会忘记你吃了什么。如果厨师再次给你同样的配料做的餐点,你无法识别配料,你必须从头开始,因为你没有任何记忆。但人脑并不是这样工作的。

循环神经网络:

Recurrent Neural Network(RNN)解决DNNs的无状态问题,它是一种具有时间维度的FFNN。具有跨传递的连接和跨时间的连接。其中节点之间的连接形成了一个沿着序列的定向图,如从一层到前一层的特点链接,允许信息流回网络的先前部分,因此每个层中的模型都依赖于过去的事件,使信息得以持续。使用它们的内部状态(记忆)来处理输入序列,使得它们适用于诸如无分割、连续手写识别或语音识别等任务,不但可以处理现在给出的信息,还可以处理过去的相关信息。

但是记忆的信息会随着时间的推移而丢失。为了解决这个问题,出现了 LSTM (Long Short Term Memory)。LSTM 是一种特殊的循环神经网络(RNN),能够学习长期依赖关系,这使得 RNN 擅长记住过去发生的事情,并找到时间上的模式,使其下一次猜测更有意义。LSTM 在改进机器翻译、语言建模和多语言语言处理方面打破了记录。

卷积神经网络:

Convolutional Neural Network(CNN)最常用来分析视觉图像。它们的其它应用包括视频理解、语音识别和自然语言处理。此外,长短期记忆网络(LSTM)与卷积神经网络(CNNs)结合,改进了如图像自动标题生成等在 Facebook 上所见到的功能。因此,你可以看到 RNN 更像是帮助我们进行数据处理和预测下一步,而 CNN 则帮助我们进行视觉分析。

RNN or CNN:

通常情况下CNN比RNN更强大,主要是因为RNN存在梯度消失和爆炸问题(超过3层,性能可能会下降),即使有LSTM。而 CNN 可以被堆叠成非常深的模型,这已被证明是非常有效的方式。

然而CNN也有比较大的问题。典型的 CNN 可以识别物体的类型,但不能指定它们的位置。这是因为 CNN 一次只能回归一个物体,因此当多个物体位于同一视觉场时,由于干扰,CNN 的边界框回归无法很好地工作。例如,CNN 可以检测到下面模型中显示的鸟,但如果同一视觉场内有两只不同种类的鸟,它就无法检测到。

Transformer

早些年,深度学习用到的方法是卷积神经网络(CNN)和循环神经网络(RNN)。

2017年,谷歌的研究人员发明了一种新的深度学习处理方法,叫做 Transformer(转换器)。

Transformer 不同于以前的方法,不再一个个处理输入的单词,而是一次性处理整个输入,对每个词分配不同的权重。

这种方法直接导致了2022年 ChatGPT 和后来无数生成式 AI 模型的诞生,是神经网络和深度学习目前的主流方法。

由于基于 Transformer 的模型需要一次性处理整个输入,所以都有"上下文大小"这个指标,指的是一次可以处理的最大输入。

比如,GPT-4 Turbo 的上下文是 128k 个 Token,相当于一次性读取超过300页的文本。上下文越大,模型能够考虑的信息就越多,生成的回答也就越相关和连贯,相应的,所需要的算力也就越多。


道一云七巧-与你在技术领域共同成长

了解更多: https://qiqiao.do1.com.cn/

相关推荐
扫地的小何尚1 小时前
NVIDIA Dynamo深度解析:如何优雅地解决LLM推理中的KV缓存瓶颈
开发语言·人工智能·深度学习·机器学习·缓存·llm·nvidia
张较瘦_3 小时前
[论文阅读] AI赋能 | 当AI看懂交通摄像头:多模态大模型零样本检测的实战报告
论文阅读·人工智能
cxr8283 小时前
BMAD框架实践:掌握story-checklist提升用户故事质量
前端·人工智能·agi·智能体·ai赋能
Dongsheng_20195 小时前
【汽车篇】AI深度学习在汽车零部件外观检测——机电轴承的应用
人工智能·深度学习·汽车
江瀚视野5 小时前
汽车价格战全面熄火了?不卷价格该卷什么?
人工智能·自动驾驶
资讯全球6 小时前
2025年智慧差旅平台推荐
人工智能
en-route6 小时前
从零开始学神经网络——LSTM(长短期记忆网络)
人工智能·深度学习·lstm
视觉语言导航7 小时前
CVPR-2025 | 具身导航指令高效生成!MAPInstructor:基于场景图的导航指令生成Prompt调整策略
人工智能·机器人·具身智能
wanhengidc7 小时前
云手机与人工智能之间的关系
人工智能·智能手机