技术栈
#ai代理
果冻人工智能
13 小时前
#人工智能
·
#ai代理
·
#ai应用
·
#ai员工
·
#神经网络
·
#ai
创建用于预测序列的人工智能模型,设计数据集。
上一篇:《预测大师的秘籍:揭开时间序列的真相》序言:一章介绍了序列数据以及时间序列的特性,包括季节性、趋势、自相关性和噪声。你创建了一个用于预测的合成序列,并探索了基本的统计预测方法。在接下来的章节中,你将系统地学习如何利用人工智能模型(机器学习模型)进行时间序列预测。这包括:数据集的创建、模型的构建、模型的训练与测试、架构的验证,以及通过调整超参数优化模型性能。这一篇则主要与大家共同回顾如何创建数据集。
果冻人工智能
4 天前
#人工智能
·
#ai代理
·
#ai应用
·
#ai员工
·
#cnn
·
#chatgpt
·
#神经网络
·
#ai
预测大师的秘籍:揭开时间序列的真相
上一篇:《用人工智能模型预测股市和加密货币的K线图》序言:预测时间序列,乍听之下似乎离我们普通人很遥远,甚至有些晦涩难懂。其实该技术早已渗透进了我们的日常生活。天气预报每天提醒你是否带伞、股市的波动影响你的投资决策、电力公司的负荷管理让你享受稳定的电网服务……这些无不依赖时间序列分析的强大力量。本篇将带你从最简单的预测方法出发,逐步揭开时间序列的面纱,让你看到这门技术是如何在普通人和机器学习这门高深技术之间架起一座桥梁
果冻人工智能
8 天前
#人工智能
·
#ai代理
·
#ai应用
·
#ai员工
·
#cnn
·
#神经网络
·
#ai
人工智能规模法则的起源、分析、内幕以及对齐方法
上一篇:《人工智能大语言模型起源篇,低秩微调(LoRA)》(14)Rae 和同事(包括78位合著者!)于2022年发表的《Scaling Language Models: Methods, Analysis & Insights from Training Gopher》,https://arxiv.org/abs/2112.11446
果冻人工智能
9 天前
#人工智能
·
#ai代理
·
#ai应用
·
#ai员工
·
#cnn
·
#chatgpt
·
#神经网络
·
#ai
规模法则(Scaling Law)与参数效率的提高,
上一篇:《人工智能大语言模型起源篇(三),模型规模与参数效率》规模法则与效率提高如果你想了解更多关于提高变换器效率的各种技术,我推荐阅读2020年的《Efficient Transformers: A Survey》https://arxiv.org/abs/2009.06732论文,接着是2023年的《A Survey on Efficient Training of Transformers》https://arxiv.org/abs/2302.01107论文。
果冻人工智能
10 天前
#人工智能
·
#ai代理
·
#ai应用
·
#ai员工
·
#cnn
·
#chatgpt
·
#神经网络
·
#ai
人工智能大语言模型起源篇(二),从通用语言微调到驾驭LLM
上一篇:《人工智能大语言模型起源篇(一),从哪里开始》(5)Howard 和 Ruder 于2018年发表的《Universal Language Model Fine-tuning for Text Classification》,https://arxiv.org/abs/1801.06146
果冻人工智能
12 天前
#人工智能
·
#ai代理
·
#豆包
·
#ai应用
·
#ai员工
·
#cnn
·
#chatgpt
·
#神经网络
·
#ai
人工智能大语言模型起源篇(一),从哪里开始
序言:许多人最初接触人工智能都是在ChatGPT火热之际,并且大多停留在应用层面。对于希望了解其技术根源的人来说,往往难以找到方向。因此,我们编写了《人工智能大语言模型起源篇》,旨在帮助读者找到正确的学习路径,了解大型语言模型的大致起源。本文将分为三个部分,介绍当前主流的大型语言模型架构Transformer(变换器)模型的起源及其发展历程。Transformer并非横空出世,而是人工智能领域研究者们在长期探索和实验中逐步发展起来的。
果冻人工智能
12 天前
#人工智能
·
#ai代理
·
#ai应用
·
#ai员工
·
#cnn
·
#chatgpt
·
#神经网络
·
#ai
用人工智能模型预测股市和加密货币的K线图
前一篇:《从爱尔兰歌曲到莎士比亚:LSTM文本生成模型的优化之旅》前言:加密货币市场昨日大幅下跌,一天内市值蒸发逾70亿 人民币。有人可能会问,如果使用人工智能模型预测市场的涨跌,是否能避免损失?作者在此指出,加密货币市场和股市具有高度的主观性,受人为因素、情绪波动和外界干预的显著影响,而非单纯依赖客观规律。因此,即便人工智能能够基于历史数据和市场规律做出客观预测,也无法避免因市场主观性而导致的不确定性或偏差。因此,在主观决策时不要让人工智能帮你来做。
果冻人工智能
15 天前
#人工智能
·
#ai代理
·
#豆包
·
#ai应用
·
#ai员工
·
#cnn
·
#chatgpt
·
#神经网络
·
#ai
搭建人工智能多模态大语言模型的通用方法
上一篇:《理解多模态大语言模型,主流技术与最新模型简介》序言:动手搭建建多模态LLM的两大通用主流方法是:统一嵌入-解码器架构和跨模态注意力架构,它们都是通过利用图像嵌入与投影、跨注意力机制等技术来实现的。
果冻人工智能
17 天前
#人工智能
·
#ai代理
·
#豆包
·
#ai应用
·
#ai员工
·
#cnn
·
#chatgpt
·
#神经网络
·
#ai
再用RNN神经网络架构设计生成式语言模型
上一篇:《用谷歌经典ML方法方法来设计生成式人工智能语言模型》序言:市场上所谓的开源大语言模型并不完全开源,通常只提供权重和少量工具,而架构、训练数据集、训练方法及代码等关键内容并未公开。因此,要真正掌握人工智能模型,仍需从基础出发。本篇文章将通过传统方法重新构建一个语言模型,以帮助大家理解语言模型的本质:它并不神秘,主要区别在于架构设计。目前主流架构是谷歌在论文《Attention Is All You Need》中提出的 Transformer,而本文选择采用传统的 RNN(LSTM)方法构建模型,其
果冻人工智能
18 天前
#人工智能
·
#ai代理
·
#ai应用
·
#ai员工
·
#神经网络
·
#ai
理解多模态大语言模型,主流技术与最新模型简介
序言:近几个月非常精彩。AI研究领域又有了许多新进展,其中包括两个诺贝尔奖授予了AI领域,以及几篇有趣的研究论文发表。
果冻人工智能
20 天前
#人工智能
·
#ai代理
·
#ai应用
·
#ai员工
·
#cnn
·
#神经网络
·
#ai
用谷歌经典ML方法方法来设计生成式人工智能语言模型
上一篇:《人工智能模型学习到的知识是怎样的一种存在?》序言:在接下来的几篇中,我们将学习如何利用 TensorFlow 来生成文本。需要注意的是,我们这里并不使用当前最热门的 Transformer 模型,而是探讨传统的机器学习方法。这么做的目的,是让你对当前主流的生成式人工智能模型有一个对比性的理解。通过了解这些传统模型和现代 Transformer 模型的差异,你会发现,现代生成式模型的成功,背后的技术,其实就是“规模法则”(Scaling Law)的推动。你可能会好奇,为什么以前的模型无法以同样的方
果冻人工智能
22 天前
#人工智能
·
#ai代理
·
#ai应用
·
#ai员工
·
#神经网络
·
#ai
循环神经网络设计同样可以使用预训练词“嵌入”
序言:重新训练人工智能大型模型是一项复杂且高成本的任务,尤其对于当前的LLM(大型语言模型)来说,全球99.99%的企业难以承担。这是因为模型训练需要巨大的资源投入、复杂的技术流程以及大量的人力支持。因此,无论在科学研究还是实际应用中,人们通常依赖开源的预训练模型及其已经学习到的各种特征信息,就像使用开源的Linux一样。本节将讲解如何利用这些预训练模型中的“嵌入”信息来解决实际问题。
果冻人工智能
24 天前
#人工智能
·
#ai代理
·
#ai应用
·
#ai员工
·
#神经网络
·
#ai
新型大语言模型的预训练与后训练范式,Meta的Llama 3.1语言模型
前言:大型语言模型(LLMs)的发展历程可以说是非常长,从早期的GPT模型一路走到了今天这些复杂的、公开权重的大型语言模型。最初,LLM的训练过程只关注预训练,但后来逐步扩展到了包括预训练和后训练在内的完整流程。后训练通常涵盖监督指导微调和对齐过程,而这些在ChatGPT的推广下变得广为人知。
果冻人工智能
25 天前
#人工智能
·
#ai代理
·
#ai应用
·
#ai员工
·
#cnn
·
#神经网络
·
#ai
新型大语言模型的预训练与后训练范式,谷歌的Gemma 2语言模型
前言:大型语言模型(LLMs)的发展历程可以说是非常长,从早期的GPT模型一路走到了今天这些复杂的、公开权重的大型语言模型。最初,LLM的训练过程只关注预训练,但后来逐步扩展到了包括预训练和后训练在内的完整流程。后训练通常涵盖监督指导微调和对齐过程,而这些在ChatGPT的推广下变得广为人知。
果冻人工智能
1 个月前
#人工智能
·
#ai代理
·
#ai应用
·
#ai员工
·
#神经网络
·
#ai
新型大语言模型的预训练与后训练范式,阿里Qwen
前言:大型语言模型(LLMs)的发展历程可以说是非常长,从早期的GPT模型一路走到了今天这些复杂的、公开权重的大型语言模型。最初,LLM的训练过程只关注预训练,但后来逐步扩展到了包括预训练和后训练在内的完整流程。后训练通常涵盖监督指导微调和对齐过程,而这些在ChatGPT的推广下变得广为人知。
果冻人工智能
1 个月前
#人工智能
·
#ai代理
·
#ai应用
·
#ai员工
·
#神经网络
·
#ai
设计一个基于 LSTM 神经网络的文本分类器
前一篇:《用于自然语言处理的循环神经网络RNN》序言:本节主要讲解如何使用循环神经网络(RNN)创建一个文本分类器。RNN 是一类适合处理序列数据的神经网络的统称,而我们将在本节中使用 RNN 的一种常见变体——LSTM(长短期记忆网络)来实现这一文本分类器。
果冻人工智能
1 个月前
#人工智能
·
#ai代理
·
#ai应用
·
#ai员工
·
#cnn
·
#神经网络
·
#ai
设计和训练人工智能模型的意义是什么?
前一篇:《人工智能模型训练技术,正则化!》序言:人工智能模型的真正价值在于其实际应用,而不仅仅停留在理论阶段。本节将通过一个简单而常见的应用场景,展示如何将前面几节所设计和训练的模型应用于实际问题。我们将使用训练好的模型对句子进行分类,具体来说,识别社交平台上用户评论的类别。通过这样的技术,社交平台可以实时分析用户的情绪,迅速采取适当的响应措施,比如缓解冲突、提升用户体验,甚至优化平台的推荐算法。
果冻人工智能
1 个月前
#人工智能
·
#ai代理
·
#ai应用
·
#神经网络
·
#ai
人工智能模型训练技术:随机失活,丢弃法,Dropout
前一篇:《探索训练人工智能模型的词汇大小与模型的维度》序言:Dropout 是神经网络设计领域的一种技术,通常我们把它翻译成 随机失活 或者 丢弃法。如果训练神经网络的时候不用 Dropout,模型就很容易“读死书”,也就是过拟合,结果可能导致项目失败。
果冻人工智能
1 个月前
#人工智能
·
#ai代理
·
#ai应用
·
#ai员工
·
#cnn
·
#神经网络
·
#ai
人工智能同样也会读死书----“过拟合”
上一篇:《“嵌入”在大语言模型中是解决把句子转换成向量表示的技术》序言:我们常常会说某某人只会“读死书”,题目稍微变一点就不会做了。这其实是我们人类学习中很常见的现象。可是你知道吗?人工智能其实更容易“读死书”。不过在人工智能领域,我们有个听起来高大上的说法,叫“过拟合”。说白了,“过拟合”就是人工智能的“读死书”现象。在这个小节我们就来聊聊怎么让人工智能少“读死书”。注意,我说的是“少”,因为这个问题没办法完全消除,只能尽量降低。
果冻人工智能
1 个月前
#人工智能
·
#ai代理
·
#ai员工
·
#chatgpt
斯坦福大学推出线性前沿LLM技术,训练模型成本仅为20美元
序言:当前基于 Transformer 架构的大语言模型人工智能技术,由于投入大、成本高、人才需求苛刻,导致许多企业望而却步。动辄几千万甚至上亿的成本,现实中有几家企业能够承担?真正具有竞争力的技术应当在成本上更低、效率上更高,因此,各大院校和商业公司已不再仅仅关注模型的参数规模,而是在积极探索创新方法,显著降低大语言模型的研发与使用成本,使得大多数企业也能轻松采用。斯坦福大学的这一最新研究成果正是朝着这一目标迈出了一大步——将一个 80 亿参数模型的训练成本降至 20 美元。同时,已有中国企业基于这一研