#chatgpt

果冻人工智能

在 PyTorch 中理解词向量，将单词转换为有用的向量表示你要是想构建一个大型语言模型，首先得掌握词向量的概念。幸运的是，这个概念很简单，也是本系列文章的一个完美起点。

果冻人工智能

主动式AI（代理式）与生成式AI的关键差异与影响大型语言模型（LLMs）如GPT可以生成文本、回答问题并协助完成许多任务。然而，它们是被动的，这意味着它们仅根据已学到的模式对接收到的输入作出响应。LLMs无法自行决策；除此之外，它们无法规划或适应变化的环境。

果冻人工智能

创建用于预测序列的人工智能模型，用Keras Tuner探索模型的超参数。上一篇：《创建用于预测序列的人工智能模型（五），调整模型的超参数》序言：在完成初步的模型研发后，接下来的重点是探索和优化超参数。通过合理调整超参数（如学习率、动量参数、神经元数量等），可以进一步提高模型的性能和准确性。这一过程需要结合工具（如 Keras Tuner）进行自动化测试和优化，从而高效找到最优配置方案。

果冻人工智能

创建用于预测序列的人工智能模型，调整模型的超参数。上一篇：《创建用于预测序列的人工智能模型（四），评估模型的能力》序言：人工智能模型的研发过程实际上是一个多阶段的迭代过程，包括数据准备、模型架构设计、训练和验证，而超参数的调整和优化则始终贯穿其中，是提升模型性能的重要环节。

果冻人工智能

创建用于预测序列的人工智能模型，评估模型的能力。上一篇：《创建用于预测序列的人工智能模型（三），训练模型》序言：对于当前的动则几千亿的大语言模型来说，训练的过程可以持续几天几周基于几个月，这取决于拥有的硬件数量以及总要训练的参数。模型训练完成后就进入模型的评估验证过程，一般会不断的重复直到优化完成。

果冻人工智能

为什么 Llama 3.3 70B 比 GPT-4o 和 Claude 3.5 Sonnet 更优秀过去七天的 AI 新闻如狂风暴雨般涌来，AI 世界发生了许多重大变化。在这篇文章中，我们将深入探讨来自 Llama 3.3 70B、GPT-4o 和 Claude 3.5 Sonnet 等主要参与者的最新 AI 动态。

果冻人工智能

创建用于预测序列的人工智能模型，训练模型。序言：我们在从事人工智能模型的研发时，当数据集，模型架构都准确好了，其实训练从代码角度来看，很简单粗暴。

果冻人工智能

预测大师的秘籍：揭开时间序列的真相上一篇：《用人工智能模型预测股市和加密货币的K线图》序言：预测时间序列，乍听之下似乎离我们普通人很遥远，甚至有些晦涩难懂。其实该技术早已渗透进了我们的日常生活。天气预报每天提醒你是否带伞、股市的波动影响你的投资决策、电力公司的负荷管理让你享受稳定的电网服务……这些无不依赖时间序列分析的强大力量。本篇将带你从最简单的预测方法出发，逐步揭开时间序列的面纱，让你看到这门技术是如何在普通人和机器学习这门高深技术之间架起一座桥梁

果冻人工智能

规模法则（Scaling Law）与参数效率的提高，上一篇：《人工智能大语言模型起源篇（三），模型规模与参数效率》规模法则与效率提高如果你想了解更多关于提高变换器效率的各种技术，我推荐阅读2020年的《Efficient Transformers: A Survey》https://arxiv.org/abs/2009.06732论文，接着是2023年的《A Survey on Efficient Training of Transformers》https://arxiv.org/abs/2302.01107论文。

果冻人工智能

人工智能大语言模型起源篇（二），从通用语言微调到驾驭LLM上一篇：《人工智能大语言模型起源篇（一），从哪里开始》（5）Howard 和 Ruder 于2018年发表的《Universal Language Model Fine-tuning for Text Classification》，https://arxiv.org/abs/1801.06146

果冻人工智能

人工智能大语言模型起源篇（一），从哪里开始序言：许多人最初接触人工智能都是在ChatGPT火热之际，并且大多停留在应用层面。对于希望了解其技术根源的人来说，往往难以找到方向。因此，我们编写了《人工智能大语言模型起源篇》，旨在帮助读者找到正确的学习路径，了解大型语言模型的大致起源。本文将分为三个部分，介绍当前主流的大型语言模型架构Transformer（变换器）模型的起源及其发展历程。Transformer并非横空出世，而是人工智能领域研究者们在长期探索和实验中逐步发展起来的。

果冻人工智能

用人工智能模型预测股市和加密货币的K线图前一篇：《从爱尔兰歌曲到莎士比亚：LSTM文本生成模型的优化之旅》前言：加密货币市场昨日大幅下跌，一天内市值蒸发逾70亿人民币。有人可能会问，如果使用人工智能模型预测市场的涨跌，是否能避免损失？作者在此指出，加密货币市场和股市具有高度的主观性，受人为因素、情绪波动和外界干预的显著影响，而非单纯依赖客观规律。因此，即便人工智能能够基于历史数据和市场规律做出客观预测，也无法避免因市场主观性而导致的不确定性或偏差。因此，在主观决策时不要让人工智能帮你来做。

果冻人工智能

搭建人工智能多模态大语言模型的通用方法上一篇：《理解多模态大语言模型，主流技术与最新模型简介》序言：动手搭建建多模态LLM的两大通用主流方法是：统一嵌入-解码器架构和跨模态注意力架构，它们都是通过利用图像嵌入与投影、跨注意力机制等技术来实现的。

果冻人工智能

再用RNN神经网络架构设计生成式语言模型上一篇：《用谷歌经典ML方法方法来设计生成式人工智能语言模型》序言：市场上所谓的开源大语言模型并不完全开源，通常只提供权重和少量工具，而架构、训练数据集、训练方法及代码等关键内容并未公开。因此，要真正掌握人工智能模型，仍需从基础出发。本篇文章将通过传统方法重新构建一个语言模型，以帮助大家理解语言模型的本质：它并不神秘，主要区别在于架构设计。目前主流架构是谷歌在论文《Attention Is All You Need》中提出的 Transformer，而本文选择采用传统的 RNN（LSTM）方法构建模型，其

果冻人工智能

斯坦福大学推出线性前沿LLM技术，训练模型成本仅为20美元序言：当前基于 Transformer 架构的大语言模型人工智能技术，由于投入大、成本高、人才需求苛刻，导致许多企业望而却步。动辄几千万甚至上亿的成本，现实中有几家企业能够承担？真正具有竞争力的技术应当在成本上更低、效率上更高，因此，各大院校和商业公司已不再仅仅关注模型的参数规模，而是在积极探索创新方法，显著降低大语言模型的研发与使用成本，使得大多数企业也能轻松采用。斯坦福大学的这一最新研究成果正是朝着这一目标迈出了一大步——将一个 80 亿参数模型的训练成本降至 20 美元。同时，已有中国企业基于这一研

果冻人工智能

“嵌入”在大语言模型中是解决把句子转换成向量表示的技术上一篇：《人工智能是这样理解“情绪”的》序言：这段话要优化吗？““嵌入”是一种将句子、单词或其他语言单位转换为向量表示的技术。这个向量通常位于高维空间中，它以一种能够表达相似性的方式编码出文本的含义或上下文。嵌入层的作用就在于把离散的语言符号（如单词或句子）转换成连续的向量，使得模型能更好地理解和处理语言之间的关系。其实我们人类的大脑也是这样干的，只是我们自己无法感知而已，我们最终得到的就是某个“记忆”，可以供人类随时使用的“记忆”也就是特征，所以让人工智能来识别人类说话中包含的情绪也只是将整句话转换成了

果冻人工智能

全面解释人工智能LLM模型的真实工作原理（二）前一篇：《全面解释人工智能LLM模型的真实工作原理（一）》序言：在上一篇文章中，我们从原理上构建了一个识别“叶子”和“花朵”的神经网络，并详细讲解了它的工作过程。这包括对输入数字逐个与权重相乘后求和，加上偏置值，最后通过非线性处理和统计分布计算来得出输出。这些操作使用了简单的数学运算（乘法、加法和非线性处理）。本节的重点是解答神经网络的权重和偏置值是如何得到的以及最关键的概念：如何让神经网络输出chatGPT一样的句子。为了让神经网络学到合适的权重和偏置，我们需要提供大量的学习数据（如大量的“叶子”和“花

我是有底线的