预训练

叶庭云1 个月前
chatgpt·微调·大语言模型·预训练·基座模型
了解针对基座大语言模型(类似 ChatGPT 的架构,Decoder-only)的重头预训练和微调训练🍉 CSDN 叶庭云:https://yetingyun.blog.csdn.net/随着自然语言处理(NLP)技术的飞速进步,基于 Transformer 架构的大语言模型在众多任务中取得了显著成就。特别是 Decoder-only 架构,如 GPT 系列模型,因在生成任务和零样本泛化中的出色表现而备受瞩目。本文旨在深入剖析从头预训练及微调此类大型基座语言模型的核心策略与面临的挑战。
鲸可落2 个月前
语言模型·自然语言处理·大语言模型·教程·预训练·finetune·代码实战
【Finetune】(一)、transformers之BitFit微调参数微调方法是仅对模型的一小部分的参数(这一小部分可能是模型自身的,也可能是外部引入的)进行训练,便可以为模型带来显著的性能变化,在一些场景下甚至不输于全量微调。  由于训练一小部分参数,极大程度降低了训练大模型的算力需求,不需要多机多卡,单卡就可以完成对一些大模型的训练。不仅如此,少量的训练参数,对存储的要求同样降低很多,大多数的参数微调方法只需要保存训练部分的参数,与动辄几十GB的原始大模型相比,几乎可以忽略。
大数据AI人工智能培训专家培训讲师叶梓2 个月前
人工智能·语言模型·自然语言处理·性能优化·微调·多模态·预训练
01.AI推出Yi模型家族:多维度能力的展示人工智能咨询培训老师叶梓 转载标明出处01.AI公司提出了Yi模型家族,这一系列语言和多模态模型展示了强大的多维能力,旨在成为下一代计算平台,通过大规模数据和精心设计的训练过程,实现接近人类智能的模型。Yi模型家族基于6B和34B的预训练语言模型,并将其扩展到聊天模型、长文本模型、深度扩展模型和视觉-语言模型。这些模型在MMLU等广泛基准测试上取得了优异的性能,并且在AlpacaEval和Chatbot Arena等主要评估平台上的聊天模型也展现出了较高的人类偏好率。
SpikeKing2 个月前
人工智能·语言模型·预训练·mllm·多模态大语言模型·qwen-vl·laion
LLM - 理解 多模态大语言模型 (MLLM) 的预训练与相关技术 (三)欢迎关注我的CSDN:https://spike.blog.csdn.net/ 本文地址:https://spike.blog.csdn.net/article/details/142063880
Nicolas8933 个月前
大模型·llama·预训练·合成数据·后训练·模型蒸馏·小模型
【大模型理论篇】关于LLaMA 3.1 405B以及小模型的崛起前不久,Meta开源了LLaMA 3.1 405B【1】,模型扩展了上下文长度至 128K,支持八种语言,效果非常惊艳,是首个在通用知识、可操控性、数学、工具使用和多语言翻译方面能够与最先进闭源 AI 模型媲美的公开可用模型,已经赶上截至目前最好的闭源模型,如GPT 4o和Claude 3.5。这可以算是一个里程碑,我们正在迎来一个以开源为主导的新时代。另一个问题不得不思考,如果作为基座大模型创业者,面对开源的冲击,公司存在的核心竞争力应该是什么?需要好好梳理。说明:本文主要会参考Meta的技术文章【2,
W Y3 个月前
人工智能·深度学习·机器学习·ai·预训练
【AI-15】浅显易懂地说一下预训练模式咱们把预训练模式想象成提前做好的“知识储备”。 比如说,你想要学会辨别各种水果,但是从零开始学习太费劲了。 这时候,有人已经提前训练了一个模型,这个模型看了大量各种各样的水果图片,学会了一些关于水果的通用特征和规律。 这就是预训练模式。 它已经有了对很多事物的初步理解和认识,虽然不是专门针对你要辨别的水果,但已经有了一定的基础和能力。 当你需要辨别特定的水果种类时,就可以在这个预训练模式的基础上,再根据你的具体需求做一些调整和优化,让它更符合你的任务。 举个例子,就像一个厨师已经学会了很多基本的烹饪技巧和
chencjiajy7 个月前
论文阅读·自然语言处理·预训练
基于自动编码器的预训练模型方法模型预训练方法RetroMAE和RetroMAE-2RetroMAE 出自论文《RetroMAE: Pre-Training Retrieval-oriented Language Models Via Masked Auto-Encoder》,是一种针对于检索的基于自动编码器的预训练模型方法。
爱编程的喵喵8 个月前
人工智能·大模型·预训练
AI大模型的预训练、迁移和中间件编程大家好,我是爱编程的喵喵。双985硕士毕业,现担任全栈工程师一职,热衷于将数据思维应用到工作与生活中。从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。现为CSDN博客专家、人工智能领域优质创作者。喜欢通过博客创作的方式对所学的知识进行总结与归纳,不仅形成深入且独到的理解,而且能够帮助新手快速入门。
Macropodus1 年前
gpt·chatgpt·预训练·从零开始·1b3
从零开始训练一个ChatGPT大模型(低资源,1B3)大模型全量预训练(1b3), 多卡deepspeed/单卡adafactor源码地址:https://github.com/yongzhuo/MacroGPT-Pretrain.git
又见阿郎1 年前
神经网络·预训练·mnist·超参数
聊聊 神经网络模型 预训练生成超参数实现在上一篇博客中,已经阐述了预训练过程中,神经网络中超参数的计算逻辑,本文,从程序实现的角度,将数学计算转换为程序代码,最终生成超参数文件;并将替换 聊聊 神经网络模型 示例程序——数字的推理预测 中已训练好的超参数文件,推理预测数字,最终比对下两者的精确度。
凌青羽1 年前
人工智能·自动驾驶·预训练·ad-pt
自动驾驶高效预训练--降低落地成本的新思路(AD-PT)出发点:通过预训练的方式,可以利用大量无标注数据进一步提升3D检测1.基于对比学习的方法——利用关联帧信息构建正样本对
思考实践1 年前
人工智能·微调·预训练·mlm·nsp
【LLM】预训练||两句话明白儿的底层原理从字面上看,预训练模型(pre-training model)是先通过一批语料进行训练模型,然后在这个初步训练好的模型基础上,再继续训练或者另作他用。这样的理解基本上是对的,预训练模型的训练和使用分别对应两个阶段:预训练阶段(pre-training)和 微调(fune-tuning)阶段。
hitrjj1 年前
人工智能·自然语言处理·大模型·llm·nlp·预训练·对话模型
【AI视野·今日NLP 自然语言处理论文速览 第五十三期】Thu, 12 Oct 2023AI视野·今日CS.NLP 自然语言处理论文速览 Thu, 12 Oct 2023 Totally 69 papers 👉上期速览✈更多精彩请移步主页
cv-player1 年前
人工智能·自然语言处理·微调·大语言模型·提示·预训练
自然语言处理:大语言模型入门介绍随着自然语言处理(Natural Language Processing, NLP)的发展,此技术现已广泛应用于文本分类、识别和总结、机器翻译、信息提取、问答系统、情感分析、语音识别、文本生成等任务。 研究人员发现扩展模型规模可以提高模型能力,由此创造了术语——大语言模型(Large Language Model, LLM),它代指大型的预训练语言模型(Pre-training Language Model, PLM),其通常包含数千亿(甚至更多)个参数。大语言模型的一个最显著的进展是OpenAI基于LL
斯曦巍峨1 年前
深度学习·预训练·gnn
预训练GNN:GPT-GNN Generative Pre-Training of Graph Neural Networks本文提出了一种自监督属性图生成任务来预训练GNN,使得其能捕图的结构和语义属性。作者将图的生成分为两个部分:属性生成和边生成,即给定观测到的边,生成节点属性;给定观测到的边和生成的节点属性,生成剩余的边。通过这种方式使得模型能捕获每个节点属性和结构之间的依赖关系。对于每个节点,GPT-GNN可以同时计算其属性生成和边生成损失。另外,为了使得GPT-GNN可以处理大图,作者采用了子图采样技术,并提出自适应嵌入队列来缓解负采样带来的不准确损失。
zy_destiny1 年前
python·计算机视觉·多模态·图像文本·caption·预训练·blip
【多模态】BLIP——统一视觉语言理解和生成的引导语言图像预训练模型多模态指的是多种模态的信息,包括:文本、图像、视频、音频等。而多模态研究的就是这些不同类型的数据的融合的问题。目前大多数工作中,只处理图像和文本形式的数据,即把视频数据转为图像,把音频数据转为文本格式。