预训练

AAAI 2025论文分享│STD-PLM：基于预训练语言模型的时空数据预测与补全方法本文详细介绍了一篇发表于人工智能顶级会议AAAI 2025的论文《STD-PLM: Understanding Both Spatial and Temporal Properties of Spatial-Temporal Data with PLM》。该论文提出了一种基于预训练语言模型（Pre-trained Language Model‌，PLM）的时空预测与补全统一框架STD-PLM。通过显式设计的时空标记器和时空嵌入，STD-PLM 能够有效理解时空数据的空间和时间特性。此外，还引入沙漏注意力模

青橘MATLAB学习

深度学习中的预训练与微调：从基础概念到实战应用全解析本文系统解析深度学习中预训练与微调技术，涵盖核心概念、技术优势、模型复用策略、与迁移学习的结合方式，以及微调过程中网络参数更新机制、模型状态分类等内容。同时深入分析深层神经网络训练难点如梯度消失/爆炸问题，为模型优化提供理论支撑。适合深度学习开发者及研究者快速掌握迁移学习核心技术。关键词：预训练；微调；迁移学习；梯度消失；模型复用

【深度学习】预训练和微调概述预训练和微调是现代深度学习模型训练中的两个关键步骤，它们通常是一个预训练-微调 (Pretrain-Finetune) 流程的不同阶段。两者相辅相成，共同帮助模型从通用的知识到特定任务的适应。

LLM - 大模型 ScallingLaws 的设计 100B 预训练方案(PLM) 教程(5)欢迎关注我的CSDN：https://spike.blog.csdn.net/ 本文地址：https://spike.blog.csdn.net/article/details/145356022

AAAI2024论文解读|HGPROMPT Bridging Homogeneous and Heterogeneous GraphsHGPROMPT: Bridging Homogeneous and Heterogeneous Graphs for Few-shot Prompt Learning 跨同构异构图的小样本提示学习

爱喝白开水a

基于Transformer的图像处理预训练模型本文介绍一篇发表在CVPR 2021上的文章，该文章提出了一种基于Transformer的图像处理预训练模型，可以在较小的数据集上进行微调后，直接应用到具体的图像处理任务（如去噪，超分，去雨等）。

了解针对基座大语言模型（类似 ChatGPT 的架构，Decoder-only）的重头预训练和微调训练🍉 CSDN 叶庭云：https://yetingyun.blog.csdn.net/随着自然语言处理（NLP）技术的飞速进步，基于 Transformer 架构的大语言模型在众多任务中取得了显著成就。特别是 Decoder-only 架构，如 GPT 系列模型，因在生成任务和零样本泛化中的出色表现而备受瞩目。本文旨在深入剖析从头预训练及微调此类大型基座语言模型的核心策略与面临的挑战。

【Finetune】（一）、transformers之BitFit微调参数微调方法是仅对模型的一小部分的参数（这一小部分可能是模型自身的，也可能是外部引入的）进行训练，便可以为模型带来显著的性能变化，在一些场景下甚至不输于全量微调。由于训练一小部分参数，极大程度降低了训练大模型的算力需求，不需要多机多卡，单卡就可以完成对一些大模型的训练。不仅如此，少量的训练参数，对存储的要求同样降低很多，大多数的参数微调方法只需要保存训练部分的参数，与动辄几十GB的原始大模型相比，几乎可以忽略。

大数据AI人工智能培训专家培训讲师叶梓

01.AI推出Yi模型家族：多维度能力的展示人工智能咨询培训老师叶梓转载标明出处01.AI公司提出了Yi模型家族，这一系列语言和多模态模型展示了强大的多维能力，旨在成为下一代计算平台，通过大规模数据和精心设计的训练过程，实现接近人类智能的模型。Yi模型家族基于6B和34B的预训练语言模型，并将其扩展到聊天模型、长文本模型、深度扩展模型和视觉-语言模型。这些模型在MMLU等广泛基准测试上取得了优异的性能，并且在AlpacaEval和Chatbot Arena等主要评估平台上的聊天模型也展现出了较高的人类偏好率。

LLM - 理解多模态大语言模型 (MLLM) 的预训练与相关技术 (三)欢迎关注我的CSDN：https://spike.blog.csdn.net/ 本文地址：https://spike.blog.csdn.net/article/details/142063880

【大模型理论篇】关于LLaMA 3.1 405B以及小模型的崛起前不久，Meta开源了LLaMA 3.1 405B【1】，模型扩展了上下文长度至 128K，支持八种语言，效果非常惊艳，是首个在通用知识、可操控性、数学、工具使用和多语言翻译方面能够与最先进闭源 AI 模型媲美的公开可用模型，已经赶上截至目前最好的闭源模型，如GPT 4o和Claude 3.5。这可以算是一个里程碑，我们正在迎来一个以开源为主导的新时代。另一个问题不得不思考，如果作为基座大模型创业者，面对开源的冲击，公司存在的核心竞争力应该是什么？需要好好梳理。说明：本文主要会参考Meta的技术文章【2，

【AI-15】浅显易懂地说一下预训练模式咱们把预训练模式想象成提前做好的“知识储备”。比如说，你想要学会辨别各种水果，但是从零开始学习太费劲了。这时候，有人已经提前训练了一个模型，这个模型看了大量各种各样的水果图片，学会了一些关于水果的通用特征和规律。这就是预训练模式。它已经有了对很多事物的初步理解和认识，虽然不是专门针对你要辨别的水果，但已经有了一定的基础和能力。当你需要辨别特定的水果种类时，就可以在这个预训练模式的基础上，再根据你的具体需求做一些调整和优化，让它更符合你的任务。举个例子，就像一个厨师已经学会了很多基本的烹饪技巧和

基于自动编码器的预训练模型方法模型预训练方法RetroMAE和RetroMAE-2RetroMAE 出自论文《RetroMAE: Pre-Training Retrieval-oriented Language Models Via Masked Auto-Encoder》，是一种针对于检索的基于自动编码器的预训练模型方法。

爱编程的喵喵

AI大模型的预训练、迁移和中间件编程大家好，我是爱编程的喵喵。双985硕士毕业，现担任全栈工程师一职，热衷于将数据思维应用到工作与生活中。从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。现为CSDN博客专家、人工智能领域优质创作者。喜欢通过博客创作的方式对所学的知识进行总结与归纳，不仅形成深入且独到的理解，而且能够帮助新手快速入门。

从零开始训练一个ChatGPT大模型（低资源，1B3）大模型全量预训练(1b3), 多卡deepspeed/单卡adafactor源码地址：https://github.com/yongzhuo/MacroGPT-Pretrain.git

聊聊神经网络模型预训练生成超参数实现在上一篇博客中，已经阐述了预训练过程中，神经网络中超参数的计算逻辑，本文，从程序实现的角度，将数学计算转换为程序代码，最终生成超参数文件；并将替换聊聊神经网络模型示例程序——数字的推理预测中已训练好的超参数文件，推理预测数字，最终比对下两者的精确度。

自动驾驶高效预训练--降低落地成本的新思路（AD-PT）出发点：通过预训练的方式，可以利用大量无标注数据进一步提升3D检测1.基于对比学习的方法——利用关联帧信息构建正样本对

【LLM】预训练||两句话明白儿的底层原理从字面上看，预训练模型（pre-training model）是先通过一批语料进行训练模型，然后在这个初步训练好的模型基础上，再继续训练或者另作他用。这样的理解基本上是对的，预训练模型的训练和使用分别对应两个阶段：预训练阶段（pre-training）和微调（fune-tuning）阶段。

【AI视野·今日NLP 自然语言处理论文速览第五十三期】Thu, 12 Oct 2023AI视野·今日CS.NLP 自然语言处理论文速览 Thu, 12 Oct 2023 Totally 69 papers 👉上期速览✈更多精彩请移步主页

自然语言处理：大语言模型入门介绍随着自然语言处理（Natural Language Processing, NLP）的发展，此技术现已广泛应用于文本分类、识别和总结、机器翻译、信息提取、问答系统、情感分析、语音识别、文本生成等任务。研究人员发现扩展模型规模可以提高模型能力，由此创造了术语——大语言模型（Large Language Model, LLM），它代指大型的预训练语言模型（Pre-training Language Model, PLM），其通常包含数千亿（甚至更多）个参数。大语言模型的一个最显著的进展是OpenAI基于LL