模型训练

【深度学习②】| DNN篇本文将系统介绍基于PyTorch的深度神经网络（DNN）相关知识，包括张量的基础操作、DNN的工作原理、实现流程，以及批量梯度下降、小批量梯度下降方法和手写数字识别案例。通过学习，你将掌握DNN的核心概念、PyTorch实操技能，理解从数据处理到模型训练、测试的完整流程，具备搭建和应用简单DNN模型的能力。

文浩（楠搏万）

TensorFlow+CNN垃圾分类深度学习全流程实战教程垃圾分类是实现可持续发展的重要环节，本教程通过TensorFlow+经典的卷积神经网络（CNN）示例，带你从环境配置到单图推理全流程落地：无需繁琐背景，只讲关键步骤，快速构建高效、可解释的自动化分类系统。如果读文章的同学想一键拥有和我一样的环境的话可以先部署Conda，有疑问的话可以读之前文章👉零基础上手Conda：安装、创建环境、管理依赖的完整指南

python常用库-pandas、Hugging Face的datasets库（大模型之JSONL（JSON Lines））在当今的数据交换领域，各种格式层出不穷，其中 Comma Separated Values（CSV）格式作为一种常见的数据交换格式，被广泛用于表示具有相同字段列表的记录集。而 JavaScript Object Notation（JSON）则已成为事实上的数据交换格式标准，取代了曾在 21 世纪初备受瞩目的 XML。JSON 不仅具有自我描述性，而且易于人类阅读。

橙子小哥的代码世界

PET,Prompt Tuning,P Tuning,Lora,Qlora 大模型微调的简介到2025年，虽然PET（Pattern-Exploiting Training）和Prompt Tuning在学术界仍有探讨，但在工业和生产环境中它们已基本被LoRA/QLoRA等参数高效微调（PEFT）方法取代。LoRA因其实现简单、推理零开销，并能在大规模模型上以极少量参数达到与全量微调相当的效果，已成为最受欢迎的PEFT技术。QLoRA在此基础上再结合4-bit量化，使得即便是65B级模型也能在单块48 GB GPU上完成微调，内存占用降低近3倍，性能几乎无损。

PaddleNLP框架训练模型：使用SwanLab教程PaddleNLP 是一款基于飞桨深度学习框架的大语言模型(LLM)开发套件，支持在多种硬件上进行高效的大模型训练、无损压缩以及高性能推理。PaddleNLP 具备简单易用和性能极致的特点，致力于助力开发者实现高效的大模型产业级应用。

云卷云舒___________

✅ Ultralytics YOLO 训练(Train)时实时获取 COCO 指标(AP)：2025最新配置与代码详解 (小白友好 + B站视频)✅ YOLO获取COCO指标(4): 训练(Train)启用COCO API评估（实时监控AP指标）| 发论文必看！ | Ultralytics | 小白友好

深度学习篇---模型训练早停机制早停机制（Early Stopping）是深度学习中防止模型过拟合的核心正则化技术之一，其核心思想是通过监控验证集性能，在模型开始过拟合前终止训练。

深度学习篇---分类任务图像预处理&模型训练本文简单介绍了pytoch、paddlepaddle框架下的分类任务的图像预处理、模型训练以及模型保存的流程。

爱吃泡芙的小白白

模型评估——acc、P、R、F值、交叉验证、K折交叉验证模型评估：对预测函数地预测精度的评估。多重回归：涉及三个及其以上的变量的回归问题。评估模型的方法：交叉验证：将数据集分成测试集和训练集，可以采用3：7或者2：8的比例方式进行划分，使用测试集进行对模型的评估，对测试数据计算测试数据的误差的平方，再取其平均值，也就是以前提及的均方差MSE（Mean Square Error，误差越小，精度越高）：

爱吃泡芙的小白白

模型微调——模型性能提升方法及注意事项（自用）名词补充人为为训练数据标注的标签称为黄金标准或真实值，这个过程一定程度上保证训练的准确性，但是其人工标注的成本和时间很高，并且标注的标签受人的主观因素影响。

大模型训练微调技术介绍大模型训练微调技术是人工智能领域中的一项重要技术，旨在通过少量特定领域的数据对预训练模型进行进一步训练，使其更好地适应具体任务或应用场景。以下是关于大模型训练微调技术的详细介绍：

deepseek-v3 论文阅读主要作用是在保证效果的基础上, 利用低秩压缩的原理优化kvCache, 加速推理, 同时节省训练显存.

大模型训练工具，小白也能轻松搞定！Axolotl 是一款旨在简化各种人工智能模型微调的工具，支持多种配置和架构。主要特点：示例：使用零代码命令行与 Web UI 轻松训练百余种大模型，并提供高效的训练和评估工具。

[megatron代码阅读] 1. 初始化和组网以pretrain_gpt.py为例, 看megatron的整体逻辑. 本章主要包括megatron初始化相关逻辑, 核心函数为initialize_megatron, setup_model_and_optimizer两个

机器学习无处不在，AI顺势而为，创新未来机器学习无处不在：1、推荐广告和搜索：推广搜不分家，属于数据科学中，对人的行为进行理解2、计算机视觉CV：对人看到的东西进行理解

华为云开发者联盟

基于云主机的ModelArts模型训练实践，让开发环境化繁为简本文分享自华为云社区《【开发者空间实践】云主机安装Docker并制作自定义镜像在ModelArts平台做模型训练》，作者：开发者空间小蜜蜂。

【深度学习】深入解析卷积神经网络（CNNs）卷积神经网络（Convolutional Neural Networks, CNNs）是深度学习领域中一种极为重要的算法，尤其在计算机视觉任务中表现出色。CNNs 模拟人类视觉系统，通过多层的卷积操作提取特征，最终实现对图像的分类、识别等任务。本文将深入探讨 CNNs 的基本结构、工作原理、关键技术以及在实际应用中的表现。

机器学习是魔鬼

LLaMA-Factory 上手即用教程LLaMA-Factory 是一个高效的大型语言模型微调工具，支持多种模型和训练方法，包括预训练、监督微调、强化学习等，同时提供量化技术和实验监控，旨在提高训练速度和模型性能。

SmallBambooCode

【人工智能】阿里云PAI平台DSW实例一键安装Python脚本阿里云的DSW实例自带的镜像很少而且并不好用，所以我在这里写三个一键编译安装Python3.8，Python3.9，Python3.10的Shell脚本。

利用 TensorFlow 与 Docker 构建深度学习模型训练与部署流水线在深度学习领域，构建、训练和部署模型是一个复杂且耗时的过程。本文将介绍如何利用 TensorFlow 构建深度学习模型，并通过 Docker 容器化技术实现模型的训练与部署，从而简化整个流水线，提高开发效率。我们将通过实战代码，展示从模型构建到部署的全过程。