模型训练

Felven11 天前
linux·python·模型训练·昇腾·310p
华为昇腾310P模型转换失败问题解决加固服务器使用华为昇腾310P进行推理,在进行模型转换时,提示转换失败,如下:出现上面问题是系统下装了多个Python版本,同时缺少依赖包。
阿杰学AI15 天前
人工智能·ai·语言模型·aigc·模型训练·缩放定律·scaling laws
AI核心知识50——大语言模型之Scaling Laws(简洁且通俗易懂版)Scaling Laws (缩放定律) 是目前 AI 领域的“摩尔定律”,也是 OpenAI 等巨头公司敢于投入几百亿美元去训练下一个模型的“信仰之源”。
BFT白芙堂15 天前
人工智能·学习·机器学习·自动化·模型训练·具身智能·franka
Franka机械臂“举一反三”:LLM Trainer如何通过单次演示实现自动化数据生成与长程任务学习在机器人学习领域,获取高质量的真实世界训练数据一直是一个昂贵且耗时的瓶颈。卡内基梅隆大学的研究团队提出了一种名为“LLM Trainer”的创新框架,利用大语言模型(LLM)的世界知识,仅需单次人类演示即可自动生成大量有效的训练数据。本文将重点剖析该系统如何在Franka Research 3 (Franka Emika Panda) 机械臂平台上成功落地,完成复杂的长程操作任务,并展示其在硬件实验中超越仿真预期的惊人表现。
阿杰学AI16 天前
人工智能·ai·语言模型·aigc·数据清洗·模型训练·data cleaning
AI核心知识47——大语言模型之Data Cleaning(简洁且通俗易懂版)数据清洗 (Data Cleaning),在大语言模型(LLM)的开发流程中,属于预训练之前的准备工作。
赋范大模型技术社区20 天前
大模型·微调·sft·模型训练·rl
大模型训练的“最后一公里”:为什么强化学习(RL)不可或缺?训练一个出色的大语言模型(LLM),如同培养一个孩子从呱呱坠地到成长为社会精英,需要经历循序渐进的几个核心阶段。我们可以将其类比为一个人的成长历程:
三条猫1 个月前
人工智能·3d·ai·cad·模型训练·图结构·结构树
将3D CAD 模型结构树转换为图结构,用于训练CAD AI的思路在训练 CAD 专用 AI 模型时,我们面临的第一个根本性问题是:3D CAD 模型内部的真实结构不是一堆几何,而是一棵“结构树”。 而 AI 真正能理解的是“图结构”。
2401_836900332 个月前
pytorch·模型训练
PyTorch图像分割训练全流程解析图像分割是计算机视觉领域的重要任务,它要求模型不仅能识别图像中的物体,还能精确勾勒出物体的边界。本文将详细解析一个基于 PyTorch 的图像分割训练框架,帮助读者理解从数据准备到模型训练的完整流程,并提供可复用的代码实现思路。
大千AI助手2 个月前
人工智能·大模型·llm·transformer·模型训练·megatron-lm张量并行·大千ai助手
Megatron-LM张量并行详解:原理、实现与应用本文由「大千AI助手」原创发布,专注用真话讲AI,回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我,一起撕掉过度包装,学习真实的AI技术!
算家云2 个月前
人工智能·云计算·模型训练·算家云·租算力,到算家云·算家计算
推理成本吞噬AI未来,云计算如何平衡速度与成本的难题?当前AI规模化应用正面临着核心困境:在追求极致响应速度的同时,如何控制呈指数级增长的计算成本?过去一年,生成式AI模型吸引了无数关注,但与之对应的训练和推理计算系统却面临着成本与效率的双重挑战。
虎冯河2 个月前
aigc·comfyui·模型训练·1024程序员节
图像,视频Lora模型训练的Timestep Type时间步类型「Timestep Type」选项(Sigmoid、Linear、Shift、Weighted)在 LoRA 训练器 或 扩散模型微调 (Diffusion Fine-tuning) 里,主要决定了噪声时间步(timestep)在训练过程中如何被采样,也就是模型在不同去噪阶段学习的权重分布。 不同的分布策略会影响训练重点、模型风格以及收敛速度。
TGITCIC2 个月前
人工智能·深度学习·神经网络·ai大模型·模型训练·训练模型·手搓模型
有趣的机器学习-利用神经网络来模拟“古龙”写作风格的输出器在探索大模型落地应用的旅程中,我们常常聚焦于其解决严肃商业问题的解决方案、策略,如:优化客服、生成报告、辅助决策……这些固然重要,但技术的魅力远不止于此。有时,跳出“实用主义”的框架,用一点“玩心”去触碰技术的边界,反而能更深刻地理解其内核。
停走的风3 个月前
python·深度学习·pycharm·模型训练·deim
(CVPR2025)DEIM模型训练自己的数据集教程(基于Pycharm)项目地址:GitHub - Intellindust-AI-Lab/DEIM:[CVPR 2025] DEIM:DETR 改进了匹配,可实现快速收敛
极度畅想3 个月前
神经网络·数据可视化·模型训练·eeg·生理信号处理
脑电模型实战系列:入门脑电情绪识别-用最简单的DNN模型起步大家好!欢迎来到《脑电情绪识别模型实战系列:从新手到高手》的第一篇实战博客。上篇导论中,我们介绍了系列整体规划和模型排序。今天,我们从最简单的模型入手——model_1.py,这是一个基本的深度神经网络(DNN)结构,仅用全连接层(Dense)。如果你是AI新人,这篇将是完美的起点:代码短小精悍,概念易懂,能快速看到结果。
大千AI助手3 个月前
人工智能·深度学习·神经网络·模型训练·dropout·正则化·过拟合
Dropout:深度学习中的随机丢弃正则化技术本文由「大千AI助手」原创发布,专注用真话讲AI,回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我,一起撕掉过度包装,学习真实的AI技术!
大千AI助手3 个月前
人工智能·深度学习·大模型·模型训练·学习率·warmup·线性预热机制
线性预热机制(Linear Warmup):深度学习训练稳定性的关键策略本文由「大千AI助手」原创发布,专注用真话讲AI,回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我,一起撕掉过度包装,学习真实的AI技术!
林泽毅4 个月前
人工智能·深度学习·macos·机器学习·大模型·模型训练
Mac训练大模型:MLX-LM框架LoRA训练Qwen3并集成SwanLab进行可视化MLX LM 是由 Apple 机器学习研究团队开发的开源 Python 软件包,专门用于在 Apple Silicon(M1、M2、M3 等芯片)上高效运行和微调大型语言模型(LLM)。它基于 MLX 框架,充分利用 Apple 的统一内存架构和 Metal 性能着色器(Metal Performance Shaders)来优化性能,特别适合在 Mac 设备上本地运行和开发 AI 模型。
旧时光巷5 个月前
人工智能·pytorch·深度学习·dnn·模型训练·手写数字识别·深度神经网络
【深度学习②】| DNN篇本文将系统介绍基于PyTorch的深度神经网络(DNN)相关知识,包括张量的基础操作、DNN的工作原理、实现流程,以及批量梯度下降、小批量梯度下降方法和手写数字识别案例。通过学习,你将掌握DNN的核心概念、PyTorch实操技能,理解从数据处理到模型训练、测试的完整流程,具备搭建和应用简单DNN模型的能力。
文浩(楠搏万)5 个月前
深度学习·ai·cnn·tensorflow·卷积神经网络·模型训练·全流程指导
TensorFlow+CNN垃圾分类深度学习全流程实战教程垃圾分类是实现可持续发展的重要环节,本教程通过TensorFlow+经典的卷积神经网络(CNN)示例,带你从环境配置到单图推理全流程落地:无需繁琐背景,只讲关键步骤,快速构建高效、可解释的自动化分类系统。如果读文章的同学想一键拥有和我一样的环境的话可以先部署Conda,有疑问的话可以读之前文章👉零基础上手Conda:安装、创建环境、管理依赖的完整指南
西京刀客7 个月前
python·json·数据集·pandas·模型训练·datasets
python常用库-pandas、Hugging Face的datasets库(大模型之JSONL(JSON Lines))在当今的数据交换领域,各种格式层出不穷,其中 Comma Separated Values(CSV)格式作为一种常见的数据交换格式,被广泛用于表示具有相同字段列表的记录集。而 JavaScript Object Notation(JSON)则已成为事实上的数据交换格式标准,取代了曾在 21 世纪初备受瞩目的 XML。JSON 不仅具有自我描述性,而且易于人类阅读。
橙子小哥的代码世界7 个月前
人工智能·lora·transformer·prompt tuning·模型训练·pturning
PET,Prompt Tuning,P Tuning,Lora,Qlora 大模型微调的简介到2025年,虽然PET(Pattern-Exploiting Training)和Prompt Tuning在学术界仍有探讨,但在工业和生产环境中它们已基本被LoRA/QLoRA等参数高效微调(PEFT)方法取代 。LoRA因其实现简单、推理零开销,并能在大规模模型上以极少量参数达到与全量微调相当的效果,已成为最受欢迎的PEFT技术 。QLoRA在此基础上再结合4-bit量化,使得即便是65B级模型也能在单块48 GB GPU上完成微调,内存占用降低近3倍,性能几乎无损 。