技术栈
模型训练
海棠AI实验室
13 天前
python
·
模型训练
·
私有模型训练
第五章 指令数据怎么写:从“有用”到“可学”的指令模板库
你做私训模型,最容易踩的第一个坑就是: 把“看起来很有用的聊天记录/对话截屏”直接喂给模型。结果模型学到的不是能力,而是三件套:
xixixi77777
14 天前
人工智能
·
学习
·
安全
·
ai
·
零样本
·
模型训练
·
训练
零样本学习 (Zero-Shot Learning, ZSL)补充
零样本学习(Zero-Shot Learning, ZSL)是一种机器学习范式,它允许模型在没有任何特定任务的标注数据的情况下,通过利用已有的知识来推断和完成新任务。这种能力对于处理罕见类别或快速适应新环境非常重要,因为在这些情况下获取大量标注数据可能是不切实际的。这种学习方式对于处理现实世界中标签数据稀缺的问题尤为重要。
海棠AI实验室
17 天前
模型训练
·
私有模型训练
第一章 一张图看懂私有模型训练闭环:数据→训练→评测→上线→监控→迭代
很多人卡在这几个坑:一句话:你缺的是“工程闭环”,不是“更多调参秘籍”。建议:把它放在专栏置顶、仓库 README 第一屏、视频开篇第一张。
IT小哥哥呀
18 天前
大数据
·
人工智能
·
机器学习
·
数据处理
·
模型训练
如何优化机器学习模型的训练速度?——从基础知识到具体实现
在机器学习的实际应用中,训练速度是一个关键的性能指标。提高训练速度不仅能大幅节省开发时间,还能提高实验的迭代效率。本文将从基础知识入手,逐步介绍优化训练速度的思路、框架,并最终深入到具体的工具准备、环境部署和代码实现。
缘友一世
1 个月前
llm
·
模型微调
·
模型训练
·
大模型分布式训练
DeepSpeed框架详解:ZeRO 显存优化、3D 并行及混合精度训练
DeepSpeed 的强大功能使其在大模型领域得到了广泛应用:在传统的分布式数据并行中,每个GPU都会维护一份完整的模型参数、梯度和优化器状态,这造成了巨大的显存冗余。
南麟剑首
1 个月前
ai
·
llm
·
数据集
·
数据清洗
·
大模型开发
·
模型训练
LLM模型开发教程(六)模型训练的数据集获取与清洗
总纲数据的“科学划分”:训练、验证与测试请理解这句话!!!! 预训练之所以叫做“自监督学习”,是因为数据本身就是标签,通过掩码机制既确保了预测方向,也是一种遮住答案的策略,即数据本身答案已知,但用掩码遮住了,通过预测的token与掩码下的token做对比观察损失,以此为依据来优化模型参数
地理探险家
1 个月前
人工智能
·
python
·
深度学习
·
yolo
·
模型训练
·
电商视觉
【YOLOv8实战】15组衣物类深度学习数据集分享|附加载+标签管理代码
衣物类目标检测是电商视觉分拣、智能穿搭推荐、仓储自动化等领域的核心技术支撑,而高质量标注数据集是保障YOLOv8模型精度与泛化能力的关键。目前公开数据集普遍存在品类细分不足、标注精度参差不齐、场景同质化等问题,难以适配实际项目需求。
大猪宝宝学AI
2 个月前
人工智能
·
性能优化
·
大模型
·
模型训练
【AI Infra】BF-PP:广度优先流水线并行
论文地址:https://arxiv.org/pdf/2211.05953这篇论文提出了一种名为**Breadth-First Pipeline Parallelism(广度优先流水线并行,BF-PP)**的新型分布式训练调度方法。它主要解决了在大规模GPU集群上训练大语言模型时,训练时间、成本和内存使用效率之间难以平衡的核心矛盾。
未来之窗软件服务
2 个月前
开发语言
·
python
·
模型训练
·
仙盟创梦ide
·
东方仙盟
幽冥大陆(八十五)Python 水果识别ONNX转手机mobile —东方仙盟练气期
ONNX 模型转换为手机端可用的bin(权重文件)和param(参数 / 结构文件),核心是使用 MNN 或 NCNN 框架(手机端主流轻量化推理框架),其中 NCNN 是腾讯专为移动端优化的框架,适配安卓 /iOS,操作更简洁,以下是完整步骤(以 NCNN 为例):
Felven
2 个月前
linux
·
python
·
模型训练
·
昇腾
·
310p
华为昇腾310P模型转换失败问题解决
加固服务器使用华为昇腾310P进行推理,在进行模型转换时,提示转换失败,如下:出现上面问题是系统下装了多个Python版本,同时缺少依赖包。
阿杰学AI
2 个月前
人工智能
·
ai
·
语言模型
·
aigc
·
模型训练
·
缩放定律
·
scaling laws
AI核心知识50——大语言模型之Scaling Laws(简洁且通俗易懂版)
Scaling Laws (缩放定律) 是目前 AI 领域的“摩尔定律”,也是 OpenAI 等巨头公司敢于投入几百亿美元去训练下一个模型的“信仰之源”。
BFT白芙堂
3 个月前
人工智能
·
学习
·
机器学习
·
自动化
·
模型训练
·
具身智能
·
franka
Franka机械臂“举一反三”:LLM Trainer如何通过单次演示实现自动化数据生成与长程任务学习
在机器人学习领域,获取高质量的真实世界训练数据一直是一个昂贵且耗时的瓶颈。卡内基梅隆大学的研究团队提出了一种名为“LLM Trainer”的创新框架,利用大语言模型(LLM)的世界知识,仅需单次人类演示即可自动生成大量有效的训练数据。本文将重点剖析该系统如何在Franka Research 3 (Franka Emika Panda) 机械臂平台上成功落地,完成复杂的长程操作任务,并展示其在硬件实验中超越仿真预期的惊人表现。
阿杰学AI
3 个月前
人工智能
·
ai
·
语言模型
·
aigc
·
数据清洗
·
模型训练
·
data cleaning
AI核心知识47——大语言模型之Data Cleaning(简洁且通俗易懂版)
数据清洗 (Data Cleaning),在大语言模型(LLM)的开发流程中,属于预训练之前的准备工作。
赋范大模型技术社区
3 个月前
大模型
·
微调
·
sft
·
模型训练
·
rl
大模型训练的“最后一公里”:为什么强化学习(RL)不可或缺?
训练一个出色的大语言模型(LLM),如同培养一个孩子从呱呱坠地到成长为社会精英,需要经历循序渐进的几个核心阶段。我们可以将其类比为一个人的成长历程:
三条猫
3 个月前
人工智能
·
3d
·
ai
·
cad
·
模型训练
·
图结构
·
结构树
将3D CAD 模型结构树转换为图结构,用于训练CAD AI的思路
在训练 CAD 专用 AI 模型时,我们面临的第一个根本性问题是:3D CAD 模型内部的真实结构不是一堆几何,而是一棵“结构树”。 而 AI 真正能理解的是“图结构”。
2401_83690033
4 个月前
pytorch
·
模型训练
PyTorch图像分割训练全流程解析
图像分割是计算机视觉领域的重要任务,它要求模型不仅能识别图像中的物体,还能精确勾勒出物体的边界。本文将详细解析一个基于 PyTorch 的图像分割训练框架,帮助读者理解从数据准备到模型训练的完整流程,并提供可复用的代码实现思路。
大千AI助手
4 个月前
人工智能
·
大模型
·
llm
·
transformer
·
模型训练
·
megatron-lm张量并行
·
大千ai助手
Megatron-LM张量并行详解:原理、实现与应用
本文由「大千AI助手」原创发布,专注用真话讲AI,回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我,一起撕掉过度包装,学习真实的AI技术!
算家云
4 个月前
人工智能
·
云计算
·
模型训练
·
算家云
·
租算力,到算家云
·
算家计算
推理成本吞噬AI未来,云计算如何平衡速度与成本的难题?
当前AI规模化应用正面临着核心困境:在追求极致响应速度的同时,如何控制呈指数级增长的计算成本?过去一年,生成式AI模型吸引了无数关注,但与之对应的训练和推理计算系统却面临着成本与效率的双重挑战。
虎冯河
4 个月前
aigc
·
comfyui
·
模型训练
·
1024程序员节
图像,视频Lora模型训练的Timestep Type时间步类型
「Timestep Type」选项(Sigmoid、Linear、Shift、Weighted)在 LoRA 训练器 或 扩散模型微调 (Diffusion Fine-tuning) 里,主要决定了噪声时间步(timestep)在训练过程中如何被采样,也就是模型在不同去噪阶段学习的权重分布。 不同的分布策略会影响训练重点、模型风格以及收敛速度。
TGITCIC
4 个月前
人工智能
·
深度学习
·
神经网络
·
ai大模型
·
模型训练
·
训练模型
·
手搓模型
有趣的机器学习-利用神经网络来模拟“古龙”写作风格的输出器
在探索大模型落地应用的旅程中,我们常常聚焦于其解决严肃商业问题的解决方案、策略,如:优化客服、生成报告、辅助决策……这些固然重要,但技术的魅力远不止于此。有时,跳出“实用主义”的框架,用一点“玩心”去触碰技术的边界,反而能更深刻地理解其内核。