技术栈
模型训练
TGITCIC
3 天前
微调
·
sft
·
llama
·
模型训练
·
训练
·
大模型训练
·
llama-factory
大模型训练师的炼丹之道 (1)-最新版llama-factory环境搭建和全排错
在人工智能的演进图谱中,大模型训练始终占据着技术金字塔的顶端。它不仅是AI Agent开发的上层建筑,更是当Agent应用发展到一定深度后,不可避免必须跨越的技术鸿沟。唯有掌握底层模型的塑造能力,才能真正突破通用能力的天花板。
XD742971636
12 天前
运维
·
深度学习
·
自动化
·
开源项目
·
模型训练
·
科技新闻
·
ai工程化
科技早报晚报|2026年5月8日:Agent 后端、文档索引与 token 控制层,今天更值得跟进的 3 个开源机会
一句话导读:今天这波 GitHub 热点里,真正值得看的已经不是“再来一个终端 Agent”。更有机会做成产品的,是给 Agent 提供后端、知识索引、成本控制和远程协作能力的基础层。对独立开发者和小团队来说,这类项目离付费场景更近,也更适合做垂直化改造。
Flying pigs~~
20 天前
模型训练
·
deepspeed
·
vllm
·
模型推理
·
zero
·
pageattention
大模型训练框架 ➕ 推理部署框架
训练用 DeepSpeed,推理选 vLLM 或 Ollama,入门看 Transformers,生产上 TGI。大模型从训到跑,一套框架全搞定。 🚀
ACCELERATOR_LLC
22 天前
人工智能
·
深度学习
·
大模型
·
强化学习
·
模型训练
【DataWhale组队学习】DIY-LLM Task5 大模型的基本训练流程
原文链接这一章讲的是大模型如何从底座模型变得可用。 原文说,本章重点是 SFT(监督微调),预训练和强化学习主要是总览,强化学习细节会放到下一章,不过Datawhale的组队学习没有下一章。
华清远见IT开放实验室
25 天前
人工智能
·
深度学习
·
算法
·
机器学习
·
ai
·
模型训练
AI 算法核心知识清单(深度实战版2)
1. 监督学习算法(已知标签的模型训练)线性模型树模型核方法:支持向量机(SVM)集成学习策略2. 无监督学习算法(未知标签的模型训练)
河西石头
1 个月前
yolo
·
模型训练
·
模型文件
·
pt文件下载失败
·
reading zip
YOLO训练中 `PytorchStreamReader` 错误的真相
最近在为一个YOLO可视化标注训练工具添加训练功能时,遇到了一个极其顽固的错误:PytorchStreamReader failed reading zip archive: failed finding central directory。前后折腾了数小时,尝试了无数种方法——重装PyTorch、降级版本、修改路径、换用绝对路径、在多线程/子进程/子线程间反复横跳——都无济于事。直到最后才发现,问题根本不在于我的模型文件,而在于Ultralytics内部一个“好心办坏事”的自动检测机制。
Jason Hsiao
2 个月前
自动驾驶
·
3d目标检测
·
模型训练
·
paddle3d
PETRV2-BEV模型训练实战:Paddle3D框架下VOVNet主干网络调优
如果你正在研究自动驾驶的3D感知,特别是基于BEV(鸟瞰图)的视觉感知方案,那么PETR系列模型一定在你的关注列表里。PETRV2作为该系列的重要升级,通过引入3D位置编码,在保持高效性的同时,显著提升了3D目标检测的精度。
BFT白芙堂
2 个月前
人工智能
·
深度学习
·
算法
·
安全
·
人机交互
·
模型训练
·
具身智能
基于 Kinova Gen3 机械臂的家庭人机交互安全算法研究
随着服务机器人逐步进入家庭场景,人机交互(HRI)的安全性成为影响机器人普及的关键因素。相较于工业环境,家庭空间布局多变、人员活动随机,对机械臂的感知、规划与控制提出了更高要求。
陈嘿萌
2 个月前
环境配置
·
模型训练
·
segfomer
·
预训练权重下载
4090显卡配置官方SegFormer运行环境(包含预训练权重下载、环境配置、代码修改、运行 | 验证 | 测试)
代码:https://github.com/NVlabs/SegFormer论文:https://arxiv.org/abs/2105.15203
每日IO
2 个月前
人工智能
·
python
·
mind+
·
开源硬件
·
模型训练
·
二哈识图
·
行空板
AI“重构”生活 —— Mind+ V2 模型训练挑战赛
AI“重构”生活 —— Mind+ V2 模型训练挑战赛- Makelog(造物记)为了挖掘更多具有不同背景、学习价值和创意火花的 AI 应用场景,“ AI“重构”生活——Mind+ V2 模型训练挑战赛”正式启动!无论你是想让计算机学会覆盖图像、音频、姿态和文本等领域的“看、听、辨、析”,还是希望实现硬件深度智能交互与实际应用的完整闭环,这里都是你释放创造力、展现思考力、体现技术力的舞台!
海棠AI实验室
3 个月前
python
·
模型训练
·
私有模型训练
第五章 指令数据怎么写:从“有用”到“可学”的指令模板库
你做私训模型,最容易踩的第一个坑就是: 把“看起来很有用的聊天记录/对话截屏”直接喂给模型。结果模型学到的不是能力,而是三件套:
xixixi77777
3 个月前
人工智能
·
学习
·
安全
·
ai
·
零样本
·
模型训练
·
训练
零样本学习 (Zero-Shot Learning, ZSL)补充
零样本学习(Zero-Shot Learning, ZSL)是一种机器学习范式,它允许模型在没有任何特定任务的标注数据的情况下,通过利用已有的知识来推断和完成新任务。这种能力对于处理罕见类别或快速适应新环境非常重要,因为在这些情况下获取大量标注数据可能是不切实际的。这种学习方式对于处理现实世界中标签数据稀缺的问题尤为重要。
海棠AI实验室
3 个月前
模型训练
·
私有模型训练
第一章 一张图看懂私有模型训练闭环:数据→训练→评测→上线→监控→迭代
很多人卡在这几个坑:一句话:你缺的是“工程闭环”,不是“更多调参秘籍”。建议:把它放在专栏置顶、仓库 README 第一屏、视频开篇第一张。
IT小哥哥呀
3 个月前
大数据
·
人工智能
·
机器学习
·
数据处理
·
模型训练
如何优化机器学习模型的训练速度?——从基础知识到具体实现
在机器学习的实际应用中,训练速度是一个关键的性能指标。提高训练速度不仅能大幅节省开发时间,还能提高实验的迭代效率。本文将从基础知识入手,逐步介绍优化训练速度的思路、框架,并最终深入到具体的工具准备、环境部署和代码实现。
缘友一世
4 个月前
llm
·
模型微调
·
模型训练
·
大模型分布式训练
DeepSpeed框架详解:ZeRO 显存优化、3D 并行及混合精度训练
DeepSpeed 的强大功能使其在大模型领域得到了广泛应用:在传统的分布式数据并行中,每个GPU都会维护一份完整的模型参数、梯度和优化器状态,这造成了巨大的显存冗余。
南麟剑首
4 个月前
ai
·
llm
·
数据集
·
数据清洗
·
大模型开发
·
模型训练
LLM模型开发教程(六)模型训练的数据集获取与清洗
总纲数据的“科学划分”:训练、验证与测试请理解这句话!!!! 预训练之所以叫做“自监督学习”,是因为数据本身就是标签,通过掩码机制既确保了预测方向,也是一种遮住答案的策略,即数据本身答案已知,但用掩码遮住了,通过预测的token与掩码下的token做对比观察损失,以此为依据来优化模型参数
地理探险家
4 个月前
人工智能
·
python
·
深度学习
·
yolo
·
模型训练
·
电商视觉
【YOLOv8实战】15组衣物类深度学习数据集分享|附加载+标签管理代码
衣物类目标检测是电商视觉分拣、智能穿搭推荐、仓储自动化等领域的核心技术支撑,而高质量标注数据集是保障YOLOv8模型精度与泛化能力的关键。目前公开数据集普遍存在品类细分不足、标注精度参差不齐、场景同质化等问题,难以适配实际项目需求。
大猪宝宝学AI
5 个月前
人工智能
·
性能优化
·
大模型
·
模型训练
【AI Infra】BF-PP:广度优先流水线并行
论文地址:https://arxiv.org/pdf/2211.05953这篇论文提出了一种名为**Breadth-First Pipeline Parallelism(广度优先流水线并行,BF-PP)**的新型分布式训练调度方法。它主要解决了在大规模GPU集群上训练大语言模型时,训练时间、成本和内存使用效率之间难以平衡的核心矛盾。
未来之窗软件服务
5 个月前
开发语言
·
python
·
模型训练
·
仙盟创梦ide
·
东方仙盟
幽冥大陆(八十五)Python 水果识别ONNX转手机mobile —东方仙盟练气期
ONNX 模型转换为手机端可用的bin(权重文件)和param(参数 / 结构文件),核心是使用 MNN 或 NCNN 框架(手机端主流轻量化推理框架),其中 NCNN 是腾讯专为移动端优化的框架,适配安卓 /iOS,操作更简洁,以下是完整步骤(以 NCNN 为例):
Felven
5 个月前
linux
·
python
·
模型训练
·
昇腾
·
310p
华为昇腾310P模型转换失败问题解决
加固服务器使用华为昇腾310P进行推理,在进行模型转换时,提示转换失败,如下:出现上面问题是系统下装了多个Python版本,同时缺少依赖包。