技术栈
模型训练
Alluxio
9 天前
人工智能
·
机器学习
·
缓存
·
系统架构
·
自动驾驶
·
模型训练
造父智能(哈啰robotaxi)在阿里云环境下构建极致透明的训练加速层
存算分离的阿里云环境下,自动驾驶模型训练面临 OSS 数据访问延迟高、GPU 利用率不足的普遍挑战。造父智能(哈啰robotaxi)基于 Alluxio 构建了一套对用户完全透明的训练数据加速层:平台自动完成 OSS Bucket 到 Alluxio UFS 的注册,根据队列节点类型智能选择挂载策略(CSI Ephemeral / Sidecar FUSE / PVC),训练 Pod 内仅可见标准 POSIX 路径,数据加速与缓存管理对用户完全不可见。
weixin_46846685
17 天前
人工智能
·
深度学习
·
机器学习
·
迁移学习
·
模型训练
·
小样本
迁移学习落地实战:从场景匹配到价值验证
在机器学习落地的实际过程中,最让人头疼的往往不是模型架构有多复杂,而是手里根本没有足够的数据。很多团队在面对新业务场景时,常常陷入“巧妇难为无米之炊”的困境:标注成本高昂、冷启动周期漫长,导致项目迟迟无法推进。尤其是当业务需求紧迫,而历史数据积累几乎为零时,传统的从头训练模式显得笨重且低效。
weixin_46846685
17 天前
人工智能
·
pytorch
·
深度学习
·
神经网络
·
计算机视觉
·
动态图
·
模型训练
PyTorch 深度学习框架核心能力与实战评测
在深度学习框架的选型过程中,开发者往往面临着一个两难的境地:是追求极致的灵活性与科研探索的便捷性,还是倾向于生产环境下的稳定部署与高效推理?很多时候,我们被各种基准测试报告中的数字所包围,却难以将这些抽象的性能指标映射到自己具体的业务场景中。比如,当模型结构变得异常复杂,或者需要处理超长序列数据时,框架的动态特性是否会成为瓶颈?在多卡并行训练时,通信开销是否会吞噬掉算力提升的红利?这些问题如果不在项目初期通过实测验证,往往会在后期带来巨大的重构成本。
Biomamba生信基地
18 天前
论文阅读
·
深度学习
·
生物信息学
·
模型训练
《Advanced Science》前沿工具发布:STAID,空间反卷积自优化深度学习框架
文章《STAID: A Self-Refining Deep Learning Framework forSpatial Cell-Type Deconvolution with Biologically InformedModeling》(IF=14.1)发布于《Advanced Science》。
TGITCIC
1 个月前
微调
·
sft
·
llama
·
模型训练
·
训练
·
大模型训练
·
llama-factory
大模型训练师的炼丹之道 (1)-最新版llama-factory环境搭建和全排错
在人工智能的演进图谱中,大模型训练始终占据着技术金字塔的顶端。它不仅是AI Agent开发的上层建筑,更是当Agent应用发展到一定深度后,不可避免必须跨越的技术鸿沟。唯有掌握底层模型的塑造能力,才能真正突破通用能力的天花板。
XD742971636
1 个月前
运维
·
深度学习
·
自动化
·
开源项目
·
模型训练
·
科技新闻
·
ai工程化
科技早报晚报|2026年5月8日:Agent 后端、文档索引与 token 控制层,今天更值得跟进的 3 个开源机会
一句话导读:今天这波 GitHub 热点里,真正值得看的已经不是“再来一个终端 Agent”。更有机会做成产品的,是给 Agent 提供后端、知识索引、成本控制和远程协作能力的基础层。对独立开发者和小团队来说,这类项目离付费场景更近,也更适合做垂直化改造。
Flying pigs~~
1 个月前
模型训练
·
deepspeed
·
vllm
·
模型推理
·
zero
·
pageattention
大模型训练框架 ➕ 推理部署框架
训练用 DeepSpeed,推理选 vLLM 或 Ollama,入门看 Transformers,生产上 TGI。大模型从训到跑,一套框架全搞定。 🚀
ACCELERATOR_LLC
2 个月前
人工智能
·
深度学习
·
大模型
·
强化学习
·
模型训练
【DataWhale组队学习】DIY-LLM Task5 大模型的基本训练流程
原文链接这一章讲的是大模型如何从底座模型变得可用。 原文说,本章重点是 SFT(监督微调),预训练和强化学习主要是总览,强化学习细节会放到下一章,不过Datawhale的组队学习没有下一章。
华清远见IT开放实验室
2 个月前
人工智能
·
深度学习
·
算法
·
机器学习
·
ai
·
模型训练
AI 算法核心知识清单(深度实战版2)
1. 监督学习算法(已知标签的模型训练)线性模型树模型核方法:支持向量机(SVM)集成学习策略2. 无监督学习算法(未知标签的模型训练)
河西石头
2 个月前
yolo
·
模型训练
·
模型文件
·
pt文件下载失败
·
reading zip
YOLO训练中 `PytorchStreamReader` 错误的真相
最近在为一个YOLO可视化标注训练工具添加训练功能时,遇到了一个极其顽固的错误:PytorchStreamReader failed reading zip archive: failed finding central directory。前后折腾了数小时,尝试了无数种方法——重装PyTorch、降级版本、修改路径、换用绝对路径、在多线程/子进程/子线程间反复横跳——都无济于事。直到最后才发现,问题根本不在于我的模型文件,而在于Ultralytics内部一个“好心办坏事”的自动检测机制。
Jason Hsiao
3 个月前
自动驾驶
·
3d目标检测
·
模型训练
·
paddle3d
PETRV2-BEV模型训练实战:Paddle3D框架下VOVNet主干网络调优
如果你正在研究自动驾驶的3D感知,特别是基于BEV(鸟瞰图)的视觉感知方案,那么PETR系列模型一定在你的关注列表里。PETRV2作为该系列的重要升级,通过引入3D位置编码,在保持高效性的同时,显著提升了3D目标检测的精度。
BFT白芙堂
3 个月前
人工智能
·
深度学习
·
算法
·
安全
·
人机交互
·
模型训练
·
具身智能
基于 Kinova Gen3 机械臂的家庭人机交互安全算法研究
随着服务机器人逐步进入家庭场景,人机交互(HRI)的安全性成为影响机器人普及的关键因素。相较于工业环境,家庭空间布局多变、人员活动随机,对机械臂的感知、规划与控制提出了更高要求。
陈嘿萌
3 个月前
环境配置
·
模型训练
·
segfomer
·
预训练权重下载
4090显卡配置官方SegFormer运行环境(包含预训练权重下载、环境配置、代码修改、运行 | 验证 | 测试)
代码:https://github.com/NVlabs/SegFormer论文:https://arxiv.org/abs/2105.15203
每日IO
3 个月前
人工智能
·
python
·
mind+
·
开源硬件
·
模型训练
·
二哈识图
·
行空板
AI“重构”生活 —— Mind+ V2 模型训练挑战赛
AI“重构”生活 —— Mind+ V2 模型训练挑战赛- Makelog(造物记)为了挖掘更多具有不同背景、学习价值和创意火花的 AI 应用场景,“ AI“重构”生活——Mind+ V2 模型训练挑战赛”正式启动!无论你是想让计算机学会覆盖图像、音频、姿态和文本等领域的“看、听、辨、析”,还是希望实现硬件深度智能交互与实际应用的完整闭环,这里都是你释放创造力、展现思考力、体现技术力的舞台!
海棠AI实验室
4 个月前
python
·
模型训练
·
私有模型训练
第五章 指令数据怎么写:从“有用”到“可学”的指令模板库
你做私训模型,最容易踩的第一个坑就是: 把“看起来很有用的聊天记录/对话截屏”直接喂给模型。结果模型学到的不是能力,而是三件套:
xixixi77777
4 个月前
人工智能
·
学习
·
安全
·
ai
·
零样本
·
模型训练
·
训练
零样本学习 (Zero-Shot Learning, ZSL)补充
零样本学习(Zero-Shot Learning, ZSL)是一种机器学习范式,它允许模型在没有任何特定任务的标注数据的情况下,通过利用已有的知识来推断和完成新任务。这种能力对于处理罕见类别或快速适应新环境非常重要,因为在这些情况下获取大量标注数据可能是不切实际的。这种学习方式对于处理现实世界中标签数据稀缺的问题尤为重要。
海棠AI实验室
4 个月前
模型训练
·
私有模型训练
第一章 一张图看懂私有模型训练闭环:数据→训练→评测→上线→监控→迭代
很多人卡在这几个坑:一句话:你缺的是“工程闭环”,不是“更多调参秘籍”。建议:把它放在专栏置顶、仓库 README 第一屏、视频开篇第一张。
IT小哥哥呀
4 个月前
大数据
·
人工智能
·
机器学习
·
数据处理
·
模型训练
如何优化机器学习模型的训练速度?——从基础知识到具体实现
在机器学习的实际应用中,训练速度是一个关键的性能指标。提高训练速度不仅能大幅节省开发时间,还能提高实验的迭代效率。本文将从基础知识入手,逐步介绍优化训练速度的思路、框架,并最终深入到具体的工具准备、环境部署和代码实现。
缘友一世
5 个月前
llm
·
模型微调
·
模型训练
·
大模型分布式训练
DeepSpeed框架详解:ZeRO 显存优化、3D 并行及混合精度训练
DeepSpeed 的强大功能使其在大模型领域得到了广泛应用:在传统的分布式数据并行中,每个GPU都会维护一份完整的模型参数、梯度和优化器状态,这造成了巨大的显存冗余。
南麟剑首
5 个月前
ai
·
llm
·
数据集
·
数据清洗
·
大模型开发
·
模型训练
LLM模型开发教程(六)模型训练的数据集获取与清洗
总纲数据的“科学划分”:训练、验证与测试请理解这句话!!!! 预训练之所以叫做“自监督学习”,是因为数据本身就是标签,通过掩码机制既确保了预测方向,也是一种遮住答案的策略,即数据本身答案已知,但用掩码遮住了,通过预测的token与掩码下的token做对比观察损失,以此为依据来优化模型参数