再升级!沐曦股份 GPU 接入华佗开源生态!

沐曦股份开源生态介绍

沐曦深度融入全球开源社区 :成为vLLM官方支持的中国GPU厂商,与红帽联合推出MXAIE优化方案,实现对龙蜥、OpenCloudOS、麒麟、RHEL等主流OS的适配,并深度参与vLLM、PaddlePaddle、OpenXLA、BigDL等上游项目,确保主流框架和大模型的"Day 0 "级支持。截至2025年底,已发布30余个 开源项目,MXMACA用户超25万 ,支持超4500个模型"即插即用"。通过技术赛事、高校推广及算力服务平台建设,沐曦正加速构建覆盖开发者、产业与科研的开放生态,目标是铸就AI时代的"Android式"开放共赢算力基础。

HUATUO 华佗

HUATUO(华佗) 是由滴滴开源并依托 CCF (中国计算机学会)孵化的操作系统深度观测项目,专注为云原生通用计算,AI 计算,云服务,基础服务等提供操作系统内核级深度观测能力,《滴滴操作系统可观测 HUATUO 项目正式入驻 CCF》

适配介绍

HUATUO 通过调用 MetaX libmxsml 获取实时的 GPU 数据,在开启了 MetaX GPU 监控后,可以在华佗中查询到 GPU 相关的数据,如:

复制代码
1. GPU 基础信息:如 GPU 型号、GPU 标识、驱动版本等
2. GPU 状态:如 GPU 功耗、温度、利用率、时钟频率等
3. GPU 通信:如 PCIe 速度、带宽,MetaXLink 速度、带宽等

这些数据可以帮助我们更加清晰地定位生产环境中的各种问题。有关指标的详细说明,请见后续的"指标介绍"章节。如果想要启用 MetaX GPU 的监控,需要将以下内容挂载到容器中的对应位置:

复制代码
1. /opt/maca:/opt/maca
2. /opt/mxdriver:/opt/mxdriver
3. /dev/dri:/dev/dri

Docker 容器的启动命令为:

复制代码
docker run --privileged --cgroupns=host --network=host 
        -v /sys:/sys 
        -v /proc:/proc 
        -v /run:/run 
        -v /opt/maca:/opt/maca 
        -v /opt/mxdriver:/opt/mxdriver 
        -v /dev/dri:/dev/dri 
        huatuo/huatuo-bamai:latest

如果是在 K8s 中使用,则创建相应的 PV 与 PVC 即可。在容器启动完毕后,访问其服务地址的 /metrics endpoint,如果输出中包含带有 metax 字样的指标,则成功采集了 GPU 数据。

指标介绍

说明

复制代码
1. GPU index:GPU 的索引,根据 GPU 模式的不同有所区分:
    - Native 模式和 VF 模式的 GPU 索引从 0 开始。
    - PF 模式的 GPU 索引从 100 开始。
2. CE:Correctable Errors, 可纠正错误
3. UE:Uncorrectable Errors, 不可纠正错误
4. MetaXLink:MetaXLink 是用于 GPU 间通信的专有互联技术。每块 GPU 可拥有多条 MetaXLink 连接,
索引从 1 开始。

结语

开源,正成为连接技术创新与产业升级的关键纽带。在政策引领、产业协同与生态共建的合力推动下,开源创新高地正加速构筑。面向未来,沐曦股份将持续以开源为桥梁,与产业各方同心共策、聚力共建、携手共赢,夯实AI时代的算力底座与软件基础设施,为中国数字经济的高质量发展注入澎湃动能。

Pull request: ++https://github.com/ccfos/huatuo/pull/133++

相关推荐
WinterKay6 小时前
【开源】我写了一个轻量级本地数据库浏览工具,支持 MySQL/Redis 只读查询
数据库·mysql·开源
OpenCSG8 小时前
以开源技术、跨境数据与绿色算力为支点,“开放东方社区”上线
开源
code_pgf9 小时前
Octo 算法详解-开源通用机器人策略模型技术报告
算法·机器人·开源
非优秀程序员9 小时前
智能体的构成--深入探讨Anthropic、OpenAI、Perplexity和LangChain究竟在构建什么。
人工智能·架构·开源
Hello__77779 小时前
开源鸿蒙 Flutter 实战|文章分类标签功能全流程实现
flutter·开源·harmonyos
ClkLog-开源埋点用户分析9 小时前
在信创环境下,如何判断一套用户行为分析系统是否“真正可用”?
数据分析·开源·开源软件·用户画像·埋点系统
GitCode官方10 小时前
一声唤醒 万物响应|AtomGit 首款开源鸿蒙 AI 硬件「小鸿」发布会圆满落幕 定义智能交互新入口
人工智能·开源·harmonyos
猫头虎11 小时前
如何搭建 24 小时 AI 直播平台:魔珐星云数字人打造无人值守 “AI 销冠” 全流程实战教程
人工智能·langchain·开源·prompt·aigc·embedding·agi
王码码203511 小时前
NAS 部署 TDuck 开源问卷系统:从一键搭建到公网访问全教程
开源·内网穿透·nas·问卷系统·tduck
熊猫钓鱼>_>12 小时前
大型复杂远程AI Agent应用:从架构困局到进化突围
人工智能·ai·架构·开源·大模型·llm·agent