gpu算力

杰克逊的日记16 小时前
prometheus·gpu算力·gpu服务器监控
通过Prometheus对GPU集群进行监控以及搭建(小型集群)一、本文用通用的「Prometheus+Grafana+DCGM对GPU集群进行监控DCGM(Data Center GPU Manager)是 NVIDIA 官方工具,dcgm-exporter 负责将 GPU 指标转换为 Prometheus 可识别的格式,是 GPU 监控的核心采集组件。
杰克逊的日记17 小时前
人工智能·gpu算力·gpu监控
中型 GPU 服务集群监控方案(10-50 节点)中型 GPU 集群(10-50 节点)的监控核心需求是 “稳定采集 + 联动分析 + 精准告警 + 弹性扩展”,需兼顾 “轻量部署” 与 “企业级能力”(如自动发现节点、负载隔离、多维度告警)。以下方案基于「Prometheus+Grafana+DCGM」生态优化,补充节点自动发现、分布式训练监控、告警分级等中型集群必备功能,附部署细节和最佳实践:
猫头虎6 天前
人工智能·百度·开源·aigc·文心一言·gpu算力·agi
昆仑芯 X HAMi X 百度智能云 | 昆仑芯 P800 XPU/vXPU 双模式算力调度方案落地百度智能云混合云联合 昆仑芯、HAMi(密瓜智能发起并主导的 CNCF 开源项目),正式推出基于昆仑芯 P800 的 XPU/vXPU 双模式算力调度方案。
科技峰行者8 天前
服务器·人工智能·华为·aigc·gpu算力
华为发布Atlas 900 DeepGreen AI服务器:单机柜100PF算力重构AI训练基础设施2025年11月1日,华为突然发布全新一代 Atlas 900 DeepGreen AI 服务器,单机柜算力达到惊人的 100PFpms,直接将 AI 训练基础设施的算力密度提升了一个数量级!这不是简单的硬件升级,而是华为用自研 AI 芯片和鲲鹏处理器的深度协同,在能效比上甩出行业平均水平 40% 的“算力核武器”。当整个行业还在为大模型训练的天价电费发愁时,华为这步棋,可能彻底改写 AI 算力竞赛的规则!
GMICLOUD10 天前
人工智能·科技·ai·gpu算力·agi·ai应用·ai基础设施
网易科技专访 GMI Cloud 创始人&CEO Alex Yeh:以“产品+布局+服务”构建全球竞争力摘要日前,网易科技对 GMI Cloud 创始人兼CEO Alex Yeh 进行了专访,内容主要围绕 AI 算力赛道机遇、GMI Cloud 差异化优势及全球布局等,下文为对话精华实录。
云资源服务商10 天前
阿里云·云计算·gpu算力
阿里云智能计算灵骏:构建下一代AI算力新底座在当今人工智能飞速发展的时代,对算力的需求呈现出爆发式增长。阿里云敏锐地捕捉到这一趋势,推出了灵骏智算服务。作为阿里云面向大规模深度学习与融合智算的核心 PaaS 产品,灵骏基于「飞天 + CIPU」架构打造软硬件一体的高性能异构算力底座。这一独特的架构设计,融合了阿里云飞天操作系统强大的资源调度与管理能力,以及 CIPU(Cloud Infrastructure Processing Unit)对计算、存储、网络资源的加速与优化能力 ,为灵骏智算服务奠定了坚实的技术基础。
I_belong_to_jesus10 天前
gpu算力·gpu
tiny-gpu入门4: ALU模块分析ALU模块代码如下:ALU会基于控制信号:[2:0] core_state、decoded_alu_output_mux和[1:0]decoded_alu_arithmetic_mux,对寄存器rs和rt的值执行具体的计算。
北数云11 天前
分类·数据挖掘·回归·gpu算力
北数云|利用Limix模型对tabular-benchmark数据集实现分类和回归任务LimiX 是一个专为结构化数据设计的轻量级大模型(仅约 16M 参数),无需任何下游训练即可直接推理,同时具备优秀的泛化能力与概率校准性能。在多种分类与回归任务中,其无训练模式已能达到或超越传统表格模型基线,表现稳健。结合可选的检索增强推理机制(Retrieval Ensemble),模型能够进一步利用训练样本关系改善复杂分布下的预测精度。整体而言,LimiX 在推理成本与效果之间实现了高效平衡,适合在低训练资源场景中快速获得可靠结果。
LHminer 凡11 天前
区块链·哈希算法·gpu算力
阿瓦隆A16 282T:SHA-256算法矿机,282T算力与13.8J/T能效比阿瓦隆A16 282T作为新一代SHA-256算法矿机,凭借其强劲的算力和优异的能效表现,成为了比特币(BTC)和比特币现金(BCH)挖矿的热门选择。本文将深入解析这款矿机的技术参数及其在挖矿中的应用优势。
BAGAE12 天前
去中心化·密码学·网络攻击模型·gpu算力·量子计算·可信计算技术·空间计算
量子计算机的发展趋势量子计算机作为一种基于量子力学原理运行的新型计算机,正逐渐从理论设想迈向现实应用。以下是关于量子计算机现状、未来及可行性的研究:
智星云算力20 天前
服务器·gpu算力·一体机·智星云·ai工作站
Ubuntu 25.10 “Questing Quokka” 版本解析Canonical 正式发布 Ubuntu 25.10,代号 “Questing Quokka”(好奇的短尾矮袋鼠)。作为短期支持版本(STS),其支持周期为 9 个月,将持续更新至 2026 年 7 月,为用户带来前沿技术体验的同时,也为后续长期支持版本奠定基础。
猫头虎21 天前
人工智能·开源·whisper·prompt·aigc·ocr·gpu算力
DeepSeek刚刚开源了一个3B的 OCR模型:什么是DeepSeek-OCR?单张A100-40G每天可以处理20万+页文档有这么小的开源模型,却没有一个可以用来评测体验的算力显卡怎么办? ——本文教你白嫖云GPU,不用买卡也能跑。
猫头虎1 个月前
运维·人工智能·python·自动化·aigc·gpu算力·ai-native
AI_NovelGenerator:自动化长篇小说AI生成工具随着人工智能技术的发展,基于大语言模型的自动化内容生成已逐步应用于各个领域,其中小说创作作为一个富有创意且复杂的工作,尤其需要处理角色发展、剧情连贯性等问题。AI_NovelGenerator正是为了解决这些挑战而诞生的,它为长篇小说创作者提供了一个全自动的创作工具。通过模块化的功能,AI_NovelGenerator能够精确管理小说的设定、章节生成、角色发展以及剧情的一致性,使创作者能专注于构建故事的核心框架,而不必担心细节的重复性和一致性问题。
猫头虎1 个月前
嵌入式硬件·算法·prompt·aigc·embedding·gpu算力·ai-native
HAMi 2.7.0 发布:全面拓展异构芯片支持,优化GPU资源调度与智能管理芯与序(Of Silicon & Scheduling)—— 万般之芯,合于一序。向 Kubernetes 1.34 的 Of Wind & Will 致意:彼处以风与志命名航向;
猫头虎1 个月前
开发语言·网络·python·r语言·pip·gpu算力·国产
如何解决 pip install -r requirements.txt 本地轮子路径 ‘./packages/xxx.whl’ 不存在 问题摘要: 在Python项目依赖管理中,尤其是在使用 pip install -r requirements.txt 安装依赖包时,开发者可能会遇到形如 ERROR: Could not find a version that satisfies the requirement ./packages/xxx.whl (from -r requirements.txt) 的错误。 这种问题通常与本地wheel文件路径错误、项目相对路径配置、PyCharm运行目录、pip源设置等多个因素有关。 本文将从场景分析
防搞活机1 个月前
linux·服务器·深度学习·ubuntu·gpu算力·显卡驱动
ubuntu 服务器(带NVLink)更新显卡驱动 (巨坑!!)如果你使用的是大型的带NVLink的GPU服务器,例如H100\H20\A100等,就不要去学那些普通服务器或个人电脑的显卡驱动更新的教程,因为不一样!很容易导致更新后,nvidia-fabricmanager 的版本和驱动对不上,而且 apt-get 根本找不到对应的版本! 正确步骤:
炘东5921 个月前
pytorch·vscode·深度学习·gpu算力
vscode连接算力平台使用如下链接进行算力平台注册,注册后平台会赠送10元算力券。https://passport.compshare.cn/register?referral_code=G2ZldCqlGu1BHGo8p8s5dD
SmartBrain2 个月前
服务器·华为·gpu算力
华为昇腾 950 系列芯片深度解析目录架构创新:场景化定制的双芯片策略性能参数:从单芯片到超节点的算力跃升竞品对比:场景化优势构建差异化竞争力
SmartBrain2 个月前
人工智能·华为·gpu算力
华为昇腾 910 到 950 系列 NPU 深度解析目录定义与定位:从基础构建到生态引领性能指标:从规模扩张到效能跃升910 系列的性能基础950 系列的代际突破
九章云极AladdinEdu2 个月前
人工智能·深度学习·机器学习·gpu算力·模型·vc维
VC维(Vapnik-Chervonenkis Dimension)的故事:模型复杂度的衡量在机器学习实践中,我们常常面临一个根本性的困境:模型应该多么复杂?一个过于简单的模型可能无法捕捉数据中的模式(欠拟合),而一个过于复杂的模型则可能只是记住了训练数据而无法泛化(过拟合)。那么,我们如何量化"模型复杂度"?又如何知道何时停止增加模型复杂度?