服务器研发的历史变迁:从通用到定制化

服务器研发的历史变迁:从通用到定制化

一、以 CPU 为核心的服务器演进之路

Intel Xeon 处理器和平台,在服务器市场占据绝对的统治地位。通过 Tick-Tock 战略实践摩尔定律,在 Tick 中更新制程,在 Tock 中更新处理器微架构,碾压了非 x86 架构及 AMD,一骑绝尘。

服务器厂商基本上跟随着 Intel 的 CPU 发布节奏,与 Intel 签署 NDA,基于 Intel 的参考设计和 CRB(Customer Reference Board) 参考板,规划服务器产品。

不过,Intel 的 Tick-Tock 战略逐渐停摆,因为其芯片制程迟迟无法突破,导致一直在 Tick-Tick-Tick...的状态。

反观 AMD,在基于 ZEN架构的 EPYC 处理器问世之后,横扫服务器市场。本质上, AMD 同样使用了 Tick-Tock 战略,其 Tick 依赖于业界顶尖的台积电和Chiplet技术,其 Tock 则依赖于自家的 ZEN 架构不断演进。

1. 通用服务器的黄金时代

在服务器发展的早期阶段,通用服务器占据了市场的主导地位。这一时期,服务器的研发流程高度标准化,通常由市场部门根据客户需求分析,制定出详细的市场需求文档(MRD),进而推动项目立项。整个研发周期通常需要18到24个月,期间与Intel等核心芯片供应商紧密合作,确保服务器硬件能够与最新一代CPU同步上市。

在这个模式下,企业客户可以根据自身业务需求,采购市场上已经成熟且经过验证的通用服务器产品。这种"标准化+规模化"的模式极大地降低了研发成本和技术风险,同时也加快了产品推向市场的速度。然而,随着互联网行业的迅猛发展,企业对计算资源的需求日益多样化,通用服务器逐渐难以满足特定场景下的性能要求。

通用服务器的商业逻辑与个人电脑、笔记本电脑等业务逻辑非常相似。服务器厂商通常可以复制其在个人电脑市场的成功经验,通过管控供应链、库存、设计与开发、上市与推广,以此占领市场并赚取利润。

服务器厂商一般也称为 OEM 厂商,大致有两种研发模型。

  • 大部分 OEM 厂商侧重于设计与验证,在 ODM 厂商例如英业达(Inventec),广达(Quanta),华擎(ASRock)等之间进行招标。 ODM 厂商根据 OEM 厂商的设计目标,开发硬件与固件,最终由 OEM 厂商完成整机组装与质量验证。在发展的过程中,也可能出现 OEM 厂商自己负责固件或部分硬件的情况。
  • 少部分 OEM 厂商是全自研,即 OEM 厂商完全部不需要 ODM 厂商,直接组建自己的研发团队,按照设计目标完成硬件与固件的研发。

2. 互联网时代的定制浪潮

随着移动互联网、云计算、在线游戏和视频流媒体的爆发式增长,这使得全球大型互联网科技公司对服务器提出了更高的定制化需求。这些企业不再满足于现成的通用服务器,而是开始组建自己的硬件团队,从传统OEM/ODM厂商中吸纳人才,自主定义服务器规格,并通过公开招标的方式寻找合适的制造商。从角色分工的角度来说,这些互联网科技公司一定程度上扮演了原来 OEM 厂商的角色。

在这一轮变革中,ODM(原始设计制造商)厂商凭借其灵活的制造能力和更低的成本结构,在竞标中表现出明显优势,往往成为中标方。相比之下,传统的OEM(原始设备制造商)厂商由于长期依赖ODM进行实际研发和生产,在面对定制化需求时显得较为被动。

直到 OEM 厂商提出 "ODM+" 模式------即在保留ODM制造能力的基础上,强化自身的自主研发能力和服务体系,才逐步扭转局面,重新夺回市场主导权。值得注意的是,这类定制服务器的设计知识产权(IP)归属于招标方,制造商不得将相同设计出售给其他客户,从而保障了客户的独特竞争优势。

3. 迈向部件级定制

随着互联网科技公司对服务器架构的深入理解,他们不再满足于整机层面的定制,而是进一步介入供应链管理,尝试从源头控制成本与性能。其中,CPU、内存和存储作为服务器三大核心部件,占据了总成本的绝大部分。因此,越来越多的招标厂商选择绕过传统服务器制造商,直接与IHV(独立硬件供应商)如Intel、三星、希捷等建立采购关系。

这些关键部件被直接送至ODM或OEM工厂进行系统集成与测试。在此模式下,OEM厂商的核心工作聚焦于主板设计、散热方案优化以及BIOS/BMC固件开发与验证。虽然这使其仍保有一定的技术门槛,但整体利润空间被大幅压缩,逐渐演变为"代工+服务"的角色。

然而,这种深度参与也带来了新的挑战:原本以软件和算法见长的互联网公司,如今不得不承担起硬件采购与库存管理的风险。在经济上行周期中,需求旺盛,供应链稳定,一切运转顺畅;但在经济波动或下行期,若预测不准或业务调整,极易导致大量库存积压,形成呆账甚至坏账,给企业带来负担。

4. 定义行业标准的新纪元

除了自主设计和供应链整合,互联网科技公司开始尝试推动行业标准的建立,定义统一的服务器标准甚至机柜标准,以提升效率、降低成本,并增强自身在产业链中的话语权。最具代表性的便是Facebook发起的OCP(Open Compute Project) 开放计算项目,旨在通过开源硬件设计,推动数据中心基础设施的标准化与创新。

中国互联网科技企业牵头,会同服务器厂商,联合组建了 ODCC 开放数据中心委员会,也推出了天蝎机柜规范,统一电源、背板、管理接口等关键参数,实现不同厂商服务器在统一机柜内的高效部署与运维。这类标准不仅提升了部署效率,还促进了模块化、可扩展的数据中心架构发展。


二、以 GPU 为核心的服务器未来之路

进入AI时代后,GPU芯片厂商如NVIDIA、AMD等也开始深度介入服务器系统设计。它们不再仅仅提供加速芯片,而是联合OEM/ODM厂商,推出"GPU+服务器+机柜"的一体化解决方案,涵盖从计算单元到冷却系统的完整堆栈。这标志着芯片厂商正从"部件提供商"向"系统级解决方案商"转型。

从服务器的设计角度,GPU 所占据的空间、散热需求、功耗已经超过 CPU,更不要说成本。设计的核心,必须围绕着如何发挥 GPU 的处理能力,消除功耗、散热、网络通信、内存等瓶颈。

虽然 NVIDIA 没有成功收购 ARM,但是并不影响其使用 ARM CPU 替代传统的 x86 CPU。当然, NVIDIA GPU 同样兼容 x86 架构服务器。

AMD 不仅是 x86 服务器市场的唯二玩家,也是 GPU 市场的唯二玩家,其解决方案必定是 x86 + GPU 的组合。

对于服务器研发来说,一方面可以为 NVIDIA、AMD 设计、开发、制造服务器及整机柜解决方案。另一方面,也可以根据市场需求,自主设计或为客户提供定制化的硬件解决方案。总体来说,人工智能 AI 的兴起,为服务器厂商提供了新的机遇。


三、OEM厂商的生存之道

面对客户主导设计、供应链前移、利润压缩等多重压力,OEM厂商必须不断调整战略,才能在激烈的市场竞争中存活下来。

首先,快速响应能力成为关键。由于招标过程往往要求提交成熟的POC(概念验证)方案,OEM厂商必须提前预判市场趋势,在内部主动开展各类技术预研和原型开发。例如,针对AI训练、边缘计算、高密度存储等热点场景,提前构建可演示的参考设计,以便在客户发起招标时迅速响应。

其次,平台化复用策略被广泛应用。OEM厂商通常会基于通用服务器主板进行二次开发,根据不同项目需求进行局部修改,从而缩短交付周期、降低研发成本。同时,固件(Firmware)、管理软件、驱动程序等软件资产也在多个项目之间高度复用,形成"一次投入,多次受益"的良性循环。

再次,进攻非定制大客户市场。除了互联网科技公司,还有一些大型企业也对服务器有巨大的服务器需求,例如金融、电信、制造等行业。这些企业往往有独特的业务模式和需求,对服务器的定制化程度不高。因此,OEM厂商必须在这些客户的需求下,提升自身的竞争力,以抢占市场份额。

最后,即使失去设计主导权,也要争取生产份额。许多互联网科技公司为避免对单一供应商过度依赖,通常会指定两家甚至三家服务器厂商同时供货。因此,即便未能中标主设计方,OEM厂商也会积极争取"第二供应商"或"生产标"的角色。虽然份额较小,但能持续参与项目,保持技术迭代和客户关系,确保"一直在牌桌上"。


结语:变革中的平衡与创新

从通用到定制,从整机到部件,再到系统级解决方案,服务器研发的每一次变迁都反映了技术进步与商业逻辑的深刻互动。对于OEM厂商而言,如何在客户主导的设计趋势中保持技术前瞻性、服务能力和生态协同,将是未来持续生存与发展的核心命题。

而在AI、量子计算、边缘智能等新技术浪潮的推动下,服务器的形态与研发模式仍在持续演进。唯有拥抱变化、深耕技术、理解客户,方能在这场永不停歇的产业变革中立于不败之地。

持续生存与发展的核心命题。

而在AI、量子计算、边缘智能等新技术浪潮的推动下,服务器的形态与研发模式仍在持续演进。唯有拥抱变化、深耕技术、理解客户,方能在这场永不停歇的产业变革中立于不败之地。

相关推荐
七夜zippoe4 小时前
CANN Runtime任务描述序列化与持久化源码深度解码
大数据·运维·服务器·cann
盟接之桥4 小时前
盟接之桥说制造:引流品 × 利润品,全球电商平台高效产品组合策略(供讨论)
大数据·linux·服务器·网络·人工智能·制造
Fcy6486 小时前
Linux下 进程(一)(冯诺依曼体系、操作系统、进程基本概念与基本操作)
linux·运维·服务器·进程
袁袁袁袁满6 小时前
Linux怎么查看最新下载的文件
linux·运维·服务器
代码游侠6 小时前
学习笔记——设备树基础
linux·运维·开发语言·单片机·算法
主机哥哥6 小时前
阿里云OpenClaw部署全攻略,五种方案助你快速部署!
服务器·阿里云·负载均衡
Harvey9036 小时前
通过 Helm 部署 Nginx 应用的完整标准化步骤
linux·运维·nginx·k8s
珠海西格电力科技7 小时前
微电网能量平衡理论的实现条件在不同场景下有哪些差异?
运维·服务器·网络·人工智能·云计算·智慧城市
释怀不想释怀8 小时前
Linux环境变量
linux·运维·服务器
zzzsde8 小时前
【Linux】进程(4):进程优先级&&调度队列
linux·运维·服务器