一家成功的大算力芯片公司,其核心壁垒必须是软硬兼备的,既要有芯片架构的强大技术壁垒,更要有持久投入的、生态兼容完备的软件护城河。HADOS,就是中科驭数的软件护城河。
------中科驭数高级副总裁 张宇
近日,在DPU基础软件开发上,中科驭数迎来了一项重要的突破成果------HADOS 正式来到3.0版本。
HADOS 3.0是国内DPU软件研发平台的一个里程碑版本,集结了中科驭数6年全部软件研发投入与DPU在各行业广泛落地经验的整合和沉淀,体现了中科驭数全面拥抱敏捷开发的理念和方法,以及对高效、灵活、安全、易用的极致追求。
目前,HADOS 3.0核心代码量已经超过126万行,包含网络、计算、存储、安全等多层次API数量高达2765个,并且提供大量的开箱即用的组件和服务。相较于英特尔的IPDK和英伟达的DOCA,起步更早的HADOS在不少方面都有独特的沉淀和优势,包括云原生网络、微服务治理、全卸载能力、DPU全仿真技术、生态兼容性、运营管控、国内安全加解密,以及最重要的人工智能场景下国产AI芯片和GPU芯片网络方案等等方面。可以这么说,HADOS 3.0已经站在了业界最前沿,成为与国际巨头英伟达和英特尔并驾齐驱的本土解决方案。
HADOS 3.0 沿用驭数经典软件栈架构
为用户提供全方位、多层次的开发体验
从架构来看,HADOS3.0延续了此前两个大版本的三个逻辑功能分区架构,分别是超高性能的设备驱动层(DDL),兼容性完备的应用驱动层(ADL),以及功能强大且好用的应用开发平台层(ADP)。这也是中科驭数的经典软件栈架构模型设计,旨在为用户提供全方位、多层次的开发体验。
设备驱动层(DDL),作为性能与灵活性兼备的"不二之选",集成了DPU开发所需的全套驱动模块与丰富的API接口,涵盖超低延迟LDMA、RDMA、虚拟化、存储加密等功能模块,并且支持NP的网络可编程,特别适用于追求极致性能与定制化的用户。
应用驱动层(ADL),聚焦于"三U一体"高性能算力中心,通过优化的DPDK、SPDK、OVS、OVN,以及云原生和服务网格等技术组件,为网络、计算、存储提供全面加速服务,助力用户轻松构建高性能算力底座,开箱即用,即刻享受DPU带来的性能飞跃。
而应用开发平台层(ADP),是HADOS的"敏捷"核心,配备了编译、仿真、调试、部署的全栈工具包,其中HADEP------业界首款DPU Emulator,更是历经三年精心打磨,实现了中科驭数DPU的全功能仿真,支持云化部署,让客户能够在云端一键部署DPU设备集群,大幅缩短开发周期,加速项目落地。此外,HADEP还支持与真实DPU的混合部署,进一步提升研发效率。
在内部,中科驭数本身就是HADEP的"重度用户",基于云化部署的HADEP,搭建了自动化研发测试平台,大大节省了硬件资源协调和占用开销,提升了开发效率。这一举措不仅是HADOS敏捷异构开发理念的生动实践,也体现了驭数对研发效率与质量的不懈追求。
面对DPU开发平台的复杂性,中科驭数构建了ADIP------一套多流水线自动化DevOps与自动化测试平台,支持敏捷开发、持续集成、部署、安装、测试、迭代,确保HADOS的构建与自动化测试,成为推动HADOS成功的"幕后英雄"。
HADOS 3.0四大架构革新
全面拥抱敏捷开发,引领DPU应用生态
架构革新之一:为云原生而"原生"
云原生技术,既承载了当前通用数据中心中主流方式,更是在当下以AIGC和大模型为代表的人工智能浪潮中,承担核心算力操作系统角色,海量数据训练以及大模型训练、大模型推理都离不开云原生技术。
HADOS 3.0全面深度支持和拥抱原生网络集群,提供云原生网络加速、服务网格全卸载、裸金属共池管理和网络安全增强,为用户打造了一个高效率、低成本、安全可靠的开发与运行平台,提供了全面、高效的云原生解决方案。
架构革新之二:简约而不简单
深知客户在运维过程中面临的挑战与需求,HADOS 3.0通过一系列智能化的管理工具与服务,提供强大的智能化运维支撑。HADOS 3.0引入了完善的运维管控遥测接口,与服务组件无缝集成,确保了对DPU集群的全面监控与高效管理。更值得一提的是,HADOS灵活地提供了普罗米修斯等系统服务,满足客户多样化的运维需求。在此基础上,HADOS倾力打造的DPU UMS统一管理系统,不仅能实时监测DPU设备的状态,还能进行精细化的配置管理,确保集群的稳定运行与资源的高效利用。
通过这一平台,用户可以轻松实现设备的远程控制、故障预警、性能优化等功能,极大降低了运维的复杂度与成本,释放了更多精力专注于核心业务的创新与发展。
架构革新之三:层次化服务API,支持不同层次的二次开发
针对客户对于DPU开发使用门槛高的痛点,HADOS 3.0提供从基础到高级各个层次的服务API,更以直观清晰的文档,如全量、丰富的说明文档、用户手册、最佳编程实践与调优实践指导,助力开发者快速打开DPU应用的大门,大幅缩短项目启动周期,有效控制开发成本。
架构革新之四:一云多芯
"一云多芯"是当前业界整个高性能数据中心绕不过去的主流趋势。为了顺应这一多元化需求,HADOS 3.0支持"一云多芯"策略,让DPU能够与不同CPU、操作系统、GPU及IAAS层软件系统无缝对接,做到全适配、全兼容承诺,让客户轻松构建"三U一体"高性能算力底座,一键部署,即刻体验敏捷异构的效益。HADOS 3.0目前已成为业内唯一一款生态全兼容的DPU应用开发平台,兼容了8款主流国产CPU平台和10大国产操作系统。
六年磨一剑,HADOS已经成为业内适配最完全、竞争力最强、国内实际落地部署最多的DPU软件开发平台,累计部署量已经超过了万卡级别。
HADOS 3.0每一行代码,每一个功能模块,都是基于中科驭数对用户需求的深刻理解,为用户提供了从底层硬件到上层应用的全方位加速,有效解决DPU开发与部署过程中的复杂性与挑战,是对高性能计算与DPU规模化应用落地挑战的有力回应。中科驭数将一如既往地站在DPU软硬件技术探索前沿,与广大用户一道,共筑高性能计算的坚实基石。所有的这些努力,也都代表着一个信念------把敏捷易用送给客户,把复杂挑战留给驭数。