AI来了,云原生更稳了

不了解AI的时候,往往会将其视为洪水猛兽,因为AI确实具有颠覆一切的巨大能量;但是当你慢慢接近它、拥抱它甚至尝试驾驭它,你会发现AI如同其他许多新技术一样,都需要扎根的土壤、生长的养分和成熟过程中适宜的环境等。

"云原生是AI的重要承载。"青云科技云原生产品负责人于爽举例说,"英伟达的整个技术栈就是围绕着Kubernetes云原生架构构建的,并没有创造出一个新的软件平台将硬件能力变现。许多第三方市场机构的报告也揭示出,AI应用服务底层的承载方仍以云原生和Kubernetes为主。无论技术如何变化,'最接地气'的还是云原生相关的整个技术栈。"

云原生化步步为营

回顾历史,2014年,Kubernetes项目启动,有效推动了云原生技术的发展。2015年,云原生计算基金会(CNCF)的成立,进一步加速了云原生技术的普及。目前,从全球范围来看,云原生技术的应用差异较大。在整体上,北美与欧洲的容器使用率领先亚洲。在中国,随着云计算的大规模普及,许多企业的云原生项目也在快马加鞭。

于爽表示,在中国,云原生应用的普及程度要区分不同地区、行业和企业来看。金融行业是走在前列的,很多大型银行的核心业务、数据库资产都已经全面Kubernetes化。在制造行业,一些新能源电池的制造商以Kubernetes为底座,轻松实现了运维标准化。相对来说,政府和学校在云原生化方面稍显滞后。不过随着AI浪潮的兴起,一些高校也加快了从传统虚拟化向云原生化迈进的步伐,应用云原生架构支撑大量的AI训练和推理任务。

面对不断涌现的AI需求,青云科技将如何最大程度地发挥云原生技术的优势呢?于爽提到:"青云科技有一支专门的智算团队,聚焦相关的用户需求调研和产品开发。从云原生的角度,我们基于KubeSphere LuBan为智算团队提供相关的支持支撑,主要是为了更好地保障AI应用的业务连续性。"

那么,AI需求的出现,到底对云原生特别是Kubernetes的应用提出了哪些新的要求呢?以时间节点来划分,大约2023年以前,在标准的Kubernetes之上增加一层管理能力,以及像微服务、敏捷的业务场景能力,基本就能满足60%以上云原生客户的需求。但是进入AI时代,很多客户需要对复杂的工作负载进行管理。因为AI的工作负载比起在Kubernetes上运行一个Web应用或者一个后台应用要复杂得多。"AI应用的调度和串联十分复杂,这对底层云原生产品的后台管理能力等提出了更高要求。"于爽介绍说,"针对客户在调度方面提出的新需求,我们只要在LuBan上增加一个与调度任务相关的扩展组件即可解决。LuBan提供的可插拔的方式既保证了KubeSphere本身的简洁和轻量化,又让其功能扩展变得更加灵活,更好满足不同客户的复杂需求。"

KubeSphere是青云科技2017年开始立项,并以开源形式开发和运营的一款容器管理平台。今天,不管是从社区活跃度、产品的丰富度还是用户数量等方面来衡量,青云KubeSphere都可以与市场上主流的开源容器平台如OpenShift、Rancher等媲美甚至抗衡。

2024年是青云KubeSphere加速"下沉"至行业的标志性一年。越来越多的银行、保险公司将其内部结算、保险案例处理等核心业务放到KubeSphere平台上。比如,民生证券就采用了青云KubeSphere,并有意在其子公司进行更大规模的部署应用。让于爽既感到意外又非常兴奋的是,像甘肃银行、兰州银行等也都在深入使用云原生应用,并且是一步到位,将最关键的业务部署在KubeSphere上。另外,山东某个还不通火车的县城里的客户也要求青云科技派技术专家去做云原生技术应用的培训。

另外,在海外市场的拓展上,青云科技也在持续发力。举例来说,青云科技在土耳其的合作伙伴GENCUBE已经将KubeSphere企业版交付给土耳其机场。东南亚的许多国家,如越南、马来西亚等也有大量使用KubeSphere开源版本的用户。

以不变应万变

云原生的需求是千变万化的。每一个新需求的产生,都意味着不同的业务场景。但是,青云KubeSphere产品团队的人数是有限的,技术人员掌握的知识和经验也是有限的。面对不断增加的需求,KubeSphere将如何应对?

青云KubeSphere以不变应万变,靠的就是LuBan这一内核。因为LuBan的存在,KubeSphere真正成了一种云原生的操作系统。就像苹果iOS或Windows操作系统一样,任何生态伙伴的技术都可以无缝动态地接入KubeSphere。基于LuBan这种插件式的开放架构,不管是第三方的界面、按钮,还是第三方的后台API,都可以在KubeSphere平台上实现热插拔。KubeSphere无需为某个客户定制具有特定功能的特殊版本,而只需将客户需要的某种能力变成一个插件,动态嵌入KubeSphere即可,以实现高效、低成本的产品开发迭代,并很好地适配不同应用场景。

"基于KubeSphere,LuBan开发的扩展组件可以是青云科技的,也可以是生态伙伴的,并且都能在任何云原生基础设施上运行起来。"于爽表示,"这样一种友好的、非绑定的、中立性的方式,利人利己。这也是新时代云原生最经济的合作方式。"

截至目前,包括第三方伙伴以及个人开发者上架到KubeSphere中的扩展组件已超过40个。这有点像"组团打怪"。云原生的需求层出不穷,仅靠青云科技一家是不能完全覆盖的,很多复杂的场景必然要求青云科技与生态伙伴一起解决,互惠共赢。这也是经过多年实践,青云科技摸索出的一条最适合自己的,同时又能实现差异化的云原生产品的商业化道路。

据于爽介绍,青云科技的很多产品都在向LuBan架构迁移。比如,青云科技的智算产品就是基于LuBan架构开发的,其很多能力都是复用LuBan提供的即时能力,包括租户管理、可观测等,实现了降本增效。

2024年,KubeSphere开源版本与企业级版本都在持续升级,不断增加新的功能。另外,基于LuBan架构,EdgeWize v3.0优化了边缘计算功能,提供可迭代、融合的场景解决方案,帮助用户构建开放、易用、智能的云边协同平台;WhizardTelemetry可预测平台v1.1.0新增了Grafana与Grafana Lok扩展组件、日志告警、企业微信群机器人通知支持、跨集群Pod查询、EdgeWize监控适配、OpenSearch自定义索引和Calico CNI日志收集等,全面提升了平台的性能与灵活性;KubeSphere DMP v1.0同样得益于LuBan架构,实现了多类型数据库跨云部署、运维、观测与安全保护,构建起数据管理生态闭环,助力客户实现数据库即服务(DBaaS)。

建得好还要用得好

谈到未来青云科技云原生产品的发展规划,于爽归纳了以下三个方向。

第一,实现更好的可观测性。强大的可观测能力可以协助客户及时地发现很多潜在问题,特别是有益于降低数据中心的运维成本。未来,云原生的计算资源会持续增加,为了让Kubernetes跑得更稳定更安全,就必须不断提升云原生产品的可观测。

据于爽介绍,以前的KubeSphere v3.3版本专注于异构的传统计算基础设施的可观测,即CPU这类传统计算资源的可观测。随着智算需求的崛起,KubeSphere在可观测方向上将更加重视对AI基础设施和AI应用的可观测,以及不同异构硬件包括GPU、DPU、NPU等AI集成设施的可观测。面向新一代的智算云提供相应的可观测能力,青云科技在与时俱进。

提升可观测能力,仍存在一些技术瓶颈。比如,随云原生应用规模的扩大,从500个节点扩展到1000个节点,部署规模的增加会提升可预测的复杂度。再比如,需要观测的IT环境日新月异。面对各种新的硬件、不同厂商自己的监控指标、驱动,为了实现可观测,就必须更好地兼容、更深刻地感知这些产品、系统,并且要用一种更轻量的方式实现。KubeSphere的可观测能力在扩展性和兼容性上也有很好的设计。

KubeSphere的可观测能力在4.0可插拔架构改造后,将逐渐统一在 WizTelemetry可观测平台下持续迭代演进。全面改进现有功能(包括监控、告警、日志、审计、事件、通知)、用户体验的同时会陆续新增符合OpenTelemetry标准的链路追踪、基于eBPF的网络可观测、FinOps成本管理等扩展组件,用户可以自主选择安装所需要的扩展组件,构建自己的可观测体系。

第二,各类不同的基础设施,包括硬件的、软件的,还有公有云、私有云,如何实现跨基础设施的集群管理是现实需求。"对于混合多云环境来说,云原生是必然的选择。"于爽表示,"现在,任何的混合云环境默认都是采用Kubernetes,除非有一些应用不能容器化。"

第三,更好地支持边缘AI。数据中心的计算量是可以估量的,但是边缘计算的想象空间是无限的。在AI出现后,具身智能、自动驾驶等进一步扩展了边缘计算的场景。于爽表示:"未来,我们将在边缘AI方面投入更多精力。"

往/期/回/顾

从科技赋能到价值引领,东莞证券可进化的信创云建设启示录"智算"雄起 | 智算操作系统要"顶天立地"

<>青云打造AI算力的"一体两翼"

<>"智算"雄起 | 青云科技:智算中心建设、运营两不误

<>AI Cloud将百花齐放,青云科技已先走了一步

相关推荐
lyw_YTU_Sussex2 分钟前
深度学习day4|用pytorch实现猴痘病识别
人工智能·pytorch·深度学习
SunkingYang2 分钟前
做T和做T+0有什么区别
大数据·人工智能·区块链·股票·关系·做t·t+0
香港科大商学院内地办事处9 分钟前
港科夜闻 | 香港科大与荷兰代尔夫特理工大学(TU Delft)建立合作伙伴关系,推动艺术科技教育与研究...
大数据·人工智能·科技
威化饼的一隅13 分钟前
【多模态】swift框架使用qwen2-vl
人工智能·深度学习·大模型·swift·多模态模型·qwen2-vl
灵魂画师向阳32 分钟前
AI绘画,重拾手绘——结合Stable Diffusion辅助设计之 景观 学习笔记!
人工智能·学习·ai作画·stable diffusion·ai绘画·sd
GOTXX1 小时前
【无人机】无人机测绘路径优化策略与实践:探索高效、精准的测绘技术路径
人工智能·python·目标检测·机器学习·计算机视觉·无人机
IT猿手1 小时前
基于RRT(Rapidly-exploring Random Tree)的无人机三维路径规划,MATLAB代码
开发语言·人工智能·深度学习·matlab·机器人·无人机·智能优化算法
AI_Mind1 小时前
浅谈大模型之Agent(下篇)
大数据·人工智能·深度学习
抓哇小菜鸡2 小时前
服务发现Discovery和Eureka自我保护
云原生·eureka·服务发现