导读:趣丸科技,一家集兴趣社交、电子竞技、人工智能于一体的创新型科技企业,在采用 OpenCloudOS 开源操作系统后,结合业务特点将容器化集群平均利用率提高到 40% 左右,高峰利用率达 80% ,降本增效的同时,满足了不断增长的业务需求。本文将介绍 OpenCloudOS 在趣丸科技的具体应用,以及平均利用率增长背后的秘密。
一、趣丸科技业务背景及技术挑战
趣丸科技成立于 2014 年 12 月,是一家提供即时语音通讯与人工智能创新应用技术及解决方案的高新技术企业。其主力产品 TT 语音围绕游戏、语音直播和社区生态等场景,拥有庞大的用户规模和活跃度,自上线以来,已累计超 2 亿注册用户。
为支撑业务的快速发展,以及直播场景的需求,趣丸科技围绕最新的云原生搭建技术架构,采用了 K8s 容器集群和服务网格平台等基础设施,管理内部的主机资源和流量资源。目前,公司已有 95% 以上的业务使用容器部署。
因此,在操作系统选型方面,主要考虑到以下几个维度:
1、需要支持容器化和虚拟化技术,实现应用程序的隔离、资源管理和高效部署,包括对容器的创建、管理、优化、问题排查以及 Cgroups 特性有较好的支持。
2、具有高度稳定性和容灾能力,以确保在各种情况下都能稳定运行,减少宕机,保证不同业务的连续性和可用性。
3、帮助公司降本增效,能通过离线混部、负载均衡和动态资源分配等技术,提高集群利用率,降低运行成本。
综合以上三点,以及社区支持和云服务器等因素,趣丸科技最终选择了 OpenCloudOS 作为其操作系统底座,进行容器化开发和部署,实现优化资源利用率方面的关键功能和特性。
二、OpenCloudOS 在趣丸科技的应用与价值
目前,OpenCloudOS 操作系统在趣丸科技容器化集群的覆盖率达 99% ,装机量超 500 台。此前大量基于 CentOS 的业务,如主机管理系统、作业平台、监控等,在替换到 OpenCloudOS 的过程中,得益于 OpenCloudOS 良好的兼容性,实现了基础设施程序能无缝迁移与运行。
随着离、在线混部功能的大规模部署使用,更多的业务是基于容器来进行资源的隔离与调度,从而帮助提高资源利用率,降低开发和运维成本,实现业务的降本增效。
在容器化集群上,趣丸科技结合 OpenCloudOS 的离在线混部技术,将容器化集群平均利用率提高到 40% ,高峰利用率提升到 80% 。具体措施包括:
1、 减小容器镜像大小,加速部署过程,根据集群的负载情况自动调整节点数;
2、 为容器设置资源限制,优化调度策略,结合容器编排工具,和服务网格工具,提高集群内服务之间的通信效率
3、 使用负载均衡器,自动管理容器的部署、扩缩、更新,自动调整容器实例数,提高集群的资源利用率。
4、 监控集群的资源使用情况,收集和分析日志,以便发现问题并优化。
此外,基于最新的大模型技术,趣丸科技推出了一系列如兴趣推荐、AI 音乐创作等 AIGC 应用服务,这对操作系统调用 GPU 资源、机器学习工具支持也有较高的要求。针对这类 AI 场景,OpenCloudOS 会根据 GPU、TPU 等硬件设备进行适配优化,提供稳定的硬件支持。同时,OpenCloudOS 也提供了丰富的 API 和库,能开箱即用部署运行 AI 应用。
三、总结
趣丸科技成功运用 OpenCloudOS 开源操作系统,为其业务带来了显著的效率提升和兼容性改善,充分发挥了 OpenCloudOS 在容器化支持中的优势,为业务的持续发展奠定了坚实的技术基础。
未来,趣丸科技将继续深化与 OpenCloudOS 社区的合作,优化技术架构,提升业务效率,为用户带来更好的体验,引领国内云原生操作系统发展方向,为中国开源贡献力量。
趣丸科技基础架构负责人黄金表示:
OpenCloudOS 的引入对趣丸科技的运维管理带来了显著的改进。通过容器化集群的高效运行,我们不仅提升了资源的利用率,还大幅降低了运维成本。OpenCloudOS 的稳定性和对云原生技术的深度支持,使我们能够更加灵活地应对业务的快速增长和技术挑战。
未来,我们将继续探索 OpenCloudOS 的更多功能,以支持我们日益增长的业务需求。我们相信,通过与 OpenCloudOS 社区的紧密合作,趣丸科技能够持续创新,为用户提供更加丰富和高效的服务体验。