阿里云 Serverless 重塑创蓝云智通信底座,引领行业变革!

作者:赵世振、张伟、王云海、十眠

"创蓝云智作为国内领先的短信分发服务提供商,面临资源利用率低、运维压力大等挑战。通过全面采用阿里云云原生产品矩阵,包括 Serverless 应用引擎 SAE、云原生 API 网关、微服务引擎 MSE 等,创蓝短信成功实现了从传统云服务器架构向云原生弹性架构的转型。这一转型不仅解决了资源浪费问题,还显著提升了系统稳定性与运维效率,为创蓝短信业务的持续增长和创新提供了坚实的技术基础。"

------创蓝云智 CTO 马崇

客户背景介绍

上海创蓝云智信息科技股份有限公司(简称创蓝云智)成立于 2011 年,注册资金 6000 万元,总部位于上海松江启迪漕河泾科技园。作为国内领先的企业通信服务提供商,创蓝云智专注于为企业客户提供以消息通信服务为基础,融合大数据、5G 等前沿技术的通信综合解决方案。

经过十余年的深耕发展,创蓝云智已成为行业内知名的电信增值服务提供商,先后获得软件企业、高新技术企业、上海市专精特新企业、中国互联网百强企业等多项权威资质认证。同时,创蓝云智还是中国通信企业协会增值服务专业委员会的常务委员单位、全球移动通信系统协会(GSMA)的会员单位。

在技术创新方面,创蓝云智于 2015 年率先推出行业标杆产品"5S 到达",引领行业技术革新;自主研发的创蓝云智国际短信平台,率先完成全球短信服务市场的战略布局。公司每年研发投入超过 5000 万元,占营收比重 6% 以上,累计获得知识产权 100 多件,技术实力在行业内处于领先地位。

目前,创蓝云智在阿里云上部署了超过千台云服务器实例,总计算资源达到上万核心,支撑着日均千万级的短信分发量,为众多知名企业提供稳定可靠的通信服务。

业务挑战

作为典型的 To B 服务提供商,创蓝云智的短信分发业务呈现出明显的周期性和突发性特征。在电商大促期间(如双十一、618)以及日常业务高峰时段(上午 9 点、下午 4 点),系统需要处理海量的短信发送请求。然而,随着业务规模的快速扩张,传统 IT 架构的局限性日益凸显,主要体现在以下几个方面:

1. 资源利用率低,成本压力巨大

波峰波谷效应明显:创蓝云智的业务具有典型的潮汐特征,日常时段资源利用率低于 10%,即使在双十一、618 等电商节高峰期,利用率也仅达到 20% 左右。

资源预留造成浪费:为保障业务稳定性,大量云服务器实例需要 24 小时预留,在业务低谷期造成严重的资源闲置和成本浪费。

弹性扩容能力受限:传统云主机架构难以快速响应业务流量的波峰波谷变化(高峰期通常仅持续 1-2 小时),既无法满足突发流量需求,又无法在低谷期有效节省成本。

2. 运维压力大,管理复杂度高

人力资源紧张:运维专家需要管理上万核资源,工作强度大,运维风险高。

架构复杂度高:各业务线独立管理网关(CLB、Nginx+Spring Cloud Gateway),架构不统一,路由规则管理复杂。

监控体系不完善:缺乏统一的监控平台,问题排查效率低下,故障定位时间长。

基础设施迁移压力:单可用区自建 ZooKeeper,可能会面临单点故障的风险,需要自行处理集群管理、故障恢复、性能优化等问题,增加了运维负担。

3. 系统稳定性要求高

业务连续性要求:短信服务作为企业触达用户的关键通道,发送成功率直接影响客户业务效果,系统稳定性要求极高。

高并发处理能力:在双十一等大促期间,系统需要承载数倍于平时的流量压力,对系统的高可用性和容错能力提出了严峻挑战。

4. 技术架构升级需求迫切

微服务治理能力不足:Spring Cloud 应用缺乏无损上下线、流量防护、全链路灰度等企业级治理能力。

发布流程复杂:传统发布方式风险高,缺乏有效的灰度发布和快速回滚机制。

阿里云解决方案

在深入了解创蓝所面临的业务挑战后,阿里云云原生团队第一时间主动对接,与创蓝技术团队开展了多轮深入的架构探讨与技术交流。基于创蓝的实际业务需求,双方共同设计并确定了以阿里云云原生产品矩阵为核心的全新技术架构体系,助力创蓝实现系统能力的全面升级。

1. Serverless 应用引擎(SAE)- 核心弹性计算平台

1.1 智能弹性扩缩容

自动水平扩容:SAE 根据业务负载自动调整实例数量,结合定时策略精准应对周期性波峰波谷。在业务高峰期自动扩容应对突发流量,低谷期可缩容至 0 实例,实现真正的按需付费。

CPU Burst 能力:针对 Java 应用启动过程中 CPU 利用率高的问题,SAE 支持在启动阶段将实例规格临时提升至两倍,显著缩短应用启动时间。

智能闲置优化:当应用缩容到最小实例数且处于闲置状态时,闲置实例的 vCPU 成本可降低 80%,进一步优化运行成本。

冷启动优化:采用阿里云定制的 Dragonwell JDK,针对 Java 应用冷启动进行深度优化,启动时间缩短 30% 以上。

1.2 自动化 CI/CD 与部署优化

SAE 工具链集成:通过 SAE 工具链与现有 CI/CD 系统无缝对接,实现 JAR 包构建、部署流程的完全自动化。

版本管理与回滚:SAE 为每次发布自动打上时间戳版本标签,支持一键回滚至任意历史版本,确保发布过程零中断。

多样化发布策略:支持分批发布(逐步升级实例)、金丝雀发布(小流量验证)和全链路灰度发布(跨服务版本一致性),确保新版本稳定验证后平滑上线。

1.3 企业级治理与稳定性保障

MSE 治理能力集成:内置全链路灰度发布、无损上下线、流量防护等功能,确保发布过程无损,流量切换平滑。

高可用架构设计:天然支持多可用区部署和同可用区亲和特性,实现流量自动切换和故障快速恢复,确保业务连续性。

多维度监控视图:支持命名空间维度的统一监控,满足企业级监控管理需求。

2. 云原生 API 网关 - 统一流量入口

高性能处理能力:支持每秒数万次 API 请求处理,满足创蓝云智高并发业务场景需求。

架构统一简化:替代复杂的 CLB+Nginx+Spring Cloud Gateway 多层架构,实现统一的流量管理。

全面监控集成:提供统一的网关监控和问题排查能力,大幅提升运维效率。

平滑迁移支持:支持客户自定义加签插件的平滑迁移,确保业务逻辑无缝衔接。

企业级安全防护:集成 WAF 应用防火墙、智能限流熔断、IP 黑白名单等安全机制,全方位保障系统安全。

灵活路由策略:支持自定义路由规则、动态配置更新,适应不同业务场景的流量管理需求。

3. 微服务引擎(MSE)- 注册配置中心

高可用性和稳定性:MSE Nacos 和 Zookeeper 均支持多可用区部署,能够实现故障节点的秒级自动剔除和流量自动切换,系统可用性达到 99.95% 以上,MSE 注册配置中心企业版有 99.99% 的稳定性保障,性能提升 300% 。

简化运维:MSE Nacos 和 Zookeeper 均为托管服务,用户无需关注底层运维,阿里云提供专业的技术支持和故障恢复服务⁠⁣ ⁠⁣。MSE 提供同步工具(如 MSE-SYNC),支持 Nacos、Zookeeper、Eureka 的迁移,简化了从自建到云上的迁移过程⁠⁣ ⁠⁣⁠⁣。

业务价值

通过全面采用阿里云云原生产品矩阵,创蓝云智在成本优化、系统稳定性、运维效率等多个维度实现了显著提升:

1. 成本效益显著提升

按需付费模式:彻底告别资源预留模式,实现真正的按需付费,在业务低谷期成本接近零。

资源利用率大幅改善:通过 SAE 弹性扩缩容,短信分发业务的资源利用率从峰值 20% 提升至接近 60%,资源浪费问题得到根本解决。

直接成本节省明显:通过 SAE 轻量版和 SAE 专业版的结合使用,整体计算资源成本降低 25%,资源使用效率显著提升。

2. 系统稳定性与高可用性全面增强

多可用区高可用架构:SAE、云原生 API 网关、MSE Nacos 均支持多可用区部署,系统可用性达到 99.95% 以上。

高并发处理能力:云原生 API 网关支持百万级 RPS 的高并发处理,在双十一等高峰期能够稳定支撑业务需求。

流量防护机制:SAE 集成 MSE 治理提供限流、熔断、降级能力,确保系统在突发流量下不会崩溃,保障业务连续性。

3. 运维效率与开发敏捷性大幅提升

运维复杂度显著降低:SAE 集成 MSE 治理和 ARMS 监控,运维工作量大大降低。

故障定位效率提升:统一监控平台和全链路追踪能力,故障定位时间从小时级缩短至分钟级。

发布效率大幅提升:无损发布和灰度能力使应用发布频率提升 3 倍以上,同时确保发布过程不影响用户体验。

开发效率优化:云原生 API 网关统一管理路由规则,开发人员可以更专注于业务逻辑开发,开发效率提升 30% 以上。

DevOps 能力提升:集成的 CI/CD 能力支持 Jenkins 等主流工具,实现了真正的 DevOps 实践。

未来展望

展望未来,创蓝云智已制定了清晰的云原生化发展路线图。计划于2025年底前完成业务系统向阿里云 Serverless 应用引擎(SAE)的全面迁移,预计整体资源规模将达到上万核级别,打造阿里云 Serverless 领域的标杆级客户。

在此基础上,创蓝云智将持续深化云原生技术的应用探索,积极引入函数计算(FC)和 AI 网关等产品,探索 AI 业务的新场景与新模式。同时,公司将加快构建智能运维体系,推动运维能力从自动化向智能化演进,全面提升业务的可观测性与响应效率,助力企业实现更加智能化、精细化的运营。

创蓝云智的云原生实践,为整个企业服务行业提供了极具参考价值的数字化转型范本。尤其对于存在明显业务波峰波谷特征、面临资源利用率低、运维压力大等共性挑战的企业,这一案例充分验证了云原生技术在破解传统 IT 架构瓶颈、提升系统弹性与稳定性方面的显著优势。

相关推荐
阿里云云原生3 天前
GPU 降成本免运维,睿观 AI 助手选择函数计算
云原生·serverless
zzywxc7876 天前
云原生 Serverless 架构下的智能弹性伸缩与成本优化实践
云原生·架构·serverless
moppol7 天前
Serverless 数据库来了?无服务器数据库 vs 传统数据库有何不同?
数据库·云原生·serverless
moppol12 天前
Serverless 架构入门与实战:AWS Lambda、Azure Functions、Cloudflare Workers 对比
云原生·serverless·aws
阿里云云原生22 天前
语音生成+情感复刻,Cosyvoice2.0 极简云端部署
云原生·serverless
Jeaten25 天前
Cross-Edge Orchestration of Serverless Functions With Probabilistic Caching
edge·serverless·cache
阿里云云原生1 个月前
Function AI 工作流发布:以 AI 重塑企业流程自动化
云原生·serverless
Serverless社区1 个月前
亚太唯一!阿里云Serverless计算产品进入Forrester领导者象限
阿里云·云原生·serverless·函数计算