加速智能体开发：从 Serverless 运行时到 Serverless AI 运行时

作者：洪晓龙（墨飏）

本文整理自 2025 云栖大会，阿里云智能集团产品专家，洪晓龙演讲议题《函数计算：AI 时代的最佳运行时》

在云计算与人工智能深度融合的背景下，Serverless 技术作为云原生架构的集大成者，正加速向 AI 原生架构演进。阿里云函数计算（FC）率先提出并实践"Serverless AI 运行时"概念，通过技术创新与生态联动，为智能体（Agent）开发提供高效、安全、低成本的基础设施支持。本文从技术演进路径、核心能力及未来展望三方面解析 Serverless AI 的突破性价值。

从 Serverless 到 Serverless AI：技术演进的必然选择

在 AI 时代，Serverless 正经历从 Serverless 到 Serverless AI 的进化。这一转变是由于 AI 应用对基础设施的新要求，包括围绕 Agent 为中心的开发范式变化、状态持久化需求、任务驱动协作方式以及容错自愈能力等四个主要方面。AI 原生范式下，Agent 的开发方式从服务化或 API 为中心转向以 Agent 为核心，且要求基础设施支持多样化任务、弹性扩展、数据隔离安全特性及主动任务协同调用方式。

AI 原生应用开发的四大核心需求

Agent 中心化开发范式
- 传统 API 驱动模式已无法满足 Agent 自主决策、主动执行任务的需求。AI 原生开发需围绕 Agent 生命周期设计，强调任务驱动协作而非被动响应。
状态持久化支持
- Agent 需保存对话记忆、人格设定等状态信息，要求基础设施原生支持状态管理，避免依赖外部存储组件。
动态任务执行能力
- Agent 需执行代码、浏览器操作、工具调用等多样化任务，运行时需具备轻量化、强扩展性，适配不可预测的流量模式。
容错与自愈机制
- 面对大模型生成代码的不确定性，需从防御性编程转向运行时自愈能力，降低安全风险对开发效率的影响。

技术架构对比：Serverless vs. 传统容器/虚拟机

AI 原生架构的演进主要有两条路径，一是通过虚拟机/容器运行时逐渐演变为以智能体运行时为代表的 AI 原生架构；二是直接从 Serverless 运行时进化为以智能体运行时为代表的 AI 原生架构。

而 Serverless 架构与 AI 时代需求具有天然契合性，其具备任务类型多样、流量突发性强、数据安全隔离以及轻量级、高弹性等优势，使得 Serverless 架构在状态管理、资源分配和运维方面展现出优势，成为 AI 时代最短的技术进化的路径。

维度	传统架构（容器/虚拟机）	Serverless AI 运行时
资源分配	静态资源分配，弹性不足	动态弹性伸缩，按需调用
状态管理	依赖 Redis/DB 等外部组件，跨节点迁移困难	天然支持状态持久化与会话亲和性
调用模式	被动响应式 API 调用	主动规划式任务协同
运维成本	需投入大量人力运维	免运维，零服务器管理

Serverless 架构因其动态弹性、免运维特性，成为 AI 原生架构的最短路径。开发者可专注于业务创新，无需关注基础设施细节。

Serverless AI 运行时

作为 AI 时代的最佳运行时，函数计算 FC 业界首推从 Serverless 进化为 Serverless AI，推出三大核心运行时底座：

1. Serverless 模型运行时：

支持超 20,000 + 热门开源模型一键部署为生产级 API。通过异构算力池、请求感知调度、毫秒级闲置唤醒、1/N 卡切分技术实现实时/准实时推理场景冷启动加速，实现 RT 抖动减少 80%，最高降本 93.75%。

2. 智能体与工具运行时

首创 Serverless 级会话亲和/隔离架构，通过毫秒级启动和上下文保持大幅提升智能体开发、部署和运行效率，性能超越传统方案 100 倍。
率先推出十万函数、百万实例级别的大规模沙箱服务（如 Code Interpreter API ），并内置 Python/Node.js/Java/PHP/Shell/.NET 等 50 余种多语言环境，支持 OCI 标准镜像，原生兼容 MCP 和 Function Call 协议标准。

这三大运行时均基于函数计算构建，为开发者提供 0 运维、极致弹性、成本最优的 AI 原生基础设施，并联动阿里云、通义实验室、魔搭社区等生态，全面加速 AI 应用创新。

Serverless AI 的实践验证与生态联动

1. 魔搭社区：模型托管的标杆案例

应用场景：支持 2 万个热门模型一键托管，用户无需关注底层集群配置，30 秒内生成生产级 API。
技术支撑：依托 Serverless 模型运行时，实现自动弹性伸缩与高可用性。

2. Qwen3 Coder 训练：沙箱环境的高效利用

强化学习：通过函数计算沙箱环境，Qwen3 Coder 的代码生成能力显著提升，无需维护训练集群。
多语言支持：内置运行时环境适配模型生成代码的直接运行需求，零运维、毫秒级计费。

3. 百炼 MCP 市场：工具服务的原子化部署

功能亮点：开发者可通过 Serverless 运行时将工具服务部署为企业级 MCP，支持冷门工具低频调用与热门工具高频响应的灵活适配。

4. 全链路 Serverless 生态联动

产品协同：整合阿里云日志、网关等产品，实现端到端链路追踪、全栈可观测性及精细化成本控制。
开发效率：AI 网关提供多模型协议适配与语义缓存，模型调用成功率提升至99.9%。

未来展望：Serverless AI 的无限可能

智能体应用的普惠化
- 非技术开发者可通过 Serverless 平台快速构建智能体应用，降低 AI 开发门槛。
全栈弹性与原子化能力
- 通过 Serverless AI 运行时，实现从模型、智能体到工具的全链路弹性资源调度与原子化服务编排。
生态开放与行业落地
- 推动 Serverless AI 技术标准化，助力企业实现 AI 原生应用规模化落地，覆盖智能座舱、工业自动化等场景。

Serverless AI 运行时的诞生，标志着云计算与 AI 技术的深度耦合。阿里云函数计算通过三大核心技术（请求感知调度、毫秒级唤醒、异构算力切分），为 AI 应用开发开发提供了免运维、高弹性、低成本的基础设施。随着生态不断完善，Serverless AI 将持续为企业和个人创造更多价值，驱动更多创新应用的诞生。