目录
[🧠 一、通用型调度框架(General AI Orchestrators)](#🧠 一、通用型调度框架(General AI Orchestrators))
[🤖 二、LLM专用调度框架(LLM Orchestrators)](#🤖 二、LLM专用调度框架(LLM Orchestrators))
[☁️ 三、企业级/生产调度框架(LLM Ops方向)](#☁️ 三、企业级/生产调度框架(LLM Ops方向))
[🚀 总结归纳](#🚀 总结归纳)
🧠 一、通用型调度框架(General AI Orchestrators)
这类框架定位是"多模型多任务的统一调度",偏平台级。
常见代表:
-
Ray Serve (By Anyscale)
分布式计算框架 Ray 的推理服务层,适合部署多个模型实例(如LLM、CV模型等)并实现动态负载均衡。常与 Hugging Face、LangChain 等集成。
特点:可水平扩展、高性能异步调度、支持Python原生任务图。 -
KServe(原KFServing)
Kubernetes 原生的模型服务框架,支持自动伸缩(Auto-scaling)、A/B测试、GPU调度。
适用场景:企业内部模型部署与版本切换,ML Ops 管理。 -
BentoML
一体化模型打包+部署+服务框架,支持多种运行时(PyTorch、Transformers、OpenAI API等)。
亮点:支持模型打包为可移植的 Bento,结合 BentoCloud 可实现跨云调度。 -
Seldon Core
针对Kubernetes环境的模型编排框架,支持组合推理(例如多个模型串联成Pipeline)。
优势:解释性、监控、自动回滚。
🤖 二、LLM专用调度框架(LLM Orchestrators)
这类专为大语言模型+工具链 场景设计,核心关注"对话状态、上下文缓存、工具调用、智能路由"。
主流代表:
-
LangChain
最早一代的LLM调度与链式调用框架,可通过
Chain、Agent、RouterChain实现模型间逻辑路由。
优点 :生态庞大、易用、可快速构建原型。
缺点:在大规模并发与可观测性上稍弱。
**代码示例如下:**这个例子展示了一个简单 "用户提问 → 模型回答 +调用工具" 的流程。
python
from langchain.chat_models import ChatOpenAI
from langchain.prompts import ChatPromptTemplate
from langchain.agents import initialize_agent, Tool
from langchain.memory import ConversationBufferMemory
# 设定模型
llm = ChatOpenAI(model_name="gpt-4", temperature=0.7)
# 定义一个工具(举例:搜索工具)
def web_search(query: str) -> str:
# 实际调用搜索 API
return f"Results for {query}"
search_tool = Tool(
name="web_search",
func=web_search,
description="Search the web for relevant information"
)
# 记忆(简易对话历史)
memory = ConversationBufferMemory()
# 初始化 Agent
agent = initialize_agent(
tools=[search_tool],
llm=llm,
agent="zero_shot_react_description",
memory=memory,
verbose=True
)
# 使用 Agent
user_input = "What is the carbon footprint of steel recycling?"
response = agent.run(user_input)
print(response)
-
LangGraph (LangChain的Graph化升级版)
允许将LLM调用过程建模为有状态图(state graph) ,支持异步执行、节点复用与分支管理。
适合场景:多Agent协作系统、复杂任务编排。
代码示例如下:
python
from langgraph.graph import StateGraph
from langgraph.prebuilt import create_react_agent
from langchain.chat_models import ChatOpenAI
# 模型
llm = ChatOpenAI(model_name="gpt-4", temperature=0.7)
# 定义工具/函数
def get_weather(city: str) -> str:
return f"The weather in {city} is sunny."
# 创建一个预构建 agent(基于 LangGraph)
agent = create_react_agent(
model="gpt-4",
tools=[get_weather],
prompt="You are a helpful assistant."
)
# 创建一个图
graph = StateGraph()
# 定义节点
graph.add_node("start", lambda state: agent.run(state["input"]))
graph.add_node("weather_node", lambda state: get_weather(state["city"]))
graph.add_node("final", lambda state: f"Here is your final answer: {state['answer']}")
# 定义边(流程)
graph.set_entry_point("start")
graph.add_edge("start", "weather_node", condition=lambda state: "weather" in state["input"])
graph.add_edge("weather_node", "final")
graph.add_edge("start", "final", condition=lambda state: "weather" not in state["input"])
# 执行
initial_state = {"input": "Tell me the weather in Tokyo", "city": "Tokyo"}
result = graph.run(initial_state)
print(result)
-
LlamaIndex(原GPT Index)
虽以知识库为主,但其
Query Engine与Retriever Router模块也能执行动态模型路由。 -
OpenDevin / AutoGPT / CrewAI
面向"多智能体协作"的编排框架,通过任务分解和模型间通信调度多个LLM或API完成复杂目标。
☁️ 三、企业级/生产调度框架(LLM Ops方向)
适用于多模型部署、版本治理、性能监控与A/B实验:
-
vLLM + FastAPI / Ray Serve 集成 :
用于高并发推理场景,通过Tensor Parallelism和PagedAttention提升调度效率。
-
OpenAI Batch / Azure AI Studio / Amazon Bedrock
云厂商提供的调度层------通常结合Serverless执行、Token预算控制、并发限流、任务队列等。
-
Colossal-AI / DeepSpeed MII
更偏向底层资源调度(GPU内存管理、分布式推理编排),用于高性能场景。
🚀 总结归纳
| 类型 | 框架代表 | 核心功能 | 典型应用 |
|---|---|---|---|
| 通用部署调度 | Ray Serve, KServe, BentoML | 模型部署、流量调度、扩缩容 | 企业AI服务 |
| LLM任务编排 | LangChain, LangGraph, LlamaIndex | 上下文管理、工具调用、Agent协调 | 智能助手、自动化工作流 |
| 资源级调度 | vLLM, DeepSpeed MII, Colossal-AI | 高性能推理、GPU调度 | 大规模部署 |
| 企业管理层 | Seldon, Bedrock, Azure AI Studio | 监控、A/B测试、治理 | MLOps体系 |