应使用 lifespan 异步上下文管理器加载模型,配合 CPU 预加载、懒加载标记和首次请求时移至 GPU;输入用 Pydantic 校验并转 float32 张量;输出必须调用 .tolist() 转为 JSON 可序列化类型。FastAPI 启动后模型加载太慢,请求超时怎么办模型在 startup 事件里加载是常见做法,但大模型(比如 1GB+ 的 PyTorch model.pth)直接在 app = FastAPI() 后同步加载,会导致 uvicorn 启动卡住、健康检查失败、K8s 探针反复重启 Pod。把模型加载逻辑放进 lifespan 异步上下文管理器,而非 @app.on_event("startup") ------ 后者不支持 await,强行 await 会阻塞事件循环使用 torch.load(..., map_location="cpu") 避免 GPU 初始化抢占显存,等首次请求再移到 cuda(如果需要)加一层懒加载标记:用 global _model + if _model is None: 控制只加载一次,避免多 worker 下重复初始化from contextlib import asynccontextmanagerimport torch<p>_model = None</p><p>@asynccontextmanagerasync def lifespan(app: FastAPI):global _model_model = torch.load("model.pth", map_location="cpu")yield_model = None # 可选:退出时清理POST /predict 接收 JSON 但模型要 tensor 输入,怎么安全转换用户传 {"input": [0.1, 0.5, 0.9]} 很常见,但直接 torch.tensor(data["input"]) 有风险:类型不一致、维度错位、NaN 溢出,FastAPI 默认 500 错误不带具体原因。用 Pydantic BaseModel 显式声明输入结构,自动校验类型和长度,比手动 try/except 更可靠torch.tensor(..., dtype=torch.float32) 必须指定 dtype,否则 NumPy 默认 float64 会让模型报 Expected float32加 .to(device) 前先检查 _model.device,别硬写 "cuda" ------ 本地调试可能没 GPUclass PredictRequest(BaseModel): input: List[float]<p>@app.post("/predict")def predict(req: PredictRequest):x = torch.tensor(req.input, dtype=torch.float32).unsqueeze(0) # 补 batch 维度x = x.to(_model.device)y = _model(x).item()return {"output": y}Uvicorn 多 worker 下模型被重复加载或共享失败用 uvicorn app:app --workers 4 启动时,每个子进程都会执行一次 lifespan,模型白白加载 4 次;若用 multiprocessing 共享模型,又容易触发 RuntimeError: cannot pickle 'module' object。 Trenz AI驱动的社交电商营销平台,专为TikTok Shop设计
相关推荐
曦月逸霜23 分钟前
啥是RAG 它能干什么?Mahir0842 分钟前
Redis 与 MySQL 数据同步:一致性保证的完整解决方案2301_769340671 小时前
如何在 Vuetify 中可靠捕获 Chip 关闭事件(包括键盘触发).txtAC赳赳老秦1 小时前
供应链专员提效:OpenClaw自动跟踪物流信息、更新库存数据,异常自动提醒灵犀学长2 小时前
基于 Spring ThreadPoolTaskScheduler + CronTrigger 实现的动态定时任务调度系统北秋,2 小时前
PostgreSQL(Postgres)数据库基础用法 + 数字型 + 字符型 完整联合注入实战woniu_buhui_fei2 小时前
JVM编译器南 阳2 小时前
Python从入门到精通day66m0_596749093 小时前
JavaScript中手动实现一个new操作符的底层逻辑多加点辣也没关系3 小时前
Redis 的安装(详细教程)