应使用 lifespan 异步上下文管理器加载模型,配合 CPU 预加载、懒加载标记和首次请求时移至 GPU;输入用 Pydantic 校验并转 float32 张量;输出必须调用 .tolist() 转为 JSON 可序列化类型。FastAPI 启动后模型加载太慢,请求超时怎么办模型在 startup 事件里加载是常见做法,但大模型(比如 1GB+ 的 PyTorch model.pth)直接在 app = FastAPI() 后同步加载,会导致 uvicorn 启动卡住、健康检查失败、K8s 探针反复重启 Pod。把模型加载逻辑放进 lifespan 异步上下文管理器,而非 @app.on_event("startup") ------ 后者不支持 await,强行 await 会阻塞事件循环使用 torch.load(..., map_location="cpu") 避免 GPU 初始化抢占显存,等首次请求再移到 cuda(如果需要)加一层懒加载标记:用 global _model + if _model is None: 控制只加载一次,避免多 worker 下重复初始化from contextlib import asynccontextmanagerimport torch<p>_model = None</p><p>@asynccontextmanagerasync def lifespan(app: FastAPI):global _model_model = torch.load("model.pth", map_location="cpu")yield_model = None # 可选:退出时清理POST /predict 接收 JSON 但模型要 tensor 输入,怎么安全转换用户传 {"input": [0.1, 0.5, 0.9]} 很常见,但直接 torch.tensor(data["input"]) 有风险:类型不一致、维度错位、NaN 溢出,FastAPI 默认 500 错误不带具体原因。用 Pydantic BaseModel 显式声明输入结构,自动校验类型和长度,比手动 try/except 更可靠torch.tensor(..., dtype=torch.float32) 必须指定 dtype,否则 NumPy 默认 float64 会让模型报 Expected float32加 .to(device) 前先检查 _model.device,别硬写 "cuda" ------ 本地调试可能没 GPUclass PredictRequest(BaseModel): input: List[float]<p>@app.post("/predict")def predict(req: PredictRequest):x = torch.tensor(req.input, dtype=torch.float32).unsqueeze(0) # 补 batch 维度x = x.to(_model.device)y = _model(x).item()return {"output": y}Uvicorn 多 worker 下模型被重复加载或共享失败用 uvicorn app:app --workers 4 启动时,每个子进程都会执行一次 lifespan,模型白白加载 4 次;若用 multiprocessing 共享模型,又容易触发 RuntimeError: cannot pickle 'module' object。 Trenz AI驱动的社交电商营销平台,专为TikTok Shop设计
相关推荐
tjc199010052 小时前
如何用 has 与 delete 管理 Map 中的特定键值映射rleS IONS2 小时前
Redis五种用途2301_814809862 小时前
如何通过SSH隧道连接远程数据库_本地端口转发与phpMyAdmin学Linux的语莫2 小时前
langgraph实操安当加密2 小时前
TDE透明加密:精准管控数据库文件的读取、复制与权限,实现全方位版权保护川石课堂软件测试2 小时前
技术分享|JMeter接口与性能测试实战2301_814809862 小时前
C++如何验证YAML语法格式是否正确_try-catch解析校验用法【实战】.txtzhangchaoxies2 小时前
mysql如何开启慢查询日志_mysql性能监控环境配置tjc199010052 小时前
Python数据分析如何识别异常值_IQR四分位距检测法实战