太好了,恭喜你成功迈出了第一步!现在你已经能用本地模型生成回答了。下一步,我们按计划进入第二天:把模型封装成 API 服务,这样你就可以像调用在线接口一样使用它,为后续做 RAG(检索增强生成)打下基础。
由于你用的是 ModelScope(魔塔),我会继续基于它来写 API 代码,保证你能直接复用。
第二天任务(约30-40分钟):用 FastAPI 封装模型
第1步:安装 FastAPI 和 uvicorn(2分钟)
在 ai_env 环境中执行:
bash
pip install fastapi uvicorn
第2步:创建 app.py 文件(15分钟)
在你喜欢的目录(比如 C:\Users\Lenovo\ai_api)新建 app.py,写入以下内容:
python
# app.py
from fastapi import FastAPI
from pydantic import BaseModel
from modelscope import AutoModelForCausalLM, AutoTokenizer
import torch
import time
# ---------- 全局加载模型(只加载一次,避免重复)----------
print("正在加载模型,请稍等...")
start = time.time()
model_id = 'qwen/Qwen2-0.5B-Instruct'
model = AutoModelForCausalLM.from_pretrained(model_id, trust_remote_code=True)
tokenizer = AutoTokenizer.from_pretrained(model_id, trust_remote_code=True)
print(f"模型加载完成,耗时 {time.time()-start:.2f} 秒")
# -------------------------------------------------
app = FastAPI()
# 定义请求体的数据结构
class PromptRequest(BaseModel):
prompt: str
max_tokens: int = 200 # 默认值
temperature: float = 0.7 # 默认值
@app.post("/generate")
async def generate(request: PromptRequest):
# 构造对话消息
messages = [{"role": "user", "content": request.prompt}]
# 应用聊天模板
text = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
inputs = tokenizer(text, return_tensors="pt")
# 推理
start_gen = time.time()
with torch.no_grad():
outputs = model.generate(
inputs.input_ids,
max_new_tokens=request.max_tokens,
temperature=request.temperature,
do_sample=True
)
gen_time = time.time() - start_gen
# 解码并提取助手回复
full_response = tokenizer.decode(outputs[0], skip_special_tokens=True)
assistant_response = full_response.split("assistant")[-1].strip()
return {
"response": assistant_response,
"inference_time_seconds": round(gen_time, 2)
}
@app.get("/health")
def health_check():
return {"status": "ok", "model_loaded": True}
第3步:启动服务(2分钟)
在终端(确保已激活 ai_env)切换到 app.py 所在目录,然后执行:
bash
uvicorn app:app --reload --host 127.0.0.1 --port 8000
看到类似下面的输出就表示成功:
INFO: Uvicorn running on http://127.0.0.1:8000
INFO: Application startup complete.
保持这个终端窗口不要关闭,服务会一直运行。
第4步:测试 API(5分钟)
打开另一个终端 (或按 Ctrl+T 新建一个标签页),用下面任一方式测试:
方法一:用 curl 命令(推荐)
bash
curl -X POST "http://127.0.0.1:8000/generate" -H "Content-Type: application/json" -d "{\"prompt\":\"什么是深度学习?\"}"
方法二:用 Python 脚本测试
新建一个 test_api.py:
python
import requests
resp = requests.post("http://127.0.0.1:8000/generate", json={"prompt": "解释一下反向传播"})
print(resp.json()["response"])
运行后会打印模型回答。
如果一切正常,恭喜你,你已经拥有了一个本地 LLM API 服务!后续你可以把它集成到任何应用中。
遇到的问题
- api相关的那个代码不能在jupyter中执行,这里面不适合执行服务,单独放在一个py文件中,然后运行。
- 在运行服务过程中出现了"SyntaxError: (unicode error) 'utf-8' codec can't decode byte 0xd5 in position 0: invalid continuation byte"的问题,用文本文件打开,选择另存为,然后在下面的编码部分选择utf-8就好了。