AI学习:第2天

太好了,恭喜你成功迈出了第一步!现在你已经能用本地模型生成回答了。下一步,我们按计划进入第二天:把模型封装成 API 服务,这样你就可以像调用在线接口一样使用它,为后续做 RAG(检索增强生成)打下基础。

由于你用的是 ModelScope(魔塔),我会继续基于它来写 API 代码,保证你能直接复用。


第二天任务(约30-40分钟):用 FastAPI 封装模型

第1步:安装 FastAPI 和 uvicorn(2分钟)

ai_env 环境中执行:

bash 复制代码
pip install fastapi uvicorn

第2步:创建 app.py 文件(15分钟)

在你喜欢的目录(比如 C:\Users\Lenovo\ai_api)新建 app.py,写入以下内容:

python 复制代码
# app.py
from fastapi import FastAPI
from pydantic import BaseModel
from modelscope import AutoModelForCausalLM, AutoTokenizer
import torch
import time

# ---------- 全局加载模型(只加载一次,避免重复)----------
print("正在加载模型,请稍等...")
start = time.time()
model_id = 'qwen/Qwen2-0.5B-Instruct'
model = AutoModelForCausalLM.from_pretrained(model_id, trust_remote_code=True)
tokenizer = AutoTokenizer.from_pretrained(model_id, trust_remote_code=True)
print(f"模型加载完成,耗时 {time.time()-start:.2f} 秒")
# -------------------------------------------------

app = FastAPI()

# 定义请求体的数据结构
class PromptRequest(BaseModel):
    prompt: str
    max_tokens: int = 200      # 默认值
    temperature: float = 0.7   # 默认值

@app.post("/generate")
async def generate(request: PromptRequest):
    # 构造对话消息
    messages = [{"role": "user", "content": request.prompt}]
    # 应用聊天模板
    text = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
    inputs = tokenizer(text, return_tensors="pt")
    
    # 推理
    start_gen = time.time()
    with torch.no_grad():
        outputs = model.generate(
            inputs.input_ids,
            max_new_tokens=request.max_tokens,
            temperature=request.temperature,
            do_sample=True
        )
    gen_time = time.time() - start_gen
    
    # 解码并提取助手回复
    full_response = tokenizer.decode(outputs[0], skip_special_tokens=True)
    assistant_response = full_response.split("assistant")[-1].strip()
    
    return {
        "response": assistant_response,
        "inference_time_seconds": round(gen_time, 2)
    }

@app.get("/health")
def health_check():
    return {"status": "ok", "model_loaded": True}

第3步:启动服务(2分钟)

在终端(确保已激活 ai_env)切换到 app.py 所在目录,然后执行:

bash 复制代码
uvicorn app:app --reload --host 127.0.0.1 --port 8000

看到类似下面的输出就表示成功:

复制代码
INFO:     Uvicorn running on http://127.0.0.1:8000
INFO:     Application startup complete.

保持这个终端窗口不要关闭,服务会一直运行。

第4步:测试 API(5分钟)

打开另一个终端 (或按 Ctrl+T 新建一个标签页),用下面任一方式测试:

方法一:用 curl 命令(推荐)
bash 复制代码
curl -X POST "http://127.0.0.1:8000/generate" -H "Content-Type: application/json" -d "{\"prompt\":\"什么是深度学习?\"}"
方法二:用 Python 脚本测试

新建一个 test_api.py

python 复制代码
import requests
resp = requests.post("http://127.0.0.1:8000/generate", json={"prompt": "解释一下反向传播"})
print(resp.json()["response"])

运行后会打印模型回答。

如果一切正常,恭喜你,你已经拥有了一个本地 LLM API 服务!后续你可以把它集成到任何应用中。


遇到的问题

  1. api相关的那个代码不能在jupyter中执行,这里面不适合执行服务,单独放在一个py文件中,然后运行。
  2. 在运行服务过程中出现了"SyntaxError: (unicode error) 'utf-8' codec can't decode byte 0xd5 in position 0: invalid continuation byte"的问题,用文本文件打开,选择另存为,然后在下面的编码部分选择utf-8就好了。
相关推荐
冬奇Lab18 分钟前
每日一个开源项目(第140篇):AgentScope 2.0 - 阿里开源的生产级 Agent 框架
人工智能·开源·agent
冬奇Lab29 分钟前
Skill 系列(04):Skill 指标体系——L1/L2/L3 三层监控,让质量下降有据可查
人工智能·开源·llm
IT_陈寒2 小时前
Vite的静态资源打包让我熬夜到三点,这坑千万别跳
前端·人工智能·后端
玩转AI不是事2 小时前
用IndexedDB做AI对话离线缓存实战
人工智能
学测绘的小杨3 小时前
CompassFusion:一个从 GNSS 到 GNSS/INS 组合导航的独立工程包
python
Asize3 小时前
多模态生图:从 Vite 工程化到前端调用 Qwen Image
javascript·人工智能·后端
MobotStone3 小时前
AI项目越多,为什么越容易失控
人工智能·aigc
十有八七3 小时前
AI时代的置身X内
前端·人工智能
Lkstar3 小时前
A2A协议深度解析|Agent2Agent通信标准,智能体互联网的"HTTP"
人工智能·llm
百度Geek说3 小时前
当代码越来越便宜,什么在变贵?
人工智能