AI学习:第2天

太好了,恭喜你成功迈出了第一步!现在你已经能用本地模型生成回答了。下一步,我们按计划进入第二天:把模型封装成 API 服务,这样你就可以像调用在线接口一样使用它,为后续做 RAG(检索增强生成)打下基础。

由于你用的是 ModelScope(魔塔),我会继续基于它来写 API 代码,保证你能直接复用。


第二天任务(约30-40分钟):用 FastAPI 封装模型

第1步:安装 FastAPI 和 uvicorn(2分钟)

ai_env 环境中执行:

bash 复制代码
pip install fastapi uvicorn

第2步:创建 app.py 文件(15分钟)

在你喜欢的目录(比如 C:\Users\Lenovo\ai_api)新建 app.py,写入以下内容:

python 复制代码
# app.py
from fastapi import FastAPI
from pydantic import BaseModel
from modelscope import AutoModelForCausalLM, AutoTokenizer
import torch
import time

# ---------- 全局加载模型(只加载一次,避免重复)----------
print("正在加载模型,请稍等...")
start = time.time()
model_id = 'qwen/Qwen2-0.5B-Instruct'
model = AutoModelForCausalLM.from_pretrained(model_id, trust_remote_code=True)
tokenizer = AutoTokenizer.from_pretrained(model_id, trust_remote_code=True)
print(f"模型加载完成,耗时 {time.time()-start:.2f} 秒")
# -------------------------------------------------

app = FastAPI()

# 定义请求体的数据结构
class PromptRequest(BaseModel):
    prompt: str
    max_tokens: int = 200      # 默认值
    temperature: float = 0.7   # 默认值

@app.post("/generate")
async def generate(request: PromptRequest):
    # 构造对话消息
    messages = [{"role": "user", "content": request.prompt}]
    # 应用聊天模板
    text = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
    inputs = tokenizer(text, return_tensors="pt")
    
    # 推理
    start_gen = time.time()
    with torch.no_grad():
        outputs = model.generate(
            inputs.input_ids,
            max_new_tokens=request.max_tokens,
            temperature=request.temperature,
            do_sample=True
        )
    gen_time = time.time() - start_gen
    
    # 解码并提取助手回复
    full_response = tokenizer.decode(outputs[0], skip_special_tokens=True)
    assistant_response = full_response.split("assistant")[-1].strip()
    
    return {
        "response": assistant_response,
        "inference_time_seconds": round(gen_time, 2)
    }

@app.get("/health")
def health_check():
    return {"status": "ok", "model_loaded": True}

第3步:启动服务(2分钟)

在终端(确保已激活 ai_env)切换到 app.py 所在目录,然后执行:

bash 复制代码
uvicorn app:app --reload --host 127.0.0.1 --port 8000

看到类似下面的输出就表示成功:

复制代码
INFO:     Uvicorn running on http://127.0.0.1:8000
INFO:     Application startup complete.

保持这个终端窗口不要关闭,服务会一直运行。

第4步:测试 API(5分钟)

打开另一个终端 (或按 Ctrl+T 新建一个标签页),用下面任一方式测试:

方法一:用 curl 命令(推荐)
bash 复制代码
curl -X POST "http://127.0.0.1:8000/generate" -H "Content-Type: application/json" -d "{\"prompt\":\"什么是深度学习?\"}"
方法二:用 Python 脚本测试

新建一个 test_api.py

python 复制代码
import requests
resp = requests.post("http://127.0.0.1:8000/generate", json={"prompt": "解释一下反向传播"})
print(resp.json()["response"])

运行后会打印模型回答。

如果一切正常,恭喜你,你已经拥有了一个本地 LLM API 服务!后续你可以把它集成到任何应用中。


遇到的问题

  1. api相关的那个代码不能在jupyter中执行,这里面不适合执行服务,单独放在一个py文件中,然后运行。
  2. 在运行服务过程中出现了"SyntaxError: (unicode error) 'utf-8' codec can't decode byte 0xd5 in position 0: invalid continuation byte"的问题,用文本文件打开,选择另存为,然后在下面的编码部分选择utf-8就好了。
相关推荐
one_love_zfl1 小时前
Conllect-LLM:一个低代码 AI Agent 构建平台的设计与实现
人工智能·低代码
极光代码工作室1 小时前
基于深度学习的文本自动摘要系统
人工智能·python·深度学习·神经网络
z小猫不吃鱼1 小时前
09 语言模型训练目标:MLM、CLM、Seq2Seq LM 有什么区别?
人工智能·语言模型·自然语言处理
卡梅德生物科技小能手1 小时前
卡梅德生物科技深度解析LAG3(淋巴细胞活化基因3)
网络·人工智能·经验分享
糖果店的幽灵1 小时前
Claude Code 完全实战指南 - 第一章:安装配置与本地大模型
人工智能·claude
大鹏的NLP博客1 小时前
AI 正在改变软件工程:我的 AI 协同开发实践
人工智能·软件工程
大江东去浪淘尽千古风流人物1 小时前
【ACE-SLAM】场景坐标回归实时神经 SLAM:TriMLP 架构与隐式回环闭合
人工智能·神经网络·数据挖掘·回归·实时·slam·场景坐标回归
开源量化GO1 小时前
期货量化订不到行情:天勤合约代码与交易所符号写法
python·区块链
机汇五金_1 小时前
LED灯箱架的主要材质有哪些?各有什么特点?
python·材质