python大模型训练（一）如何查看工具package版本

Python如何查看版本

python 复制代码

pip show Flask Jinja2 MarkupSafe

一个可能错误的代码 local_api.py

python 复制代码

# app.py - 使用Flask部署模型
from flask import Flask, request, jsonify
from transformers import AutoTokenizer, AutoModelForSequenceClassification
import torch

app = Flask(__name__)

# 加载模型和分词器
model = AutoModelForSequenceClassification.from_pretrained("./checkpoint-best/")
tokenizer = AutoTokenizer.from_pretrained("./tokenizer/")
model.eval()

@app.route('/predict', methods=['POST'])
def predict():
    text = request.json.get('text', '')
    
    # 使用保存的分词器处理输入
    inputs = tokenizer(
        text,
        truncation=True,
        padding=True,
        max_length=512,
        return_tensors="pt"
    )
    
    # 推理
    with torch.no_grad():
        outputs = model(**inputs)
        predictions = torch.nn.functional.softmax(outputs.logits, dim=-1)
    
    return jsonify({
        'text': text,
        'predictions': predictions.tolist()[0],
        'label': torch.argmax(predictions, dim=-1).item()
    })

if __name__ == '__main__':
    app.run(host='0.0.0.0', port=5000)

模型有什么用

Transformer文件实战应用指南

===========================

场景一：模型推理部署

本地API服务部署
生产环境Docker部署

场景二：继续训练/微调

-------------------------------- 这里已经不用看了（即使是深入浅出的可爱老师，也可能有两个缺点，诗人都可能有缺点：一卖边角料；二个人不自觉习惯；）

场景三：模型蒸馏/压缩

场景四：多语言/跨域适配

场景五：构建批处理推理服务

场景六：A/B测试模型版本

场景七：模型监控和性能追踪

模型相关文件的后缀一般是什么

（记住，一个人列出了10个点，真的只有前2~3个点是有用的，能做一下排序就很好了）

在 Hugging Face Transformers 生态中，模型文件本身通常没有统一的"后缀"，但根据保存格式和用途，常见的模型相关文件及其扩展名如下：

✅ 1. PyTorch 模型

主模型文件 ：pytorch_model.bin
- 这是使用 model.save_pretrained() 保存的 PyTorch 模型权重文件。
- 没有 .pt 或 .pth 后缀 （尽管 PyTorch 通常用这些后缀），Hugging Face 约定使用 .bin。

✅ 2. TensorFlow 模型

主模型文件 ：tf_model.h5
- 使用 Keras/HDF5 格式保存的 TensorFlow 模型。
- 后缀为 .h5。

✅ 3. Flax/JAX 模型

主模型文件 ：flax_model.msgpack
- 使用 MessagePack 格式序列化的 Flax 模型。
- 后缀为 .msgpack。

✅ 4. 分词器（Tokenizer）相关文件

这些通常与模型一起发布，常见文件包括：

tokenizer.json（现代分词器的主文件）
vocab.txt（BERT 类模型的词汇表）
merges.txt（BPE 分词所需的合并规则，如 GPT）
special_tokens_map.json
tokenizer_config.json

📌 注意：这些文件没有统一后缀代表"整个模型"，而是由多个配置和权重文件组成。

✅ 5. 模型配置文件

config.json
- 包含模型架构超参数（层数、隐藏层大小等），与框架无关。

✅ 6. 安全张量（推荐的新格式）

文件名 ：model.safetensors
- 一种更安全、更快的权重存储格式（替代 .bin）。
- 后缀为 .safetensors，正被越来越多的模型采用（如 Hugging Face 官方推荐）。