python大模型训练(一)如何查看工具package版本

Python如何查看 版本

python 复制代码
pip show Flask Jinja2 MarkupSafe

一个可能错误的代码 local_api.py

python 复制代码
# app.py - 使用Flask部署模型
from flask import Flask, request, jsonify
from transformers import AutoTokenizer, AutoModelForSequenceClassification
import torch

app = Flask(__name__)

# 加载模型和分词器
model = AutoModelForSequenceClassification.from_pretrained("./checkpoint-best/")
tokenizer = AutoTokenizer.from_pretrained("./tokenizer/")
model.eval()

@app.route('/predict', methods=['POST'])
def predict():
    text = request.json.get('text', '')
    
    # 使用保存的分词器处理输入
    inputs = tokenizer(
        text,
        truncation=True,
        padding=True,
        max_length=512,
        return_tensors="pt"
    )
    
    # 推理
    with torch.no_grad():
        outputs = model(**inputs)
        predictions = torch.nn.functional.softmax(outputs.logits, dim=-1)
    
    return jsonify({
        'text': text,
        'predictions': predictions.tolist()[0],
        'label': torch.argmax(predictions, dim=-1).item()
    })

if __name__ == '__main__':
    app.run(host='0.0.0.0', port=5000)

模型有什么用

Transformer文件实战应用指南

===========================

场景一:模型推理部署

  1. 本地API服务部署

  2. 生产环境Docker部署

场景二:继续训练/微调

-------------------------------- 这里已经不用看了(即使是深入浅出的可爱老师,也可能有两个缺点,诗人都可能有缺点:一卖边角料;二个人不自觉习惯;)

场景三:模型蒸馏/压缩

场景四:多语言/跨域适配

场景五:构建批处理推理服务

场景六:A/B测试模型版本

场景七:模型监控和性能追踪

模型相关文件的后缀一般是什么

(记住,一个人列出了10个点,真的只有前2~3个点是有用的,能做一下排序就很好了)

在 Hugging Face Transformers 生态中,模型文件本身通常没有统一的"后缀",但根据保存格式和用途,常见的模型相关文件及其扩展名如下:


✅ 1. PyTorch 模型

  • 主模型文件pytorch_model.bin
    • 这是使用 model.save_pretrained() 保存的 PyTorch 模型权重文件。
    • 没有 .pt.pth 后缀 (尽管 PyTorch 通常用这些后缀),Hugging Face 约定使用 .bin

✅ 2. TensorFlow 模型

  • 主模型文件tf_model.h5
    • 使用 Keras/HDF5 格式保存的 TensorFlow 模型。
    • 后缀为 .h5

✅ 3. Flax/JAX 模型

  • 主模型文件flax_model.msgpack
    • 使用 MessagePack 格式序列化的 Flax 模型。
    • 后缀为 .msgpack

✅ 4. 分词器(Tokenizer)相关文件

这些通常与模型一起发布,常见文件包括:

  • tokenizer.json(现代分词器的主文件)
  • vocab.txt(BERT 类模型的词汇表)
  • merges.txt(BPE 分词所需的合并规则,如 GPT)
  • special_tokens_map.json
  • tokenizer_config.json

📌 注意:这些文件没有统一后缀代表"整个模型",而是由多个配置和权重文件组成。


✅ 5. 模型配置文件

  • config.json
    • 包含模型架构超参数(层数、隐藏层大小等),与框架无关。

✅ 6. 安全张量(推荐的新格式)

  • 文件名model.safetensors
    • 一种更安全、更快的权重存储格式(替代 .bin)。
    • 后缀为 .safetensors,正被越来越多的模型采用(如 Hugging Face 官方推荐)。
相关推荐
曲辕RPA5 分钟前
深度解析GEO技术及背后的机器人曲辕RPA
python·ai·自动化·rpa
2301_7644413312 分钟前
使用python构建的STAR实验ΛΛ̄自旋关联完整仿真
开发语言·python·算法
xifangge202517 分钟前
Python 爬虫实战:爬取豆瓣电影 Top250 数据并进行可视化分析
开发语言·爬虫·python
Flittly22 分钟前
【从零手写 ClaudeCode:learn-claude-code 项目实战笔记】(10)Team Protocols (团队协议)
笔记·python·ai·ai编程
阿_旭22 分钟前
基于YOLO26深度学习的蓝莓成熟度检测与分割系统【python源码+Pyqt5界面+数据集+训练代码】图像分割、人工智能
人工智能·python·深度学习·毕业设计·蓝莓成熟度检测
lxmyzzs25 分钟前
使用Python分析COCO数据集标注信息:一个简单脚本实现统计与可视化
python·深度学习·目标检测·计算机视觉
wertyuytrewm25 分钟前
自动化与脚本
jvm·数据库·python
qq_4176950531 分钟前
Python深度学习入门:TensorFlow 2.0/Keras实战
jvm·数据库·python
小程故事多_8032 分钟前
重构 RAG 质量标准,一套可落地、可量化的全维度评估框架
人工智能·重构·aigc·ai编程·rag
problc32 分钟前
在 OpenClaw 里一句话记账:消费说出来,账单自动进乖猫记账 App
开发语言·python