昇思学习营-【模型推理和性能优化】学习心得_20250730

一、权重的加载

模型包含两部分:

base model 和 LoRA adapter

其中base model的权重在微调时被冻结,

推理时加载原权重即可,LoRA adapter可通过PeftModel.from_pretrained进行加载。

二、启动推理

通过model.generate,启动推理。

三、效果比较

"DeepSeek-R1",而在加载LoRA adapter之后,回答为"甄嬛"。

在微调多轮后的LoRA权重,在加载LoRA adapter之后,回答为"甄嬛"

在generate_kwargs中添加 repetition_penalty=1.2减少重复文本输出

四、性能测试

凡是在推理过程中涉及采样(do_sample=True)的案例,可以通过配置如下变量,

注释掉之前添加的同步模式代码,再运行代码,即可获取每个token的推理时长和平均时长。

export INFERENCE_TIME_RECORD=True

此时,从终端的运⾏⽇志可以看到,平均推理时间为0.727秒,

可通过禁用多线程将推理速度适当提升为平均单token推理时长0.674秒。

五、性能优化

通过上述禁用多线程的方式,可以适当减少平均单token的推理时长,但效果不明显。

在此基础上,还可以通过jit即时编译的方式进一步加速

jit即时编译通过jit修饰器修饰Python函数或者Python类的成员函数使其被编译成计算图,通过图优化等技术提高运行速度。

jit修饰器应该修饰模型decode的函数,但由于原代码将模型的logits计算、解码等过程整体封装成了一个

model.generate函数,不好进行优化,所以需要手动实现解码逻辑。

六、实操

6.1 访问云上Jupyter

6.1.1 点击"打开Jupyter在线编程"

6.1.2 选择如下红框中的来运行起来:

6.1.3 进入后,选择"应用实际"、"昇腾开发板"

6.1.4 进入后,选择"deepdeek-r1-distill-qwen-1.5b-jit.ipynb**"并运行它

七、代码的逻辑

7.1 每一步执行推理的时间都打印了出来,较之前有提升

7.2 运行结果

相关推荐
@小匠1 小时前
Read Frog:一款开源的 AI 驱动浏览器语言学习扩展
人工智能·学习
炽烈小老头7 小时前
【 每天学习一点算法 2026/04/12】x 的平方根
学习·算法
阿杰学AI7 小时前
AI核心知识115—大语言模型之 自监督学习(简洁且通俗易懂版)
人工智能·学习·ai·语言模型·aigc·监督学习·自监督学习
九英里路8 小时前
OS学习之路——动静态库制作与原理
linux·学习·操作系统·unix·进程·编译·动静态库
red_redemption9 小时前
自由学习记录(160)
学习
南無忘码至尊9 小时前
Unity学习90天-第2天-认识Unity生命周期函数并用 Update 控制物体移动,FixedUpdate 控制物理
学习·unity·游戏引擎
报错小能手9 小时前
ios开发方向——swift错误处理:do/try/catch、Result、throws
开发语言·学习·ios·swift
LX5677710 小时前
传统销售如何系统学习成为AI智能销售顾问?认证指南
人工智能·学习
做cv的小昊10 小时前
【TJU】应用统计学——第五周作业(3.1 假设检验的基本思想、3.2 单个正态总体参数的假设检验)
学习·线性代数·机器学习·数学建模·矩阵·概率论·tju
格鸰爱童话10 小时前
向AI学习项目技能(六)
java·人工智能·spring boot·python·学习