trtllm 部署新体验

实验清华大模型和trtllm

Chatglm3

pip3 install tensorrt_llm -U --pre --extra-index-url https://pypi.nvidia.com

要安装git来下载仓库

使用这个chatglm的例子

安装依赖

用最新的glm3的model

然后开始转换model

官方写错了,这应该是个-,不是_,要注意

转换成功

开始编译引擎

trtllm-build --checkpoint_dir trt_ckpt/chatglm3_6b/fp16/1-gpu

--gemm_plugin float16

--output_dir trt_engines/chatglm3_6b/fp16/1-gpu

最后利用编译出来的引擎,进行推理,还是注意官方的_是错的,要改成-在chatglm3-6b

python3 .../run.py --input_text "What's new between ChatGLM3-6B and ChatGLM2-6B?"

--max_output_len 50

--tokenizer_dir chatglm3-6b

--engine_dir trt_engines/chatglm3_6b/fp16/1-gpu

成功输出了推理

然后换1个模型

我去https://huggingface.co/shenzhi-wang/Llama3-8B-Chinese-Chat下载了llama3的模型,然后用trtllm的转换脚本转成下面的模型

python3 convert_checkpoint.py --model_dir ./Llama3-8B-Chinese-Chat --output_dir llama-3-8b-ckpt

再把下载的模型编译成tensorrt-llm的engine

trtllm-build --checkpoint_dir llama-3-8b-ckpt

--gemm_plugin float16

--output_dir ./llama-3-8b-engine

然后运行tensorrt-llm的engine

python3 .../run.py --engine_dir ./llama-3-8b-engine --max_output_len 100 --tokenizer_dir ./Llama3-8B-Chinese-Chat --input_text "鲁迅打了周树人"

得到了结果是

您对TRT-LLM性能的满意程度为?

我觉得模型的性能很满意,版本是0.11.0.dev2024062500

您是否遇到配置问题或报错而不知道如何解决?如有,具体是什么问题?

没有遇到错误,github的作者很细心。

您对进一步提升TRT-LLM性能的有什么建议吗?

建议我是有的,我发现单一请求的时候是很快的,但是人多了访问就变慢了,可能并发的支持能力不行。这点不知道怎样可以改善一下,希望下个版本解决这个问题。

相关推荐
Tech Synapse14 分钟前
端到端自动驾驶系统实战指南:从Comma.ai架构到PyTorch部署
人工智能·pytorch·自动驾驶·carla·end-to-end
珂朵莉MM19 分钟前
2023 睿抗机器人开发者大赛CAIP-编程技能赛-本科组(国赛) 解题报告 | 珂学家
人工智能·算法·职场和发展·深度优先·图论
闭月之泪舞19 分钟前
OpenCv高阶(十五)——EigenFace人脸识别
人工智能·opencv·计算机视觉
追光天使43 分钟前
如何利用 Conda 安装 Pytorch 教程 ?
人工智能·pytorch·conda
鸭鸭鸭进京赶烤44 分钟前
第九届电子信息技术与计算机工程国际学术会议(EITCE 2025)
人工智能·计算机视觉·ai·云计算·aigc·mybatis·制造
LabVIEW开发44 分钟前
LabVIEW下AI开发
人工智能·labview
视觉&物联智能1 小时前
【杂谈】-智领安全新篇:人工智能驱动现代物理安全防护体系
人工智能·深度学习·安全·aigc·agi
IT古董1 小时前
【漫话机器学习系列】265.普拉托变换的相关问题(Issues With Platt Scaling)
人工智能·机器学习·issue
jndingxin1 小时前
OpenCV CUDA模块图像特征检测与描述------图像中快速检测特征点类cv::cuda::FastFeatureDetector
人工智能·opencv·计算机视觉
大模型铲屎官1 小时前
【Python-Day 16】代码复用基石:详解 Python 函数的定义与调用
开发语言·人工智能·pytorch·python·深度学习·大模型·函数