实验清华大模型和trtllm
Chatglm3
pip3 install tensorrt_llm -U --pre --extra-index-url https://pypi.nvidia.com
要安装git来下载仓库
使用这个chatglm的例子
安装依赖
用最新的glm3的model
然后开始转换model
官方写错了,这应该是个-,不是_,要注意
转换成功
开始编译引擎
trtllm-build --checkpoint_dir trt_ckpt/chatglm3_6b/fp16/1-gpu
--gemm_plugin float16
--output_dir trt_engines/chatglm3_6b/fp16/1-gpu
最后利用编译出来的引擎,进行推理,还是注意官方的_是错的,要改成-在chatglm3-6b
python3 .../run.py --input_text "What's new between ChatGLM3-6B and ChatGLM2-6B?"
--max_output_len 50
--tokenizer_dir chatglm3-6b
--engine_dir trt_engines/chatglm3_6b/fp16/1-gpu
成功输出了推理
然后换1个模型
我去https://huggingface.co/shenzhi-wang/Llama3-8B-Chinese-Chat下载了llama3的模型,然后用trtllm的转换脚本转成下面的模型
python3 convert_checkpoint.py --model_dir ./Llama3-8B-Chinese-Chat --output_dir llama-3-8b-ckpt
再把下载的模型编译成tensorrt-llm的engine
trtllm-build --checkpoint_dir llama-3-8b-ckpt
--gemm_plugin float16
--output_dir ./llama-3-8b-engine
然后运行tensorrt-llm的engine
python3 .../run.py --engine_dir ./llama-3-8b-engine --max_output_len 100 --tokenizer_dir ./Llama3-8B-Chinese-Chat --input_text "鲁迅打了周树人"
得到了结果是
您对TRT-LLM性能的满意程度为?
我觉得模型的性能很满意,版本是0.11.0.dev2024062500
您是否遇到配置问题或报错而不知道如何解决?如有,具体是什么问题?
没有遇到错误,github的作者很细心。
您对进一步提升TRT-LLM性能的有什么建议吗?
建议我是有的,我发现单一请求的时候是很快的,但是人多了访问就变慢了,可能并发的支持能力不行。这点不知道怎样可以改善一下,希望下个版本解决这个问题。