【vLLM 学习】Aqlm 示例

vLLM 是一款专为大语言模型推理加速而设计的框架,实现了 KV 缓存内存几乎零浪费,解决了内存管理瓶颈问题。

更多 vLLM 中文文档及教程可访问 →https://vllm.hyper.ai/

源代码:vllm-project/vllm

复制代码
from vllm import LLM, SamplingParams
from vllm.utils import FlexibleArgumentParser


def main():

    parser = FlexibleArgumentParser(description='AQLM examples')

    parser.add_argument('--model',
 '-m',
 type=str,
                        default=None,
 help='model path, as for HF')
    parser.add_argument('--choice',
 '-c',
 type=int,
                        default=0,
 help='known good models by index, [0-4]')
    parser.add_argument('--tensor-parallel-size',
 '-t',
 type=int,
                        default=1,
 help='tensor parallel size')

    args = parser.parse_args()

    models = [
 "ISTA-DASLab/Llama-2-7b-AQLM-2Bit-1x16-hf",
 "ISTA-DASLab/Llama-2-7b-AQLM-2Bit-2x8-hf",
 "ISTA-DASLab/Llama-2-13b-AQLM-2Bit-1x16-hf",
 "ISTA-DASLab/Mixtral-8x7b-AQLM-2Bit-1x16-hf",
 "BlackSamorez/TinyLlama-1_1B-Chat-v1_0-AQLM-2Bit-1x16-hf",
 ]

    model = LLM(args.model if args.model is not None else models[args.choice],
                tensor_parallel_size=args.tensor_parallel_size)

    sampling_params = SamplingParams(max_tokens=100, temperature=0)
    outputs = model.generate("Hello my name is",
                             sampling_params=sampling_params)
 print(outputs[0].outputs[0].text)


if __name__ == '__main__':
    main()
相关推荐
不剪发的Tony老师9 分钟前
字节跳动正式开源AI智能体开发平台Coze
人工智能·coze
love530love13 分钟前
Windows 如何更改 ModelScope 的模型下载缓存位置?
运维·人工智能·windows·python·缓存·modelscope
程序员良辰15 分钟前
URL与URI:互联网世界的“门牌号“与“身份证“
java·网络协议
ahauedu23 分钟前
Apache POI 依赖版本冲突导致 NoSuchFieldError: Factory 报错
java·maven·apache
GottdesKrieges36 分钟前
obd运维OceanBase数据库的常见场景
运维·数据库·oceanbase
悦悦子a啊38 分钟前
Python之--集合
开发语言·python·编程
运维帮手大橙子1 小时前
字符串缓冲区和正则表达式
java·开发语言
丶小鱼丶2 小时前
栈算法之【有效括号】
java·算法
慢慢沉2 小时前
Lua(数据库访问)
开发语言·数据库·lua
GISer_Jing2 小时前
50道JavaScript基础面试题:从基础到进阶
开发语言·javascript·ecmascript