【vLLM 学习】Aqlm 示例

vLLM 是一款专为大语言模型推理加速而设计的框架,实现了 KV 缓存内存几乎零浪费,解决了内存管理瓶颈问题。

更多 vLLM 中文文档及教程可访问 →https://vllm.hyper.ai/

源代码:vllm-project/vllm

复制代码
from vllm import LLM, SamplingParams
from vllm.utils import FlexibleArgumentParser


def main():

    parser = FlexibleArgumentParser(description='AQLM examples')

    parser.add_argument('--model',
 '-m',
 type=str,
                        default=None,
 help='model path, as for HF')
    parser.add_argument('--choice',
 '-c',
 type=int,
                        default=0,
 help='known good models by index, [0-4]')
    parser.add_argument('--tensor-parallel-size',
 '-t',
 type=int,
                        default=1,
 help='tensor parallel size')

    args = parser.parse_args()

    models = [
 "ISTA-DASLab/Llama-2-7b-AQLM-2Bit-1x16-hf",
 "ISTA-DASLab/Llama-2-7b-AQLM-2Bit-2x8-hf",
 "ISTA-DASLab/Llama-2-13b-AQLM-2Bit-1x16-hf",
 "ISTA-DASLab/Mixtral-8x7b-AQLM-2Bit-1x16-hf",
 "BlackSamorez/TinyLlama-1_1B-Chat-v1_0-AQLM-2Bit-1x16-hf",
 ]

    model = LLM(args.model if args.model is not None else models[args.choice],
                tensor_parallel_size=args.tensor_parallel_size)

    sampling_params = SamplingParams(max_tokens=100, temperature=0)
    outputs = model.generate("Hello my name is",
                             sampling_params=sampling_params)
 print(outputs[0].outputs[0].text)


if __name__ == '__main__':
    main()
相关推荐
NotFound48613 小时前
CSS如何利用Flex实现悬浮的侧边按钮组_利用fixed定位与flex布局组合
jvm·数据库·python
神の愛13 小时前
@Pattern,@NotBlank
数据库·mysql
上海锝秉工控13 小时前
总线编码器:工业自动化的“智慧神经”
大数据·人工智能·自动化
海海不掉头发13 小时前
小白入门大模型强化学习博客
人工智能
信创DevOps先锋13 小时前
2025项目管理工具生态革命:AI重构协作边界与国产化崛起
人工智能·重构
qq_1898070313 小时前
Golang怎么实现RBAC权限控制_Golang如何用casbin实现基于角色的访问控制系统【教程】
jvm·数据库·python
vegetablec13 小时前
CSS如何处理相对定位留下的原本占位空白_认识到相对定位不会脱离文档流,需借助负margin消除视觉空隙
jvm·数据库·python
互联网科技看点13 小时前
AtlasX Protocol 获 200 万美元种子轮融资
大数据·人工智能·区块链
zhimingwen13 小时前
初探 Java 後端開發:解決 macOS 環境下 Spring Boot 項目啟動的各類「坑」
java·spring boot
2401_8326355813 小时前
HTML怎么创建响应式图片备选方案_HTML srcset与sizes结构【详解】
jvm·数据库·python