技术栈
大模型的多线程推理
minhuan
3 小时前
人工智能
·
资源隔离
·
大模型应用
·
大模型的多线程推理
大模型应用:大模型多线程推理:并发请求的处理与资源隔离实践.77
我们通常在做大模型应用处理时,常规单一请求的输入问题→等待模型返回→得到答案,一切都很顺畅,但如果有 10 个人、100 个人同时请求,就会出现我们经常遇到的并发问题,如果按先来后到的顺序串行处理,后面的人要等前面的人全部处理完才能得到响应,可能等几分钟甚至更久,体验极差。如果想让多个人同时得到响应,那么我们就要考虑并发机制,这就需要用到多线程推理,同时还要避免一个请求占用所有资源导致其他请求卡死的问题,这就是资源隔离。
我是有底线的