模型推理

百度智能云技术站21 天前
模型推理·deepseek·pd 分离·hpn
PD 分离推理的加速大招,百度智能云网络基础设施和通信组件的优化实践为了适应 PD 分离式推理部署架构,百度智能云从物理网络层面的「4us 端到端低时延」HPN 集群建设,到网络流量层面的设备配置和管理,再到通信组件和算子层面的优化,显著提升了上层推理服务的整体性能。
Nicolas8931 个月前
华为·信创·模型部署·昇腾·ascend·vllm·模型推理
【大模型实战篇】华为信创环境采用vllm部署QwQ-32B模型本文分享在华为昇腾机器上部署QwQ-32B模型的实践。首先华为自己是提供了一套在信创机器(NPU)上部署模型的方案【1】,但是部署之后,测试发现会有输出截断的现象。QwQ-32B本身是支持128k的最大上下文长度,定位可能是max-model-len的设置没有生效,但是华为的启动参数中只有maxSeqLen以及maxInputTokenLen参数,修改后也不奏效。
墨顿2 个月前
人工智能·深度学习·性能优化·模型推理
模型推理的性能优化架构原理: 云端推理依托分布式计算资源,采用微服务架构实现弹性扩展。核心组件包括API网关、负载均衡器和模型服务集群,通过Kubernetes实现自动扩缩容。典型场景如大规模推荐系统,需要处理高并发请求。
余胜辉5 个月前
人工智能·自然语言处理·cot·模型推理·教学应用
基于COT(Chain-of-Thought Prompt)的教学应用:如何通过思维链提示提升模型推理能力随着人工智能技术的快速发展,大型语言模型(LLMs)在自然语言处理领域展现出了强大的能力。然而,面对复杂的推理任务时,模型的表现往往不尽如人意,尤其是在需要多步逻辑推导的场景中。为了应对这一挑战,Chain-of-Thought Prompt COT技术应运而生。COT通过引导模型生成一系列中间推理步骤,将复杂问题分解为更易处理的子问题,从而显著提升模型的推理能力。
一颗小树x8 个月前
实例分割·目标检测与跟踪·旋转目标检测·模型推理·yolo11·关键点估计
YOLO11模型推理 | 目标检测与跟踪 | 实例分割 | 关键点估计 | OBB旋转目标检测本文分享YOLO11的模型推理,检测任务包括物体分类、目标检测与跟踪、实例分割 、关键点估计、旋转目标检测等。
loveisastory1 年前
bert·mindspore·模型训练·情绪识别·模型验证·模型推理·模型泛化
昇思25天学习打卡营第11天 | LLM原理和实践:基于MindSpore实现BERT对话情绪识别BERT全称是来自变换器的双向编码器表征量(Bidirectional Encoder Representations from Transformers),它是Google于2018年末开发并发布的一种新型语言模型。与BERT模型相似的预训练语言模型例如问答、命名实体识别、自然语言推理、文本分类等在许多自然语言处理任务中发挥着重要作用。模型是基于Transformer中的Encoder并加上双向的结构,因此一定要熟练掌握Transformer的Encoder的结构。
华为云开发者联盟1 年前
开发板·昇腾·华为云开发者联盟·模型推理
【AI应用开发全流程】使用AscendCL开发板完成模型推理本文分享自华为云社区《【昇腾开发全流程】AscendCL开发板模型推理》,作者:沉迷sk。学会如何安装配置华为云ModelArts、开发板Atlas 200I DK A2。 并打通一个Ascend910训练到Ascend310推理的全流程思路。
机器学习社区1 年前
深度学习·算法·大模型·llama·模型部署·模型微调·模型推理
用 LMDeploy 高效部署 Llama-3-8B,1.8倍vLLM推理效率节前,我们星球组织了一场算法岗技术&面试讨论会,邀请了一些互联网大厂朋友、参加社招和校招面试的同学,针对算法岗技术趋势、大模型落地项目经验分享、新手如何入门算法岗、该如何准备、面试常考点分享等热门话题进行了深入的讨论。