技术栈
推理
J_Xiong0117
2 天前
人工智能
·
ai agent
·
推理
【Agents篇】04:Agent 的推理能力——思维链与自我反思
🔖 系列文章:本文是 Agents 系列的第四篇,深入探讨 AI Agent 的核心推理能力🏷️ 标签:LLM Agent 推理 Chain-of-Thought ReAct Reflexion
小北的AI科技分享
3 天前
模型
·
推理
·
边缘
边缘云AI大模型API服务:低延迟高安全赋能应用
AI大模型,作为人工智能领域所取得的关键成果,正以一种前所未有的态势,深刻改变着我们的生活、方式,以及工作方式。在AI大模型的众多应用形式里,基于边缘云架构的大语言模型API服务占据着重要地位。它是大模型应用中的一种形式,一种极为首要的表现形式,具备诸多杰出而突出的优势。
TGITCIC
7 天前
数据库
·
ai大模型
·
推理
·
ai搜索
·
大模型ai
·
rag增强检索
·
ai检索
丢掉向量数据库!推理型 RAG 正在重新定义长文档问答的准确边界
在大模型应用落地的浪潮中,RAG(检索增强生成)一度被视为解决知识幻觉、提升事实准确性的“银弹”。然而,当开发者真正将 RAG 投入企业级场景——比如解析一份 300 页的 SEC 财报、一份技术标准文档或一本法律汇编时,理想与现实之间的鸿沟便迅速显现。我们反复调整 chunk 大小、重叠窗口、嵌入模型版本,甚至尝试多层 rerank,但模型依然会在关键数据上“张冠李戴”,或在看似合理实则错误的语境中给出误导性答案。问题根源并不在于工程调优不足,而在于方法论本身:传统 RAG 将“语义相似”等同于“信息相
PenguinLeee
1 个月前
llm
·
大语言模型
·
推理
LLM推理或者思考的一些本质性问题
原文为Denny Zhou(Google Deepmind负责人)在Stanford为CS25课程做的一个报告。这篇博客是其笔记。
Yeliang Wu
2 个月前
ubuntu
·
调优
·
推理
·
vllm
vLLM调优:从原理到Ubuntu 22.04实践
作者:吴业亮 博客:wuyeliang.blog.csdn.netvLLM是由UC伯克利等机构开发的高性能LLM推理/服务框架,核心优势是超高吞吐、低延迟、显存利用率高,其性能优势源于核心技术创新,调优也需围绕这些核心机制展开。本文将从原理入手,逐步讲解Ubuntu 22.04下的vLLM环境搭建、全维度调优策略及实战案例。
linzm14
2 个月前
大模型
·
推理
·
nano-vllm
Nano-vLLM-Ascend
参考 https://github.com/linzm1007/nano-vllm-ascendnano-vllm是开源的一个gpu推理项目,基于开源版本弄的一个ascend npu版本推理小demo,旨在帮助初学者了解推理的整体流程,区别于vllm,nano-vllm体量更小,麻雀虽小五脏俱全,更有助于初学者学习。
tiger119
2 个月前
人工智能
·
llm
·
推理
·
moe
·
decode
·
deepseek
·
prefill
DeepSeek V3.1 的推理解析
之前仔细学习过大模型的推理解析,但只是针对通用的早期大模型,并没有针对目前流行的MoE的在模型的推理进行解析。比如:DeepSeek。也就是针对通用的早期Transformer架构进行了学习。
plmm烟酒僧
2 个月前
开发语言
·
python
·
yolo
·
tensorrt
·
runtime
·
推理
TensorRT 推理 YOLO Demo 分享 (Python)
TensorRT 8.6.1;CUDA 11.8;cuDNN 8.6.0;Python:3.11;pytorch-cuda:11.8
plmm烟酒僧
2 个月前
图像处理
·
人工智能
·
python
·
yolo
·
openvino
·
runtime
·
推理
OpenVINO 推理 YOLO Demo 分享 (Python)
OpenVINO 2025.3;Python:3.11;1、YOLOv5 以后的新模型都可以正常推理,可以通用(只要是模型输出的数据定义不变即可),框架是按YOLOv13写的,模型使用yolov12s.pt;
Felven
3 个月前
gpu
·
推理
·
mr50
·
天数
天数智芯MR50推理卡测试
图1是一只虎猫(tiger cat)。我们通过resnet18模型的resnet18.onnx(onnx是一种跨平台的通用模型文件格式),来对这张图片进行推理最终得到这张图片是什么动物。
一个处女座的程序猿
3 个月前
llm
·
部署
·
压测
·
负载
·
推理
·
guidellm
LLMs之Deployment:guidellm的简介、安装和使用方法、案例应用之详细攻略
LLMs之Deployment:guidellm的简介、安装和使用方法、案例应用之详细攻略目录guidellm的简介
dundunmm
5 个月前
人工智能
·
大模型
·
硬件
·
软件
·
训练
·
推理
【每天一个知识点】训推一体机
训推一体机一般指 集“模型训练(Training)+ 推理部署(Inference Serving/推理服务)”于一体的智能计算设备。这种一体机的设计思路是,把 AI 模型从研发到应用的全过程(数据准备 → 训练 → 验证 → 部署 → 推理)都封装在一台硬件平台里,便于企业、科研机构或高校快速落地 AI 应用。
shao918516
6 个月前
人工智能
·
推理
·
hf inference
·
inferenceclient
·
text_to_image
·
chat_completion
Gradio全解10——Streaming:流式传输的多模态应用(3)——HF Inference:在服务器运行推理
在学习更高级聊天机器人示例之前,需要先学习一下要用到的两个知识点:HF Inference和ZeroGPU。本节学习HF Inference,推理(Inference)是指使用训练好的模型对新数据进行预测的过程。由于该过程可能涉及大量计算,所以最好运行在专用服务或外部服务上。关于在服务上运行推理请参阅HuggingFace说明文档: Run Inference on servers🖇️链接10-6。
SunStriKE
9 个月前
llm
·
源码阅读
·
推理
SgLang代码细读-3. Cache
因为kv cache有MHA,MLA,DoubleSparse 等多种自定义类型,需要进行一步抽象将框架和cache类型做隔离, 所以有了2级内存池的设计. 一级保存和cache类型无关的数据(token位置),跟具体业务隔离,二级给出抽象类接口, 不同的cache类型按需继承实现interface, 就能通过配置来进行管理.
小草cys
9 个月前
分布式
·
部署
·
推理
·
deepseek
EXO分布式部署deepseek r1
EXO 是一个支持分布式 AI 计算的框架,可以用于在多个设备(包括 Mac Studio)上运行大语言模型(LLM)。以下是联调 Mac Studio 512GB 的步骤:
SunStriKE
9 个月前
深度学习
·
llm
·
源码阅读
·
推理
SgLang代码细读-2.forward过程
Forward的主要过程围绕着 run_batch->TPModelWorker->ModelRunner->Model->layer->AttentionBackend->process_batch_result 这个链条展开
SunStriKE
9 个月前
llm
·
推理
SgLang代码细读-1.从req到batch
sglang/python/sglang/srt/entrypoints/http_server.py launch_server 主要分4个步骤:
文慧的科技江湖
9 个月前
人工智能
·
开源
·
储能
·
训练
·
光伏
·
推理
图文结合 - 光伏系统产品设计PRD文档 -(慧哥)慧知开源充电桩平台
版本号:1.0 修订日期:2023年10月 作者:功能描述:实时采集并展示电站运行数据
OpenBayes
10 个月前
人工智能
·
深度学习
·
数据集
·
llama
·
视频生成
·
推理
·
蛋白质突变
OpenBayes 一周速览|1分钟生成完整音乐,DiffRhythm人声伴奏一键搞定; Stable Virtual Camera重塑3D视频创作
5 个数据集:* 302 例罕见病病例数据集* DRfold2 RNA 结构测试数据集* NaturalReasoning 自然推理数据集
文慧的科技江湖
10 个月前
人工智能
·
架构
·
开源
·
训练
·
推理
AI平台如何实现推理?数算岛是一个开源的AI平台(主要用于管理和调度分布式AI训练和推理任务。)
数算岛是一个开源的AI平台,主要用于管理和调度分布式AI训练和推理任务。它基于Kubernetes构建,支持多种深度学习框架(如TensorFlow、PyTorch等)。以下是数算岛实现模型推理的核心原理、架构及具体实现步骤: