大模型应用

minhuan1 天前
人工智能·大模型应用·rtx 4090显存优化·模型分层加载·cpu offload优化
RTX 4090显存终极优化:模型分层加载、CPU Offload显存和内存动态置换实践.179大语言模型的显存占用,是所有优化的核心起点。对于搭载24GB显存的RTX 4090,我们首先要明确:模型本身、推理计算、中间张量、上下文窗口,是四大显存消耗源头,也是优化的核心靶向。
minhuan2 天前
人工智能·大模型应用·opencv人脸检测·deepface视觉识别·情绪健康识别
基于OpenCV人脸检测与DeepFace视觉识别实现情绪抓拍、数据分析智能研判系统.178由于长期深耕青少年心理健康相关工作,在日常情绪疏导、心理状态观测中积累了大量实践经验,深刻意识到青少年情绪细腻多变、外在表达含蓄,很难通过简单交流精准捕捉真实内心状态,情绪隐藏、瞬时情绪波动都是普遍现象,也给心理干预、日常疏导带来诸多难点。青少年情绪监测、课堂心理状态评估、日常心理疏导预警,都有着大量刚需落地场景。
minhuan3 天前
令牌桶算法·漏桶算法·大模型应用·大模型流量治理·限流算法应用
大模型应用两大经典限流算法:漏桶算法vs令牌桶算法铸就大模型流量治理基石.177限流算法是用于控制请求处理速率、保护服务资源的标准化算法,是所有流量管控策略的底层核心。在大模型服务中,算法的作用不再是简单限制请求数量,而是精准管控GPU 算力、显存占用、推理并发、Token 消耗,避免服务因流量过载崩溃。
minhuan4 天前
大模型应用·ai服务器运维·显卡驱动安装·rtx 4090应用
全新服务器大模型部署进阶:RTX 4090显卡驱动安装与模型运行容错适配指南.176前面我们已经完整讲过全新服务器从零搭建、部署运行大模型的全套流程,今天咱们就在这个基础上,继续往下做关键一步:给服务器配置独立显卡,打通 GPU 硬件加速能力。本次实操同样基于 openEuler 22.03 (LTS-SP4) 服务器系统,整体复盘带大家走完RTX 4090 独显适配全流程:从系统内核与发行版信息查看、硬件显卡识别,到禁用系统自带开源驱动、安装编译所需依赖,再到NVIDIA官方驱动编译部署、安装过程常见报错故障排查;驱动装好后,接着完成PyTorch GPU版本环境搭建、大模型AI框架依
minhuan5 天前
大模型应用·服务器环境部署实践·openeuler环境搭建·linux大模型完整构建·chatglm2大模型
新服务器从0到1完整部署实践:openEuler环境搭建ChatGLM2大模型完整流程.175玩过Linux服务器部署的都知道,这事特别熬人、格外劳心,尤其是碰上特定定制版本的Linux系统,各种环境兼容、配置坑点层出不穷,稍有不慎就卡死报错,出于习惯,每次部署一个环境,都是边部署边记录,好溯源产生问题的原因,避免总是在快完工时又推导重来;
minhuan6 天前
大模型应用·大模型gpu服务资源监控·chatglm3模型·大模型自动化巡检应用实践·模型监测核心指标
大模型GPU服务资源与性能监控:基于ChatGLM3模型的自动化巡检应用实践.174传统业务监控只关注接口响应、CPU内存、网络状态,完全适配不了大模型推理场景。大模型服务监控是面向推理全链路的专属可观测体系,覆盖请求接入、文本分词、模型前向计算、Token 生成、结果返回、资源释放全部环节。
.唉7 天前
大模型应用·longserve
07. LangServe 实战:一键将 LangChain 应用封装为高性能 API摘要: LangServe是LangChain官方推出的高性能服务框架,基于FastAPI构建,可一键将LangChain应用(如Agent、Chain)部署为RESTful API。通过add_routes自动生成接口与Swagger文档,支持同步调用(/invoke)和流式输出(/stream),同时保留FastAPI的灵活性,可添加认证(如Token验证)或自定义路由。适用于快速部署AI服务,尤其适合学生或开发者专注AI逻辑而无需手动封装接口。
千桐科技10 天前
插件化·dify·智能体·大模型应用·qknow·智能体构建平台·插件中心
qKnow 行业智能体构建平台应用中心插件化:技术选型、架构设计与实现路径随着企业智能化建设从单点能力供给转向系统化业务落地,qKnow专业版完成了整体架构的全面升级。新定位下,qKnow不再仅是知识能力平台,而是演进为面向行业深度场景的AI能力构建平台与解决方案孵化平台。全新架构在原有知识图谱、知识库基础上新增了Bot构建层(内含白盒化开发中心,支持Code‑Native代码构建任意态),强化了应用层(横向通用应用与纵向行业应用,采用“预置+持续迭代扩展”模式),并明确了解决方案层为战略目标。
minhuan15 天前
大模型应用·服务熔断设计·大模型限流计费·异常流量风控拦截·超限自动降配
大模型服务熔断限流计费联动:异常流量风控拦截与超限自动降配架构实践.165服务熔断是分布式架构与大模型推理服务中必备的故障隔离机制,类比电路中的保险丝设计逻辑。当底层大模型推理接口出现连续报错、响应超时、GPU显存溢出、服务进程卡死等问题时,熔断机制会主动切断流向故障节点的请求流量。
minhuan17 天前
人工智能·大模型应用·大模型服务进程保活·全自动故障自愈·大模型运维监控
构建高可用大模型应用架构:大模型服务进程保活 + 全自动故障自愈实践.163指通过技术手段持续监控大模型运行进程,确保模型服务不意外退出、不被系统杀死、不静默挂起,核心目标是维持模型服务的持续在线状态,是大模型提供稳定推理、训练服务的基础前提。
minhuan18 天前
大模型应用·大模型sse流式传输·心跳保活·断连重连·分片处理·长连接泄漏治理
SSE流式传输稳定性进阶:心跳保活、断连重连、分片处理与双端容错实战.162SSE,全称Server-Sent Events,即服务器推送事件,是基于HTTP长连接的单向流式传输协议,核心能力是服务器持续向客户端推送数据,无需客户端反复发起请求,天然适配大模型逐字流式输出场景。
Cc不爱吃洋葱18 天前
人工智能·elasticsearch·大模型·大语言模型·rag·ai工具·大模型应用
RAG最佳实践:用 ElasticSearch 打造AI搜索系统与RAG 应用全流程详解!今天这篇文章将介绍如何使用 Elasticsearch 搭建AI搜索系统和RAG应用系统。Elasticsearch 搭建 AI 搜索系统
Luca_kill19 天前
人工智能·智能体·大模型应用·ai架构·deerflow
深度解析 DeerFlow:字节跳动开源的长时程 AI 超级智能体架构在 2026 年的 AI 工程化浪潮中,字节跳动开源的 DeerFlow(Deep Exploration and Efficient Research Flow)成为了 SuperAgent 领域的标杆。它突破了传统 LLM 应用的对话局限,构建了一个能够处理分钟级到小时级复杂任务的长时程智能体框架。
minhuan19 天前
大模型应用·大模型请求超时控制·长请求分级超时·流式输出异常重试·退避重试
大模型超时控制与异常重试机制:分级超时、幂等重试、退避策略与雪崩防护.161大模型超时控制,是部署在客户端、应用服务层、网关层、模型推理服务层的多层级资源管控机制。指系统为单次大模型推理请求、会话连接、流式数据分片传输设定最大允许运行时长,当任务执行时长超出预设阈值时,系统主动触发强制中断逻辑,销毁当前请求链路、释放占用的网络连接、CPU线程、内存显存、推理队列等软硬件资源,杜绝请求无限阻塞、资源长期占用的问题。
minhuan25 天前
大模型应用·token原理·token核心基础·token精细化管控
深入解析Token节流机制:用户维度 + 场景维度 + 频率限制的大模型降本方案.155Token作为大模型计费、上下文窗口限制、推理性能评估的核心计量单位,直接关联企业采购费用、接口调用配额、服务稳定性三大关键指标。多数企业初期落地大模型应用时,仅关注功能实现,完全忽略Token消耗治理,最终出现非核心业务占用大量算力资源、个人高频测试消耗高额费用、恶意高频请求拖垮整体服务等一系列隐患。
xierui1231231 个月前
大数据·人工智能·效率工具·ai工具·大模型应用·aiagent·agent架构
探索型 AI 与交付型 AI:两种截然不同的技术物种这是我在过去一年高频使用各类 AI Agent 工具后的一个分类框架,或许能帮你少走一些弯路。很多人可能有过这样的体验:
竹之却1 个月前
架构·大模型应用·ai框架·openclaw
【Agent-阿程】OpenClaw智能体架构深度解析与实战应用在人工智能技术飞速发展的今天,智能体系统已经成为连接人类意图与复杂技术实现的关键桥梁。OpenClaw作为新一代的智能体开发框架,其架构设计融合了现代软件工程的最佳实践与人工智能的前沿技术,为开发者提供了构建高效、可扩展、可维护的智能体应用的完整解决方案。
小饕1 个月前
人工智能·rag·大模型应用
RAG 学习之-向量数据库与 FAISS 索引完全指南:从原理到选型实战摘要:本文系统讲解向量数据库的核心知识,涵盖 FAISS 索引类型、参数调优、主流向量数据库对比,以及按业务场景的选型指南。无论你是想快速搭建 RAG 原型,还是规划企业级向量检索系统,都能在这里找到答案。
minhuan1 个月前
rag·ai智能体·大模型应用·skill应用·rag+skill结合
轻量级RAG与SKILL架构深度融合:专属知识库驱动智能体精准知识匹配应用实践.138我们在做大模型落地时基本都有共识:光靠大模型本身很容易出现幻觉,回答不严谨、业务知识对不上,所以RAG检索增强生成几乎成了标配。但真正用起来同样会发现,传统RAG更像一个大一统知识库,把所有业务资料、文档、规则全都塞进一个向量库里,看似全面,实则问题一堆。知识多了之后检索混乱,客服话术和技术方案互相干扰,检索精度下降;更新一条业务规则就要重构整个库,维护成本极高;而且知识库和智能体能力绑死在一起,想加个新功能、改个问答逻辑都牵一发动全身。
liu****1 个月前
人工智能·python·langchain·大模型应用·本地部署大模型
LangChain-AI应用开发框架(七)目录一.核心组件(Components)二.消息(Messages)1.LLM消息结构2.LangChain消息