技术栈
ai部署
虎妞0500
5 天前
云原生
·
kubernetes
·
容器化
·
kubeflow
·
ai部署
云原生 AI 推理部署:Kubernetes 实战指南
大模型时代面临 GPU 管理、弹性扩缩容、多版本管理等挑战。Kubernetes 正是解决这些问题的答案。
Lrrrissss
10 天前
语音识别
·
ai部署
·
whisper模型
Whisper-large-v3语音识别效果评估:人工校验100条样本的准确率与召回率
部署说明:本文评测基于由by113小贝二次开发构建的Whisper-large-v3语音识别Web服务,该服务支持99种语言自动检测与转录,采用GPU加速推理。
金融先生-Frank
12 天前
大语言模型
·
ai部署
·
moe架构
Gemma-4-26B-A4B-it-GGUF镜像免配置:预置备份恢复脚本与模型版本灰度发布机制
Gemma-4-26B-A4B-it-GGUF 是 Google Gemma 4 系列中高性能、高效能的 MoE(混合专家)聊天模型,具备256K tokens的超长上下文处理能力,原生支持文本+图像多模态理解。该模型在开源模型全球排名第6(Arena Elo 1441),采用Apache 2.0协议可免费商用。
体制教科书
17 天前
向量数据库
·
ai部署
·
电商搜索
·
多模态重排序
Lychee多模态重排序模型企业实操:与Elasticsearch/FAISS向量库协同部署方案
想象一下,你是一家电商公司的技术负责人。用户在你的App里搜索“适合夏天穿的白色连衣裙”,传统的文本搜索可能会返回一堆包含“白色”、“连衣裙”、“夏天”关键词的商品。但用户真正想要的,可能是一件带有碎花图案、材质轻薄、设计清新的白色连衣裙。如何从海量商品中,精准地找到那张最符合用户“心中所想”的图片和描述?
凡狗蛋
2 个月前
视频检测
·
ai部署
·
gpu优化
VideoAgentTrek-ScreenFilter高算力适配:GPU显存优化与推理加速技巧
如果你正在使用VideoAgentTrek-ScreenFilter处理视频内容,可能会遇到这样的场景:上传一个30秒的视频,等待时间却长得让人失去耐心;或者同时处理多个视频时,系统直接提示显存不足。这背后,其实是模型推理效率与硬件资源之间的博弈。
Lucy-Fintech社区
2 个月前
大语言模型
·
gemma
·
ai部署
·
显存管理
Gemma-3-12b-it显存精细化管理实战:动态释放+缓存清理自动化脚本
如果你正在本地运行像Gemma-3-12b-it这样的大模型,可能已经遇到了一个头疼的问题:显存不够用。刚开始对话时一切正常,但随着对话轮次增加,或者处理了几张图片后,程序开始报错,提示显存不足,甚至直接崩溃。
偏偏无理取闹
2 个月前
大语言模型
·
ai部署
·
多语言对话
Llama-3.2-3B开箱体验:Ollama部署+多语言对话实测
Llama-3.2-3B是Meta最新推出的轻量级多语言大模型,专门针对对话场景进行了优化。这个3B参数的模型在保持较小体积的同时,提供了相当不错的文本生成能力,特别适合本地部署和快速响应场景。
爱分析
2 个月前
端口冲突
·
ai部署
·
clawdbot
ClawdBot部署教程:ClawdBot与Ollama共存时vLLM端口冲突解决方案
如果你正在本地部署AI助手,可能会遇到这样一个常见问题:同时运行ClawdBot和Ollama时,两个服务都试图使用相同的端口(默认8000端口),导致冲突无法正常启动。
无心水
5 个月前
docker
·
云原生
·
架构
·
神经风格迁移
·
docker容器化
·
ai部署
·
vgg算法
【神经风格迁移:工程化】27、神经风格迁移全栈进阶实战:Docker容器化与K8s部署,从单机到云原生
在当今的AI应用部署领域,容器化技术已成为标准实践。从传统的虚拟机到轻量级容器,再到如今云原生生态,部署方式的演进显著提升了神经风格迁移系统的可移植性、弹性伸缩和运维效率。本文将全面解析如何将我们构建的神经风格迁移系统从单机部署演进到云原生架构。
点云SLAM
1 年前
人工智能
·
pytorch
·
计算机视觉
·
tensorflow
·
深度学习框架
·
ai部署
·
ai环境平台
TensorFlow 和PyTorch的全方位对比和选择建议
下面是 TensorFlow 和 PyTorch 的全方位对比,涵盖底层架构、语法风格、动态图与静态图机制、部署支持、社区与生态、性能等多个维度,适合开发者、研究者与工程应用人员深入了解。
我是有底线的