技术栈
推理
小北的AI科技分享
4 天前
模型
·
推理
·
搭建
AI大模型搭建,从入门到实践
近年来, 、Qwen等这类作为代表的开源大模型呈持续涌现态势, 越来越多的企业开始留意怎样把AI大模型切实“搭建”起来, 并且应用于日常业务里。然而, 从模型选择这一方面, 到硬件配置这一要点, 再到系统集成这一环节, 每一步均充斥着技术挑战以及决策难点。本文会以客观、专业的视角, 深入剖析AI大模型搭建的全流程, 给出精准的数据以及可操作的参考标准, 助力读者理清思路。
Together_CZ
5 天前
图像处理
·
人工智能
·
opencv
·
计算机视觉
·
llm
·
dnn
·
推理
OpenCV 5.0 重磅发布:全面技术深度解析
从 C++ API 现代化到 ONNX 原生支持,OpenCV 5 带来了十年来最大的架构变革OpenCV 迎来了具有里程碑意义的 5.0 版本,这是一次彻底的重构。过去的 DNN 模块在处理 Transformer 等现代模型时显得力不从心,为此新版本完全重写了推理引擎,将 ONNX 算子支持率从 23% 大幅提升至 80% 以上,并且原生支持大语言模型(LLM)和视觉语言模型(VLM)的推理。在性能方面,CPU 上的推理速度是 PyTorch 原生模式的 2.3 倍,GPU 上也提升了 1.8 倍,同
小北的AI科技分享
9 天前
部署
·
模型
·
推理
AI大模型搭建,从零开始的实战指南
时至今日, 人工智能技术飞一般地发展着, 大语言模型已然从实验室迈向千行百业, 不管是想要借助AI提升效率的企业, 还是渴望探索大模型潜力的个人开发者, 构建一套归属于自身的AI大模型系统都算是一项值得去掌握的核心技能, 本文会从硬件选型谈起再到软件部署, 为你整理出一套完整且能够落地的搭建流程。
一颗小树x
16 天前
加速
·
推理
·
vla
·
realtime-vla
《VLA 系列》复现 realtime-vla | 加速推理 | Triton后端
本文介绍了实时realtime-vla 的加速实现方案,通过Triton后端优化在RTX 4090/5090显卡上达到20-55ms的推理速度。
Mike_666
1 个月前
推流
·
推理
·
cpu推理
·
cpu推流
·
gpu推流
·
gpu推理
推流和推理什么区别
1. CPU 推流(软件编码) bash # 使用 CPU 软件编码 ffmpeg -i input.mp4 -c:v libx264 output.mp4 工作原理:CPU 执行 H.264 压缩算法,逐帧分析、运动估计、熵编码 优点:画质好、参数可调、兼容性高 缺点:CPU 占用极高,可能影响其他任务 适用场景:离线转码、对画质要求高的场景
AIDF2026
1 个月前
人工智能
·
深度学习
·
框架
·
推理
第六篇:实战出击——深度学习的“减脂”与“提速”
假设我们已经耗费了数千万美元,终于“炼”出了一个聪明的模型。那么,是不是直接把它插到服务器上就能用了呢?(嘿嘿,其实我们也就是在huggingface上下载了别人训练好的模型,实际花费1小时)
AIDF2026
2 个月前
运维
·
服务器
·
推理
·
vllm
我们看一份报告的时候主要看什么
这是使用vllm里面的压测脚本测试出来的数据,并发量分别为20和1在看数据前,先明确三个最关键的指标含义(主要看什么):
撞强
2 个月前
推理
·
temperature
·
top_k
·
top_p
模型推理、调用常用参数解释(temperature、top_k、top_p)
温度( temperature)影响词选择的随机性:较高的温度会增加选择不太可能词的概率,从而提高文本的多样性。较低的温度使模型的选择更加可预测。
nix.gnehc
2 个月前
llm
·
推理
·
vllm
·
sglang
大模型全流程入门解析——从理论基础到推理落地
大模型的落地并非孤立的“部署”或“推理”,而是一套完整的技术链路:从底层理论架构奠基,到训练框架完成模型训练,再到导出标准化模型文件,最终通过推理框架实现高效落地。本文将以入门视角,拆解“理论→训练→模型文件→推理框架”的核心逻辑、关键细节与关联关系,帮大家理清全流程脉络,避开选型与实操误区,尤其适合刚接触大模型的开发者。
小白狮ww
2 个月前
人工智能
·
自然语言处理
·
claude
·
通义千问
·
opus
·
推理
·
qwen3.5
Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled 蒸馏模型,27B 参数也能做强推理
在使用大模型时,我们常常会遇到诸多困扰:模型复杂问题推理能力不足、交互形式生硬、参数臃肿无法在消费级显卡运行,很难兼顾能力与落地实用性。
一颗小树x
2 个月前
机器人
·
微调训练
·
推理
·
复现
·
psi0
《VLA 系列》复现 Ψ₀ | Psi0 | 通用人形机器人 | 移动操作模型
本文介绍使用开源项目Psi0,微调训练Unitree G1人形机器人流程。开源地址:https://github.com/physical-superintelligence-lab/Psi0?tab=readme-ov-file#training-real
大数据AI人工智能培训专家培训讲师叶梓
3 个月前
人工智能
·
算法
·
大模型
·
推理
·
deepseek
·
openclaw
·
openclaw 讲师
120B 数学语料 + GRPO 算法,DeepSeekMath 刷新开源大模型推理天花板
数学推理一直是大模型的难点,复杂的逻辑结构和严谨的计算要求让很多模型望而却步。而 GPT-4、Gemini-Ultra 这类顶尖模型又不对外开放,开源模型的性能始终差一截。针对这个问题,来自 DeepSeek-AI、清华大学和北京大学的团队提出了 DeepSeekMath 大模型,通过高质量数据构建和优化的强化学习算法,让开源模型的数学推理能力追上了闭源巨头的水平。
小北的AI科技分享
4 个月前
推理
·
力
·
算
GPU服务器租用:从重资产到轻运营的算力变革
现今,人工智能技术的迭代速率相当惊人,不管是大型语言模型的推理,还是AIGC应用的迅猛发展,亦或是繁杂的科学计算,全都离不开强劲的算力支持。对绝大多数企业、开发者以及科研机构来讲,自行构建大规模GPU服务器集群不但意味着数额不小的前期资本投入,而且还面临着运维繁杂、弹性欠缺、技术迭代迅速致使资产贬值的多重风险。在这样的背景状况下,GPU服务器租用模式依靠其灵活性与经济性,正逐渐成为越来越多用户的优先选择。本文章进行深度探究GPU服务器租用的核心所具备的价值,并且以客观的视角剖析其关键的考量维度。
小北的AI科技分享
4 个月前
推理
·
力
·
算
国内边缘算力平台已整合超2000P资源
此刻,以大模型为典型代表的生成式人工智能技术正在对各个行业予以重新塑造。于这场技术变革当中,GPU算力作为核心的生产要素,其获取的方式以及使用的效率直接对AI应用的创新速度以及商业成本起到决定性作用。本文将会依据客观的数据,针对当前GPU算力市场的关键信息展开梳理,用以提供给决策作为参考。
小北的AI科技分享
4 个月前
应用
·
模型
·
推理
免费大模型API服务现状与技术指标深度解析
在近些年,伴随人工智能技术以极快速度发展,大语言模型也就是LLM,已然成了开发者社区以及企业用户所关注的重点。对好多期望去探索或者集成AI能力的团队来讲,得到稳定、低延迟并且成本能得到控制的大模型API服务,是达成业务创新的关键一步。当下,市场上出现了多种具有免费或者试用性质的大模型API服务,给开发者降低了技术门槛。本文会基于客观的视角,梳理当前免费大模型API服务的现状,还有技术特点,以及选择的时候需要关注的核心指标,并且提供专业的数据参考。
小北的AI科技分享
4 个月前
模型
·
调用
·
推理
大模型调用平台:架构原理与选型全解析
大模型调用平台:架构原理、关键指标与选型参考技术飞速发展,人工智能技术快速演进,大语言模型开始迈步,从实验室朝着千行百业的应用场景前行。不管是构建智能客服、或者用来辅助代码生成,还是要处理复杂的文本分析任务,开发者都无法避开一个核心环节,那就是怎样高效、稳定地调用大模型能力。这便引出了“大模型调用平台”这一关键基础设施。本文会从技术原理、核心性能指标、以及选型考量三个维度,为您深入剖析这一领域。
小北的AI科技分享
4 个月前
架构
·
模型
·
推理
大模型API调用指南:技术原理与实践测评
大模型API调用指南:从技术原理到实践测评今时今日,人工智能技术迅猛发展,大语言模型已深入各个行业的应用开发里。对开发者来讲,怎样高效且稳定地调用大模型 API,变成构建智能应用的关键要点所在了。有一篇文章,会围绕大模型 API 调用的技术要点、性能指标以及实际应用场景来展开分析,并且结合具体的服务商案例,给读者提供一份客观、专业的技术参考。
小北的AI科技分享
4 个月前
模型
·
推理
·
力
边缘云架构崛起,大模型推理延迟降至300ms以内
当前,处于主流地位的大模型服务平台主要被划分成了两大类,一类是由云厂商所提供的全栈式AI平台,另一类是着重于特定场景的模型服务商。前者通常整合了从底层的算力一直到上层应用的全链路能力,后者则更加偏向于模型的推理效率以及成本的优化。在技术架构方面,传统的中心化云计算模式于处理AI推理请求之际,往往会遭遇高延迟以及网络抖动的挑战,然而新兴的边缘云架构正逐渐变成提升用户体验的关键。
小北的AI科技分享
4 个月前
推理
·
力
·
算
AI算力进化论:2026年从堆芯片到拼系统的关键跨越
到了2026年,生成式人工智能已然深度嵌入了各个领域,这些领域涵盖从代码开发一直到药物研发。在这样的进程当中,AI算力已不再只是单纯的计算资源堆砌,而是演变成了一个复杂系统工程,这个工程包含异构芯片、分布式调度算法、边缘网络以及弹性供给机制。理解当前AI算力的技术形态,理解其供给模式,理解其成本结构,对于企业制定技术路线、控制运营预算具有现实参考意义。
小北的AI科技分享
4 个月前
架构
·
模型
·
推理
万亿参数时代:大语言模型的技术架构与演进趋势
大语言模型,即Large Model, LLM,一般是指那种基于海量文本数据来训练的,参数规模能达到数十亿甚至千亿级别的深度神经网络模型。自2017年架构出现以来,模型参数量呈现出指数级的增长。截止到2026年第一季度,主流开源模型的参数规模普遍分布在70亿至6700亿这个区间,部分商业模型已经突破了万亿参数。