技术栈
性能优化
L、218
1 小时前
深度学习
·
性能优化
·
transformer
CANN ops-transformer 仓库详解:Transformer 算子的底层实现与性能优化
前面写了 40 多篇,提到 Transformer 的地方不少,但还没系统讲过 CANN 里专门为 Transformer 优化的算子库——ops-transformer。这个仓库里藏着大模型在昇腾 NPU 上跑得快的真正秘密:Flash Attention、Rotary Embedding、RMSNorm、SwiGLU,这些都是大模型的"基础设施算子"。
qq_28372005
4 小时前
数据库
·
性能优化
万字深度:Chroma 向量数据库全解析 — 核心原理、实战操作、性能优化与工程最佳实践
在大模型与检索增强生成(RAG)全面普及的今天,向量数据库已成为 AI 应用不可或缺的底层基础设施。传统关系型数据库擅长结构化数据与精确匹配,难以高效处理文本、图像、音频等高维向量的语义相似性检索;而专门面向向量存储与近似最近邻搜索(ANN)的向量数据库,能在毫秒级返回与查询语义最相关的结果,支撑智能问答、文档检索、推荐系统、多模态交互等核心场景。
心中有国也有家
5 小时前
人工智能
·
分布式
·
算法
·
性能优化
·
架构
·
paddlepaddle
PaddlePaddle 适配 NPU 的技术全解析——从算子接入到端到端性能优化
PaddlePaddle(飞桨)是百度开源的深度学习框架,它怎么在华为 NPU 上跑起来?核心是通过 Paddle 的自定义算子机制接入 CANN 算子库,并通过通信后端抽象支持 HCCL 和 hixl。这篇文章把这套适配技术拆开讲清楚。
50084
6 小时前
java
·
flutter
·
性能优化
·
electron
·
wpf
HCCL 集合通信编程:多卡协同的正确姿势
多卡训练和推理,核心是卡间通信。HCCL(Huawei Collective Communication Library)是昇腾的集合通信库,API 和 NCCL 兼容,但底层实现针对 HCCS 和 RoCE 做了优化。
50084
7 小时前
人工智能
·
深度学习
·
机器学习
·
性能优化
·
wpf
用 Ascend CL 从零写一个推理程序
前言用 PyTorch 推理很简单,但生产环境里经常需要更底层的控制——比如 C++ 服务、嵌入式设备、或者极致的性能优化。这时候就要用 Ascend CL(Compute Language)直接调用 NPU。
步步为营DotNet
10 小时前
性能优化
·
c#
·
.net
探秘.NET 11:C# 14 特性在后端性能优化中的深度应用
在后端开发领域,性能优化始终是提升应用竞争力的关键因素。随着.NET 11 的发布,C# 14 带来了一系列新特性,为后端性能优化开辟了新途径。这些特性不仅改进了代码结构,还在运行时性能上有显著提升。本文将深入剖析 C# 14 新特性在后端性能优化中的原理,通过实际代码演示其应用,对比优化前后的性能差异,并分享生产级的避坑经验。
TechMerger
1 天前
android
·
性能优化
Android 17 重磅重构!服役 20 年的 MessageQueue 迎来无锁改造,卡顿大幅优化!
在 Android 17 中,以 SDK 37 或更高版本为目标平台的应用将收到 MessageQueue 的新实现,该实现是无锁的。新实现可提高性能并减少丢帧,但可能会破坏反映 MessageQueue 私有字段和方法的客户端。
星辰徐哥
1 天前
人工智能
·
性能优化
AI性能优化:数据预处理加速
📝 本章学习目标:本章聚焦性能优化,帮助读者提升模型效率。通过本章学习,你将全面掌握"AI性能优化:数据预处理加速"这一核心主题。
ujainu
1 天前
性能优化
·
ascend
CANN pto-isa:PTO 性能优化的指令调度与硬件特化
个人主页:ujainu昇腾NPU 跑同一个 Transformer 模型,PTO 指令调度策略换一换,吞吐能差 3 倍。CANN 的 pto-isa 仓库定义了虚拟指令集规范,让同一套算子描述在不同硬件上映射成最优机器码。本文拆解这条从 PTO 指令到 NPU 执行的全链路。
jiayong23
1 天前
jvm
·
性能优化
JVM深度分析:性能优化实战指南
特点:所有JVM都支持,向后兼容特点:非标准化,不同JVM实现可能不同特点:高级选项,用于调优和调试原因:
青山师
1 天前
数据结构
·
数据库
·
b树
·
性能优化
·
b+树
·
索引优化
·
mysql性能
B+树与InnoDB索引深度解析:数据库索引的底层原理与工程实践
文章标签: #java #数据结构 #B+树 #MySQL #InnoDB #索引优化 #数据库首发地址 csdn 青山师 : https://blog.csdn.net/zixiao217 转载请注明出处!
waitingforloveJJ
1 天前
人工智能
·
计算机视觉
·
性能优化
计算机视觉算子库性能优化与实战
前言做YOLOv8推理优化时,图像预处理(Resize+Crop+Normalize)占Forward计算的42%。用ops-cv的Vision算子,吞吐从34 FPS涨到89 FPS,涨了162%。不是模型改了,是Vision算子针对达芬奇架构做了深度优化。
INFINI Labs
1 天前
elasticsearch
·
性能优化
·
分词
·
performance
·
easysearch
·
ik
Easysearch analysis-ik 多词典性能优化:从性能回退到分词性能提升 25%~30%
Easysearch 版 analysis-ik 相比开源 IK 有一个重要的增强:支持多词典。简单说就是不同字段可以挂不同词库,可以叠加默认词典,也可以只用自定义词典。这是开源单词典 IK 做不到的。
Runawayliquor
2 天前
深度学习
·
性能优化
·
交互
hcomm:昇腾集群通信的底层原语
HCCL 管着 AllReduce、AllGather 这些高层集合通信操作。这些操作最终拆解成最基本的通信原语——Send、Recv、Broadcast。hcomm 就是负责这些底层通信原语的仓库。
Hanniel
2 天前
开发语言
·
python
·
性能优化
Python __slots__ 入门指南
在 Python 中,我们习惯了对象的动态特性 —— 可以随时给实例添加新的属性。这非常灵活,但在处理大量数据对象时,这种灵活性会带来不小的内存开销。__slots__ 正是为了解决这个问题而生的强大工具。
50084
2 天前
java
·
人工智能
·
性能优化
·
ocr
·
wpf
Graph Engine 是什么,为什么需要它
训练或推理一个神经网络,底层发生了什么?框架层(PyTorch、MindSpore 等)定义好模型结构后,需要把计算图送到硬件上执行。早期的做法是逐个算子直接下发——卷积层调一次 kernel,BN 层再调一次 kernel,每层之间还要把中间结果写回显存。
放下华子我只抽RuiKe5
2 天前
前端
·
javascript
·
人工智能
·
react.js
·
性能优化
·
前端框架
·
github
React 从入门到生产(七):性能优化实战
创作者: Yardon | GitHub: github.com/YardonYan | 版本: v1.0
数据库小学妹
2 天前
mysql
·
性能优化
·
grafana
·
prometheus
·
dba
MySQL 性能监控实战:从零搭建 Prometheus + Grafana 监控告警体系(附排查 SOP)
📌 今日关键词:性能监控、PMM、Prometheus、Grafana、慢查询、告警、指标体系大家好,我是数据库小学妹 👋
电商API_18007905247
2 天前
数据库
·
人工智能
·
笔记
·
性能优化
·
数据挖掘
·
网络爬虫
反向海淘是什么?现状如何?未来趋势如何?
反向海淘(Reverse Cross-border E-commerce):传统海淘 = 中国人买海外货;反向海淘 = 海外消费者(华人 / 留学生 / 外国人)买中国货(淘宝 / 1688 / 京东等),通过代购、集运、直邮寄到国外。核心驱动:中国供应链强、性价比高、品类极多 + 海外华人刚需 + 跨境物流 / 支付成熟。
码云之上
3 天前
性能优化
·
架构
·
前端框架
万星入坞·其三:SDK 轻量组件如何优雅地"点亮"
在前两篇:我们分别拆解了壳层和子应用的设计。壳层是"坞",子应用是拥有独立路由段的"大星",但还有一种插件形态——它不占路由段,却既能提供纯逻辑能力(如鉴权守卫),又能渲染 UI 组件(如区域选择器)。这就是 SDK,星坞三层体系中的"小星"。