技术栈
flash-attention
love530love
12 天前
人工智能
·
windows
·
ui
·
llama
·
flash-attention
·
switch-cuda
冷门干货!llama.cpp 自带原生网页聊天 UI,无需第三方依赖一键开启
很多本地大模型玩家,都不知道新版llama.cpp自带原生网页聊天服务,不用部署Python、不用装额外WebUI,纯原生启动,占用低、速度快,还能局域网共享,手机、平板、其他电脑都能无缝访问。本篇就用最简命令+完整避坑步骤,手把手教你开启。
love530love
2 个月前
人工智能
·
windows
·
python
·
flash_attn
·
flash-attn
·
flash-attention
·
定制编译
【高阶编译】Windows 环境下强制编译 Flash Attention:绕过 CUDA 版本不匹配高阶指南
你需要为博客写一段 Flash Attention 的简介,我会兼顾通俗性和专业性,既让非技术读者理解核心价值,也让技术读者get到关键亮点,适合放在博客开篇或核心概念解读部分:
weixin_66009678
2 个月前
python
·
flash-attention
flash-attention总是安装失败
大家有时候在执行下面命令安装flash-attention的时候经常会报错遇到这种情况,可以从源码进行安装
love530love
3 个月前
人工智能
·
windows
·
笔记
·
编译
·
flash_attn
·
flash-attn
·
flash-attention
Windows 11 下再次成功本地编译 Flash-Attention 2.8.3 并生成自定义 Wheel(RTX 3090 sm_86 专属版)
发布时间:2025年12月29日Flash Attention 2.6.3 在 Windows 上编译成功复盘笔记
我是有底线的