端侧大模型

[特殊字符]手机端跑大模型的极限压榨术：深度解剖 MobileLLM-Flash 架构底牌📜 论文传送门：📱 起因：端侧大模型（On-Device LLMs）的“落地死局”过去几年，学术界每天都在吹嘘自己把大模型压缩到了多小（比如 1B、0.5B），但当工业界的工程师真要把这些模型塞进手机（Android/iOS）时，往往会面临崩溃：理论跑分极其牛逼，一上真机卡成 PPT。为什么？因为很多学术论文为了刷榜，发明了极其花哨、复杂的“特化注意力机制（Specialized Attention）”。这些机制在云端高端 Nvidia GPU 上跑得飞起，但当你要把它部署到手机 CPU 或移动端

MiniCPM-V 4.0开源，号称是手机上的GPT-4V目录前言一、“小钢炮”的逆袭：4B参数如何比肩云端巨头？二、告别“暖手宝”：为手机而生的极致效率三、最好的开源，是让你“开箱即用”：开发者的福音CookBook

前端大模型入门：使用Transformers.js手搓纯网页版RAG（二）- qwen1.5-0.5B - 纯前端不调接口书接上文，本文完了RAG的后半部分，在浏览器运行qwen1.5-0.5B实现了增强搜索全流程。但受限于浏览器和模型性能，仅适合于研究、离线和高隐私场景，但对前端小伙伴来说大模型也不是那么遥不可及了，附带全部代码，动手试试吧！纯前端，不适用第三方接口

神奇的代码在哪里

MiniCPM3-4B | 笔记本电脑运行端侧大模型OpenBMB/MiniCPM3-4B-GPTQ-Int4量化版 | PyCharm环境2024年9月5日，面壁智能发布了MiniCPM3-4B，面壁的测试结果声称MiniCPM3-4B表现超越 Phi-3.5-mini-instruct 和 GPT-3.5-Turbo-0125，并且能够比肩 Llama3.1-8B-Instruct、Qwen2-7B-Instruct、GLM-4-9B-Chat 等多个 7B-9B 参数量的模型。

LLM端侧部署系列 | 手机上运行47B大模型?上交推理框架PowerInfer-2助力AI手机端侧部署黄梅时节家家雨，青草池塘处处蛙。有约不来过夜半，闲敲棋子落灯花。当下，在移动设备上部署大型模型的趋势是愈演愈烈。Google推出了AI Core，使得Gemini Nano可以在智能手机上部署。此外，近期传闻苹果在iOS 18中整合了一个3B模型。端侧大模型的江湖，再次风起云涌。各种智能手机制造商也在探索在移动设备上部署大模型以增强数据隐私。然而，目前能在移动设备上运行的模型相对较小，且占用大量内存，这严重限制了大模型在端侧的应用场景。

我是有底线的