用户用部署在手机上的ai模型都做些什么

PocketPal AI

模型（含量化/大小）	应用
Qwen3.5-0.8B q8_0 GGUF ≈ 800MB	写日记/续写，关键词归类；医疗记录离线摘要
Gemma 4 E2B（Unsloth Dynamic 2.0 GGUF，约1.5-2GB） + 多模态投影文件	日常问答、私人文档交互图片+文档分析
Qwen 1.5B / 1.8B Q4量化（Qwen2.5系，.gguf，0.8-2GB档）	论文初稿段落写作------背景段/问题提出/方法说明的起草与扩写，调Context 768-1024、Temp 0.6；总结/提纲/段落扩写
腾讯混元 HY-MT1.5 1.8B Q4_K_M GGUF ≈ 1.13GB（翻译专用模型）	离线翻译机 ------中英+藏/维/蒙/哈/粤语33种语言互译，术语表控制，格式保留，替代付费翻译API
Qwen3-0.6B Q4_K_M GGUF（起步档）	离线对话、简单创作（给开头续写200字故事）、编程（生成完整HTML+CSS网页代码）、数学推理（鸡兔同笼类分步求解）------阿里云官方教程在8GB Android上测的三项基础任务
小米 Mimo-7B 量化版（社区GGUF，PocketPal的Add From Hugging Face→搜Mimo→下载）	完全断网场景：生存问答（迷路后问"怎么钻木取火"，模型逐字输出步骤）------证明小型模型+本地="无视环境随时随地"
Danube 3 / Gemma 2B / Phi / Qwen系 GGUF 1-3B（Gallery预置一键下载）	全程离线：导航辅助、文化问答、信息查询
Gemma 2B / Llama 3.2 3B Q4_K_M / Qwen2.5 3B Q4（5-10秒加载，生成25-35 tok/s掉到发热后10以下）	翻译/摘要（最实用的实际场景）、离线聊天（比Siri强有限）、写代码辅助鸡肋，屏幕小+质量差、不想上传云端的私人对话------最大价值点=c私密

MLC Chat

模型（含格式）	应用
gemma-2-2b（MLC编译格式，约1GB级）	推荐景点+安排行程（会追问预算/天数）、中英翻译；同时记录了幻觉（高雄推了台南安平国小，华府与台湾时差答错）
Qwen3 1.7B（MLC编译格式） on Snapdragon 8 Elite	~40 tok/s via Hexagon NPU：纯离线聊天/轻量查询 demo，速度标杆
Phi-4 Mini / Gemma 3 1B / Llama 3.2 1B（MLC编译格式精选库）**	离线对话、翻译、轻量任务；首次运行需GPU编译5-15min
Phi-2 / Gemma 2B / Llama-3 8B / Mistral 7B（MLC格式下拉列表）**	实测结论：Gemma 2B试水，"想当生产力工具还是算了吧"；8B能选但很慢

LLM Farm

模型（GGUF）	应用
Mistral-7B-Instruct-v0.1-Q4_K_M.gguf ≈ 4.11GB	iPad/iPhone ≥8GB RAM，关Wi-Fi全离线验证对话；质量类比ChatGPT 3.5；初始加载慢但交互后快
gemma-4-2b-q4_k_m.gguf ≈ 1.5GB	iPhone 15 Pro ~10-15 tok/s：聊天、写东西、离线问答，走完App Store→导入→聊天的完整链路
Phi-3 Mini（2.2GB Q4）/ Llama 3.2 1B（1.1GB Q4）	离线对话、JSON配参（temp/top_p/mirostat/context_length）；Apple Shortcuts集成可用

ChatterUI

模型（GGUF，用户自导）	应用
Llama 3 / Mistral系 GGUF（按RAM阶梯：4GB机→1.3B Q4，6GB→3B，8GB+→7B）	角色扮演/故事创作 ------走Character Card v2规范（每角色独立history+system prompt+采样参数）；隐私敏感对话；语言学习跟"教师角色"练对话
LFM2-2.6B-Exp GGUF / LFM2 350M Q4_K_M ≈ 230MB	角色对话向：极小模型跑coherent conversation，"less hallucinations than same-size models"

Termux + llama.cpp（Android进阶路径）

模型（GGUF）	应用
qwen2.5-0.5b-instruct.Q4_K_M.gguf ≈ 298MB（骁龙8+ Gen1）	写辞职信（专业得体语气）、会议纪要整理（录音转文字后粘贴→要点+待办）、代码片段补全（IDEA Mobile卡壳时切过来问）、离线翻译中英日三语互译
Qwen3-4B-Instruct Q4_K_M.gguf（ctx-size 32768, n-gpu-layers 20）	手机上实测6个高频事：读PDF摘要（提炼核心观点）、写邮件（道歉信含补救方案）、改文案（改成小红书风格）、写SQL （含窗口函数验证无误）、代码解释（逐行+教学提示）、多轮追问推理

其他工具的案例中出现的用法

工具	模型	应用
Private LLM（iOS, $5.99）	精选自家量化（Llama 3.1 8B / Qwen 3 4B / Phi 4 / Gemma 3 / DeepSeek R1蒸馏）	草稿邮件文档（零泄漏）、审阅机密内容、写作&代码、Siri Shortcuts管道摘要改写
Off Grid（iOS+Android）	支持Qwen 3 / Llama 3.2 / Gemma 3 / Phi-4 GGUF（0.6B/1.5B中端、3B/4B旗舰）	离线聊天 + SD画图 + Whisper听写 + 拍照识物（OCR）
Google AI Edge Gallery	Gemma 3n系（LiteRT, 1-3GB）	文字聊天 + 看图（离线拍照问答）

案例梳理：

写作/创作草稿（论文段落、日记续写、改文案、科幻设定、照片配文案）
翻译（离线中英+小语种/方言，专用翻译模型或通用小模型都行）
私密文档处理（医疗报告解读、合同/财务摘要、会议纪要------核心卖点=不出设备）
编程辅助（代码补全、SQL生成、代码解释、HTML/CSS生成------质量有限但"断网能跑"）
角色扮演/故事（ChatterUI的character card系；PocketPal的Pals人格系统）

基于案例，做一个"场景"分布

0.6B--3B 并不是"万能AI"，而是一个"离线与隐私可用的轻量文本变换器"，可稳定命中的任务只有3-4类；一旦任务需要事实正确性/多步推理/长上下文，命中率就塌了。

任务分布

任务大类（你收敛的5类）	占比（近似）	集中在哪些模型档	案例里"能用"还是"看着热闹但靠不住"
离线摘要 / 要点提炼 / 提纲（邮件、文章段落、报告要点、会议要点）	~30%	1.5B--3B Q4/Q5（Qwen2.5-3B、Phi-3Mini、Gemma 2B最常见）	"能用"：输出不够精致，但信息压缩/抓重点通常到位；风险在遗漏关键点与编造细节
翻译 / 重述改写 /风格改写（中英/小语种、术语表、改小红书风格、邮件措辞）	~25%	多语强的：Qwen系 0.8B--3B、Gemma 1B--2B；专用翻译小模型也出现	"能用但需审校"：短句/常见域翻译成功率最高；专有名词/罕见词会滑
写作草稿 / 扩写 / 续写（日记续写、文案草稿、论文段落级起草、配图文案）	~20%	1B--3B（Qwen3-0.6B也做续写；Qwen2.5-3B做200字草稿）	"能出稿但不能交稿"：要人审+改；字数控制差（指令说200字给你397字符那种）
隐私敏感处理（医疗/财务/人事等不想上云的内容摘要、起草、脱敏复述）	~15%	任意SLM，关键不在聪明，在隔离：离线+本地存储+最小权限	痛点确实被"解决"------不是因为模型牛，而是因为架构把云那条边切断了
角色扮演/故事创作（ChatterUI的character card，PocketPal的Pals）	~10%	越小越"人设漂移"，1B容易碎；2B--3B更稳定但可以自嗨	"可用作娱乐/灵感"，但事实准确性基本放弃

模型尺寸 vs 任务能力

模型档	实际能干成的	稳定命中的前提	案例里最常见的翻车点
0.6B--1B（Q4）	短文改写、续写灵感、简单分类/提取、离线翻译短句	严格短prompt、低期望、人审	忘前文、格式崩、字数失控、事实随口编
1.5B--3B（Q4/Q5）	摘要/草稿/翻译/日常QA/简单code补全	8GB RAM设备；context别拉太高；离线可用；prompt要具体	幻觉（尤其地名/日期/法规/数字关系）、长文掉逻辑、发热降频后变慢、冷启动加载等
~4B（Phi-3Mini 3.8B Q4）	推理/code稍好，但仍受困于context与事实	iOS上好跑（Metal），Android看芯片	还是会在"你不懂的领域"骗你
7B Q4（仅8GB+机硬上）	更长连贯性略好，但边际收益低	加载慢/杀后台风险高；案例多建议"别把7B当手机常态"	耗电/热节流/系统回收→体验极差；"勉强摘要用、对话极差"的评价出现过

80%+的"正面可用性"集中在：短文本摘要、改写/翻译、私密草稿三类；而"看起来能做但常翻车"的正是：旅行规划/复杂事实QA/长文档推理/多步规划。

这么小的模型"真的"解决用户痛点了吗？

痛点A：没网/不想上云 → 确实解决

飞机模式、地下室、边境漫游、公司离线策略、隐私数据不想出设备------这些场景小模型+本地运行=把"能不能用"从0变成1。
这部分的"解决"不靠聪明，靠离线可达 + 本地存储 + 可审计（开源）

痛点B：想要"像ChatGPT一样聪明" → 没解决，且案例反复证明会踩脸

对联/事实题/地名/时间差/餐厅存在性这类"表面合理但可验证错误"在小模型上高频出现（koc的幻觉就是活教材）
有实测者直接结论："用消费级设备跑本地大模型目前也只能玩玩......效果非常差，特占资源，巨费电"的直观感受也真实（哪怕它偏极端）

痛点C：省API成本 / 零流量 → 局部解决

当任务本身就是"文本变换"（摘要、改写、模板填充、邮件措辞、简短提取），本地做掉=省调用+保隐私+不怕限流

用户使用里遇到的问题

设备门槛与OOM/闪退（最硬的一道墙）
- 4GB机基本告别；6GB机只能1B且体验差；8GB RAM才是可用起点
- 加载模型后系统可用内存吃紧，后台被杀、切走回来模型重加载/冷启动再来一遍（实测里"每次重开要重新加载"被明确吐槽）
冷启动加载摩擦
- 首次加载十几秒；熄屏/切后台后恢复快一点但仍需几秒；你要"秒开聊天"体验就很难
发热 → 降频 → 变慢（体验螺旋）
- 实测：跑一阵背面>45℃、速度掉到10 tok/s以下、掉电明显（"尿崩"）
- 这意味着"长时间连续生成"不现实，更适合短对话/短生成的脉冲式用法
幻觉 + 事实不可靠（尤其地名/日期/数字/法规/医疗细节）
- 不是bug，是小模型容量决定的：它会给你"语法正确但事实错误"的句子，而且语气很自信
上下文短 + 长文处理弱
- KV cache吃内存，手机端常用4K--8K级才稳；标称128K≠手机可用
- 于是"总结长PDF/长合同"就会：截断、遗漏、或被迫切块→再缝合（缝合又会丢线索）
下载/导入摩擦（破坏转化）
- 模型文件大（1--4GB），下载中断无断点续传/进度异常/"被墙"等抱怨出现；侧载APK本身就筛掉一批用户
输出控制不稳（字数、格式、结构）
- "写200字"给你397字符；格式保留时好时坏；需要人做第二道工序------所以它更像草稿机 不是交付机
多语/中文质量不均 + 模型选择成本
- 有人直接点名"Gemma-2不支持中文回答，推荐Qwen2.5-3B中文场景"
- 普通用户不会选量化档/上下文长度/层数offload------参数太多=求助成本上升

j基于ai检索整理