
PocketPal AI
| 模型(含量化/大小) | 应用 |
|---|---|
| Qwen3.5-0.8B q8_0 GGUF ≈ 800MB | 写日记/续写,关键词归类;医疗记录离线摘要 |
| Gemma 4 E2B(Unsloth Dynamic 2.0 GGUF,约1.5-2GB) + 多模态投影文件 | 日常问答、私人文档交互****图片+文档分析 |
| Qwen 1.5B / 1.8B Q4量化(Qwen2.5系,.gguf,0.8-2GB档) | 论文初稿段落写作------背景段/问题提出/方法说明的起草与扩写,调Context 768-1024、Temp 0.6;总结/提纲/段落扩写 |
| 腾讯混元 HY-MT1.5 1.8B Q4_K_M GGUF ≈ 1.13GB(翻译专用模型) | 离线翻译机 ------中英+藏/维/蒙/哈/粤语33种语言互译,术语表控制,格式保留,替代付费翻译API |
| Qwen3-0.6B Q4_K_M GGUF(起步档) | 离线对话、简单创作 (给开头续写200字故事)、编程 (生成完整HTML+CSS网页代码)、数学推理(鸡兔同笼类分步求解)------阿里云官方教程在8GB Android上测的三项基础任务 |
| 小米 Mimo-7B 量化版(社区GGUF,PocketPal的Add From Hugging Face→搜Mimo→下载) | 完全断网场景:生存问答(迷路后问"怎么钻木取火",模型逐字输出步骤)------证明小型模型+本地="无视环境随时随地" |
| Danube 3 / Gemma 2B / Phi / Qwen系 GGUF 1-3B(Gallery预置一键下载) | 全程离线:导航辅助、文化问答、信息查询 |
| Gemma 2B / Llama 3.2 3B Q4_K_M / Qwen2.5 3B Q4(5-10秒加载,生成25-35 tok/s掉到发热后10以下) | 翻译/摘要 (最实用的实际场景)、离线聊天 (比Siri强有限)、写代码辅助 鸡肋,屏幕小+质量差、不想上传云端的私人对话------最大价值点=c私密 |
MLC Chat
| 模型(含格式) | 应用 |
|---|---|
| gemma-2-2b(MLC编译格式,约1GB级) | 推荐景点+安排行程 (会追问预算/天数)、中英翻译;同时记录了幻觉(高雄推了台南安平国小,华府与台湾时差答错) |
| Qwen3 1.7B(MLC编译格式) on Snapdragon 8 Elite | ~40 tok/s via Hexagon NPU:纯离线聊天/轻量查询 demo,速度标杆 |
| Phi-4 Mini / Gemma 3 1B / Llama 3.2 1B(MLC编译格式精选库)** | 离线对话、翻译、轻量任务;首次运行需GPU编译5-15min |
| Phi-2 / Gemma 2B / Llama-3 8B / Mistral 7B(MLC格式下拉列表)** | 实测结论:Gemma 2B试水,"想当生产力工具还是算了吧";8B能选但很慢 |
LLM Farm
| 模型(GGUF) | 应用 |
|---|---|
| Mistral-7B-Instruct-v0.1-Q4_K_M.gguf ≈ 4.11GB | iPad/iPhone ≥8GB RAM,关Wi-Fi全离线验证对话;质量类比ChatGPT 3.5;初始加载慢但交互后快 |
| gemma-4-2b-q4_k_m.gguf ≈ 1.5GB | iPhone 15 Pro ~10-15 tok/s:聊天、写东西、离线问答,走完App Store→导入→聊天的完整链路 |
| Phi-3 Mini(2.2GB Q4)/ Llama 3.2 1B(1.1GB Q4) | 离线对话、JSON配参(temp/top_p/mirostat/context_length);Apple Shortcuts集成可用 |
ChatterUI
| 模型(GGUF,用户自导) | 应用 |
|---|---|
| Llama 3 / Mistral系 GGUF(按RAM阶梯:4GB机→1.3B Q4,6GB→3B,8GB+→7B) | 角色扮演/故事创作 ------走Character Card v2规范(每角色独立history+system prompt+采样参数);隐私敏感对话;语言学习跟"教师角色"练对话 |
| LFM2-2.6B-Exp GGUF / LFM2 350M Q4_K_M ≈ 230MB | 角色对话向:极小模型跑coherent conversation,"less hallucinations than same-size models" |
Termux + llama.cpp(Android进阶路径)
| 模型(GGUF) | 应用 |
|---|---|
| qwen2.5-0.5b-instruct.Q4_K_M.gguf ≈ 298MB(骁龙8+ Gen1) | 写辞职信 (专业得体语气)、会议纪要整理 (录音转文字后粘贴→要点+待办)、代码片段补全 (IDEA Mobile卡壳时切过来问)、离线翻译中英日三语互译 |
| Qwen3-4B-Instruct Q4_K_M.gguf(ctx-size 32768, n-gpu-layers 20) | 手机上实测6个高频事:读PDF摘要 (提炼核心观点)、写邮件 (道歉信含补救方案)、改文案 (改成小红书风格)、写SQL (含窗口函数验证无误)、代码解释 (逐行+教学提示)、多轮追问推理 |
其他工具的案例中出现的用法
| 工具 | 模型 | 应用 |
|---|---|---|
| Private LLM(iOS, $5.99) | 精选自家量化(Llama 3.1 8B / Qwen 3 4B / Phi 4 / Gemma 3 / DeepSeek R1蒸馏) | 草稿邮件文档 (零泄漏)、审阅机密内容、写作&代码、Siri Shortcuts管道摘要改写 |
| Off Grid(iOS+Android) | 支持Qwen 3 / Llama 3.2 / Gemma 3 / Phi-4 GGUF(0.6B/1.5B中端、3B/4B旗舰) | 离线聊天 + SD画图 + Whisper听写 + 拍照识物(OCR) |
| Google AI Edge Gallery | Gemma 3n系(LiteRT, 1-3GB) | 文字聊天 + 看图(离线拍照问答) |
案例梳理:
- 写作/创作草稿(论文段落、日记续写、改文案、科幻设定、照片配文案)
- 翻译(离线中英+小语种/方言,专用翻译模型或通用小模型都行)
- 私密文档处理(医疗报告解读、合同/财务摘要、会议纪要------核心卖点=不出设备)
- 编程辅助(代码补全、SQL生成、代码解释、HTML/CSS生成------质量有限但"断网能跑")
- 角色扮演/故事(ChatterUI的character card系;PocketPal的Pals人格系统)
基于案例,做一个"场景"分布
0.6B--3B 并不是"万能AI",而是一个"离线与隐私可用的轻量文本变换器",可稳定命中的任务只有3-4类;一旦任务需要事实正确性/多步推理/长上下文,命中率就塌了。
任务分布
| 任务大类(你收敛的5类) | 占比(近似) | 集中在哪些模型档 | 案例里"能用"还是"看着热闹但靠不住" |
|---|---|---|---|
| 离线摘要 / 要点提炼 / 提纲(邮件、文章段落、报告要点、会议要点) | ~30% | 1.5B--3B Q4/Q5(Qwen2.5-3B、Phi-3Mini、Gemma 2B最常见) | "能用":输出不够精致,但信息压缩/抓重点通常到位;风险在遗漏关键点 与编造细节 |
| 翻译 / 重述改写 /风格改写(中英/小语种、术语表、改小红书风格、邮件措辞) | ~25% | 多语强的:Qwen系 0.8B--3B、Gemma 1B--2B;专用翻译小模型也出现 | "能用但需审校":短句/常见域翻译成功率最高;专有名词/罕见词会滑 |
| 写作草稿 / 扩写 / 续写(日记续写、文案草稿、论文段落级起草、配图文案) | ~20% | 1B--3B(Qwen3-0.6B也做续写;Qwen2.5-3B做200字草稿) | "能出稿但不能交稿":要人审+改;字数控制差(指令说200字给你397字符那种) |
| 隐私敏感处理(医疗/财务/人事等不想上云的内容摘要、起草、脱敏复述) | ~15% | 任意SLM,关键不在聪明,在隔离:离线+本地存储+最小权限 | 痛点确实被"解决"------不是因为模型牛,而是因为架构把云那条边切断了 |
| 角色扮演/故事创作(ChatterUI的character card,PocketPal的Pals) | ~10% | 越小越"人设漂移",1B容易碎;2B--3B更稳定但可以自嗨 | "可用作娱乐/灵感",但事实准确性基本放弃 |
模型尺寸 vs 任务能力
| 模型档 | 实际能干成的 | 稳定命中的前提 | 案例里最常见的翻车点 |
|---|---|---|---|
| 0.6B--1B(Q4) | 短文改写、续写灵感、简单分类/提取、离线翻译短句 | 严格短prompt、低期望、人审 | 忘前文、格式崩、字数失控、事实随口编 |
| 1.5B--3B(Q4/Q5) | 摘要/草稿/翻译/日常QA/简单code补全 | 8GB RAM设备;context别拉太高;离线可用;prompt要具体 | 幻觉(尤其地名/日期/法规/数字关系)、长文掉逻辑、发热降频后变慢、冷启动加载等 |
| ~4B(Phi-3Mini 3.8B Q4) | 推理/code稍好,但仍受困于context与事实 | iOS上好跑(Metal),Android看芯片 | 还是会在"你不懂的领域"骗你 |
| 7B Q4(仅8GB+机硬上) | 更长连贯性略好,但边际收益低 | 加载慢/杀后台风险高;案例多建议"别把7B当手机常态" | 耗电/热节流/系统回收→体验极差;"勉强摘要用、对话极差"的评价出现过 |
80%+的"正面可用性"集中在:短文本摘要、改写/翻译、私密草稿三类;而"看起来能做但常翻车"的正是:旅行规划/复杂事实QA/长文档推理/多步规划。
这么小的模型"真的"解决用户痛点了吗?
痛点A:没网/不想上云 → 确实解决
- 飞机模式、地下室、边境漫游、公司离线策略、隐私数据不想出设备------这些场景小模型+本地运行=把"能不能用"从0变成1。
- 这部分的"解决"不靠聪明,靠离线可达 + 本地存储 + 可审计(开源)
痛点B:想要"像ChatGPT一样聪明" → 没解决,且案例反复证明会踩脸
- 对联/事实题/地名/时间差/餐厅存在性这类"表面合理但可验证错误"在小模型上高频出现(koc的幻觉就是活教材)
- 有实测者直接结论:"用消费级设备跑本地大模型目前也只能玩玩......效果非常差,特占资源,巨费电"的直观感受也真实(哪怕它偏极端)
痛点C:省API成本 / 零流量 → 局部解决
- 当任务本身就是"文本变换"(摘要、改写、模板填充、邮件措辞、简短提取),本地做掉=省调用+保隐私+不怕限流
用户使用里遇到的问题
-
设备门槛与OOM/闪退(最硬的一道墙)
- 4GB机基本告别;6GB机只能1B且体验差;8GB RAM才是可用起点
- 加载模型后系统可用内存吃紧,后台被杀、切走回来模型重加载/冷启动再来一遍(实测里"每次重开要重新加载"被明确吐槽)
-
冷启动加载摩擦
- 首次加载十几秒;熄屏/切后台后恢复快一点但仍需几秒;你要"秒开聊天"体验就很难
-
发热 → 降频 → 变慢(体验螺旋)
- 实测:跑一阵背面>45℃、速度掉到10 tok/s以下、掉电明显("尿崩")
- 这意味着"长时间连续生成"不现实,更适合短对话/短生成的脉冲式用法
-
幻觉 + 事实不可靠(尤其地名/日期/数字/法规/医疗细节)
- 不是bug,是小模型容量决定的:它会给你"语法正确但事实错误"的句子,而且语气很自信
-
上下文短 + 长文处理弱
- KV cache吃内存,手机端常用4K--8K级才稳;标称128K≠手机可用
- 于是"总结长PDF/长合同"就会:截断、遗漏、或被迫切块→再缝合(缝合又会丢线索)
-
下载/导入摩擦(破坏转化)
- 模型文件大(1--4GB),下载中断无断点续传/进度异常/"被墙"等抱怨出现;侧载APK本身就筛掉一批用户
-
输出控制不稳(字数、格式、结构)
- "写200字"给你397字符;格式保留时好时坏;需要人做第二道工序------所以它更像草稿机 不是交付机
-
多语/中文质量不均 + 模型选择成本
- 有人直接点名"Gemma-2不支持中文回答,推荐Qwen2.5-3B中文场景"
- 普通用户不会选量化档/上下文长度/层数offload------参数太多=求助成本上升
j基于ai检索整理