用户用部署在手机上的ai模型都做些什么

PocketPal AI

模型(含量化/大小) 应用
Qwen3.5-0.8B q8_0 GGUF ≈ 800MB 写日记/续写,关键词归类;医疗记录离线摘要
Gemma 4 E2B(Unsloth Dynamic 2.0 GGUF,约1.5-2GB) + 多模态投影文件 日常问答、私人文档交互****图片+文档分析
Qwen 1.5B / 1.8B Q4量化(Qwen2.5系,.gguf,0.8-2GB档) 论文初稿段落写作------背景段/问题提出/方法说明的起草与扩写,调Context 768-1024、Temp 0.6;总结/提纲/段落扩写
腾讯混元 HY-MT1.5 1.8B Q4_K_M GGUF ≈ 1.13GB(翻译专用模型) 离线翻译机 ------中英+藏/维/蒙/哈/粤语33种语言互译,术语表控制,格式保留,替代付费翻译API
Qwen3-0.6B Q4_K_M GGUF(起步档) 离线对话、简单创作 (给开头续写200字故事)、编程 (生成完整HTML+CSS网页代码)、数学推理(鸡兔同笼类分步求解)------阿里云官方教程在8GB Android上测的三项基础任务
小米 Mimo-7B 量化版(社区GGUF,PocketPal的Add From Hugging Face→搜Mimo→下载) 完全断网场景:生存问答(迷路后问"怎么钻木取火",模型逐字输出步骤)------证明小型模型+本地="无视环境随时随地"
Danube 3 / Gemma 2B / Phi / Qwen系 GGUF 1-3B(Gallery预置一键下载) 全程离线:导航辅助、文化问答、信息查询
Gemma 2B / Llama 3.2 3B Q4_K_M / Qwen2.5 3B Q4(5-10秒加载,生成25-35 tok/s掉到发热后10以下) 翻译/摘要 (最实用的实际场景)、离线聊天 (比Siri强有限)、写代码辅助 鸡肋,屏幕小+质量差、不想上传云端的私人对话------最大价值点=c私密

MLC Chat

模型(含格式) 应用
gemma-2-2b(MLC编译格式,约1GB级) 推荐景点+安排行程 (会追问预算/天数)、中英翻译;同时记录了幻觉(高雄推了台南安平国小,华府与台湾时差答错)
Qwen3 1.7B(MLC编译格式) on Snapdragon 8 Elite ~40 tok/s via Hexagon NPU:纯离线聊天/轻量查询 demo,速度标杆
Phi-4 Mini / Gemma 3 1B / Llama 3.2 1B(MLC编译格式精选库)** 离线对话、翻译、轻量任务;首次运行需GPU编译5-15min
Phi-2 / Gemma 2B / Llama-3 8B / Mistral 7B(MLC格式下拉列表)** 实测结论:Gemma 2B试水,"想当生产力工具还是算了吧";8B能选但很慢

LLM Farm

模型(GGUF) 应用
Mistral-7B-Instruct-v0.1-Q4_K_M.gguf ≈ 4.11GB iPad/iPhone ≥8GB RAM,关Wi-Fi全离线验证对话;质量类比ChatGPT 3.5;初始加载慢但交互后快
gemma-4-2b-q4_k_m.gguf ≈ 1.5GB iPhone 15 Pro ~10-15 tok/s:聊天、写东西、离线问答,走完App Store→导入→聊天的完整链路
Phi-3 Mini(2.2GB Q4)/ Llama 3.2 1B(1.1GB Q4) 离线对话、JSON配参(temp/top_p/mirostat/context_length);Apple Shortcuts集成可用

ChatterUI

模型(GGUF,用户自导) 应用
Llama 3 / Mistral系 GGUF(按RAM阶梯:4GB机→1.3B Q4,6GB→3B,8GB+→7B) 角色扮演/故事创作 ------走Character Card v2规范(每角色独立history+system prompt+采样参数);隐私敏感对话;语言学习跟"教师角色"练对话
LFM2-2.6B-Exp GGUF / LFM2 350M Q4_K_M ≈ 230MB 角色对话向:极小模型跑coherent conversation,"less hallucinations than same-size models"

Termux + llama.cpp(Android进阶路径)

模型(GGUF) 应用
qwen2.5-0.5b-instruct.Q4_K_M.gguf ≈ 298MB(骁龙8+ Gen1) 写辞职信 (专业得体语气)、会议纪要整理 (录音转文字后粘贴→要点+待办)、代码片段补全 (IDEA Mobile卡壳时切过来问)、离线翻译中英日三语互译
Qwen3-4B-Instruct Q4_K_M.gguf(ctx-size 32768, n-gpu-layers 20) 手机上实测6个高频事:读PDF摘要 (提炼核心观点)、写邮件 (道歉信含补救方案)、改文案 (改成小红书风格)、写SQL (含窗口函数验证无误)、代码解释 (逐行+教学提示)、多轮追问推理

其他工具的案例中出现的用法

工具 模型 应用
Private LLM(iOS, $5.99) 精选自家量化(Llama 3.1 8B / Qwen 3 4B / Phi 4 / Gemma 3 / DeepSeek R1蒸馏) 草稿邮件文档 (零泄漏)、审阅机密内容、写作&代码、Siri Shortcuts管道摘要改写
Off Grid(iOS+Android) 支持Qwen 3 / Llama 3.2 / Gemma 3 / Phi-4 GGUF(0.6B/1.5B中端、3B/4B旗舰) 离线聊天 + SD画图 + Whisper听写 + 拍照识物(OCR)
Google AI Edge Gallery Gemma 3n系(LiteRT, 1-3GB) 文字聊天 + 看图(离线拍照问答)

案例梳理:

  1. 写作/创作草稿(论文段落、日记续写、改文案、科幻设定、照片配文案)
  2. 翻译(离线中英+小语种/方言,专用翻译模型或通用小模型都行)
  3. 私密文档处理(医疗报告解读、合同/财务摘要、会议纪要------核心卖点=不出设备)
  4. 编程辅助(代码补全、SQL生成、代码解释、HTML/CSS生成------质量有限但"断网能跑")
  5. 角色扮演/故事(ChatterUI的character card系;PocketPal的Pals人格系统)

基于案例,做一个"场景"分布

0.6B--3B 并不是"万能AI",而是一个"离线与隐私可用的轻量文本变换器",可稳定命中的任务只有3-4类;一旦任务需要事实正确性/多步推理/长上下文,命中率就塌了。

任务分布

任务大类(你收敛的5类) 占比(近似) 集中在哪些模型档 案例里"能用"还是"看着热闹但靠不住"
离线摘要 / 要点提炼 / 提纲(邮件、文章段落、报告要点、会议要点) ~30% 1.5B--3B Q4/Q5(Qwen2.5-3B、Phi-3Mini、Gemma 2B最常见) "能用":输出不够精致,但信息压缩/抓重点通常到位;风险在遗漏关键点编造细节
翻译 / 重述改写 /风格改写(中英/小语种、术语表、改小红书风格、邮件措辞) ~25% 多语强的:Qwen系 0.8B--3B、Gemma 1B--2B;专用翻译小模型也出现 "能用但需审校":短句/常见域翻译成功率最高;专有名词/罕见词会滑
写作草稿 / 扩写 / 续写(日记续写、文案草稿、论文段落级起草、配图文案) ~20% 1B--3B(Qwen3-0.6B也做续写;Qwen2.5-3B做200字草稿) "能出稿但不能交稿":要人审+改;字数控制差(指令说200字给你397字符那种)
隐私敏感处理(医疗/财务/人事等不想上云的内容摘要、起草、脱敏复述) ~15% 任意SLM,关键不在聪明,在隔离:离线+本地存储+最小权限 痛点确实被"解决"------不是因为模型牛,而是因为架构把云那条边切断了
角色扮演/故事创作(ChatterUI的character card,PocketPal的Pals) ~10% 越小越"人设漂移",1B容易碎;2B--3B更稳定但可以自嗨 "可用作娱乐/灵感",但事实准确性基本放弃

模型尺寸 vs 任务能力

模型档 实际能干成的 稳定命中的前提 案例里最常见的翻车点
0.6B--1B(Q4) 短文改写、续写灵感、简单分类/提取、离线翻译短句 严格短prompt、低期望、人审 忘前文、格式崩、字数失控、事实随口编
1.5B--3B(Q4/Q5) 摘要/草稿/翻译/日常QA/简单code补全 8GB RAM设备;context别拉太高;离线可用;prompt要具体 幻觉(尤其地名/日期/法规/数字关系)、长文掉逻辑、发热降频后变慢、冷启动加载等
~4B(Phi-3Mini 3.8B Q4) 推理/code稍好,但仍受困于context与事实 iOS上好跑(Metal),Android看芯片 还是会在"你不懂的领域"骗你
7B Q4(仅8GB+机硬上) 更长连贯性略好,但边际收益低 加载慢/杀后台风险高;案例多建议"别把7B当手机常态" 耗电/热节流/系统回收→体验极差;"勉强摘要用、对话极差"的评价出现过

80%+的"正面可用性"集中在:短文本摘要、改写/翻译、私密草稿三类;而"看起来能做但常翻车"的正是:旅行规划/复杂事实QA/长文档推理/多步规划。


这么小的模型"真的"解决用户痛点了吗?

痛点A:没网/不想上云 → 确实解决

  • 飞机模式、地下室、边境漫游、公司离线策略、隐私数据不想出设备------这些场景小模型+本地运行=把"能不能用"从0变成1
  • 这部分的"解决"不靠聪明,靠离线可达 + 本地存储 + 可审计(开源)

痛点B:想要"像ChatGPT一样聪明" → 没解决,且案例反复证明会踩脸

  • 对联/事实题/地名/时间差/餐厅存在性这类"表面合理但可验证错误"在小模型上高频出现(koc的幻觉就是活教材)
  • 有实测者直接结论:"用消费级设备跑本地大模型目前也只能玩玩......效果非常差,特占资源,巨费电"的直观感受也真实(哪怕它偏极端)

痛点C:省API成本 / 零流量 → 局部解决

  • 当任务本身就是"文本变换"(摘要、改写、模板填充、邮件措辞、简短提取),本地做掉=省调用+保隐私+不怕限流

用户使用里遇到的问题

  1. 设备门槛与OOM/闪退(最硬的一道墙)

    • 4GB机基本告别;6GB机只能1B且体验差;8GB RAM才是可用起点
    • 加载模型后系统可用内存吃紧,后台被杀、切走回来模型重加载/冷启动再来一遍(实测里"每次重开要重新加载"被明确吐槽)
  2. 冷启动加载摩擦

    • 首次加载十几秒;熄屏/切后台后恢复快一点但仍需几秒;你要"秒开聊天"体验就很难
  3. 发热 → 降频 → 变慢(体验螺旋)

    • 实测:跑一阵背面>45℃、速度掉到10 tok/s以下、掉电明显("尿崩")
    • 这意味着"长时间连续生成"不现实,更适合短对话/短生成的脉冲式用法
  4. 幻觉 + 事实不可靠(尤其地名/日期/数字/法规/医疗细节)

    • 不是bug,是小模型容量决定的:它会给你"语法正确但事实错误"的句子,而且语气很自信
  5. 上下文短 + 长文处理弱

    • KV cache吃内存,手机端常用4K--8K级才稳;标称128K≠手机可用
    • 于是"总结长PDF/长合同"就会:截断、遗漏、或被迫切块→再缝合(缝合又会丢线索)
  6. 下载/导入摩擦(破坏转化)

    • 模型文件大(1--4GB),下载中断无断点续传/进度异常/"被墙"等抱怨出现;侧载APK本身就筛掉一批用户
  7. 输出控制不稳(字数、格式、结构)

    • "写200字"给你397字符;格式保留时好时坏;需要人做第二道工序------所以它更像草稿机 不是交付机
  8. 多语/中文质量不均 + 模型选择成本

    • 有人直接点名"Gemma-2不支持中文回答,推荐Qwen2.5-3B中文场景"
    • 普通用户不会选量化档/上下文长度/层数offload------参数太多=求助成本上升

j基于ai检索整理

相关推荐
AIGS0011 小时前
向量空间JBoltAI:重塑工业智能的四大支柱
java·人工智能·ai大模型应用
Hali_Botebie1 小时前
PyTorch 2.x核心变革torch.compile(),Triton 是其中最重要的 kernel 生成方式之一
人工智能·pytorch·python
weifengma-wish1 小时前
test测试 用
人工智能
赫媒派1 小时前
Claude Code 实战技巧:从 Prompt 范式转变说起
人工智能
道友可好1 小时前
用 Linter 驾驭 AI:机械化执行的艺术
前端·人工智能·后端
王牌狮AIen1 小时前
AI营销智能体实战:OPC如何重构自主获客闭环?
大数据·人工智能·重构·数据挖掘·geo·ai营销
代码有点萌1 小时前
ComfyUI 新手实战记录:一次跑通 AI 绘图工作流
人工智能
元启数宇1 小时前
机电设计AI不只是消防:给排水、暖通、强弱电如何进入自动化?
运维·人工智能·自动化
我登哥MVP1 小时前
VS Code 安装 Claude Code 并接入 DeepSeek V4 Model
人工智能·python·node.js·agent·codex·deepseek·claude code