实测!Gemma 4 成功跑在安卓手机上:离线 AI 助手终于来了

Gemma 4 介绍

Google DeepMind 推出了 Gemma 4 系列开源模型,这是迄今为止谷歌最智能的开源模型家族,基于 Gemini 3 的相同世界级研究和技术构建。Gemma 4 主打"单位参数智能水平"(intelligence-per-parameter)极致优化,首次引入混合专家(MoE)架构,全面支持从手机/边缘设备到工作站的本地部署。

官方中文页面:ai.google.dev/gemma/docs/...

1. 模型规格(四种尺寸)

  • E2B(Effective 2B) :超轻量,针对超移动、边缘设备、浏览器、手机(如 Pixel、Raspberry Pi)。
  • E4B(Effective 4B) :移动设备优化,近零延迟。
  • 26B A4B(MoE 混合专家) :总参数 260 亿,推理时仅激活约 38 亿参数,低延迟、高效率。
  • 31B Dense(稠密模型) :最高性能,非量化 bfloat16 可适配单张 80GB H100 GPU,量化后支持消费级 GPU。

边缘模型(E2B/E4B)上下文窗口 128K tokens ;较大模型 256K tokens

2. 核心功能亮点(相比前代 Gemma 3 的重大升级)

  • 多模态输入 :全系列原生支持文本 + 图片 (可变宽高比/分辨率,支持 OCR、图表理解、视频);E2B 和 E4B 额外原生支持音频输入。
  • 高级推理能力 :内置可配置"思考模式"(Chain-of-Thought),支持 thinking=True 开启内部逻辑推演;显著提升数学、复杂逻辑、多步规划能力。
  • Agentic(智能体)工作流原生函数调用(Function Calling) 、结构化 JSON 输出、原生系统提示(System Role)支持,可直接串接 API、工具,构建自主代理。
  • 语言与编码 :原生支持 140+ 语言;编码、指令遵循能力大幅提升,适合本地编程助手、IDE 集成。
  • 效率优化:26B MoE 模型推理极快;整体适合本地运行,无需云端 API 成本。

3. 性能表现

  • 31B 模型在行业标准 Arena AI 文本排行榜 上位列全球开源模型第 3
  • 26B 模型位列第 6
  • 单位参数智能水平极高,甚至超越参数量大 20 倍的模型,适合本地/边缘部署。

4. 许可与可用性

  • 许可协议 :全面切换为Apache 2.0(极度宽松的商业许可),开发者可自由商用、微调、集成,无此前自定义许可的限制。
  • 获取方式:立即可用
    • Google AI Studio / Gemini API
    • Hugging Face、Kaggle、Ollama 下载权重
    • Android AICore Developer Preview、Google AI Edge Gallery
    • 支持预训练 + 指令调优版本。

手机端Gemma 4

Google AI Edge Gallery 是谷歌官方推出的 手机端 AI 工具箱 ,能让你直接在 Android /iPhone 上 离线运行 Gemma 4 等大模型(完全本地、不上云)。

下面给你 Google Play 下载 → 安装 → 下载 Gemma 4 → 完整使用 全流程(手机一步到位)。


一、安装(Google Play 路线)

1. 下载安装

  1. 打开 Google Play 商店

  2. 搜索:Google AI Edge Gallery(开发者:Google LLC)

  3. 安装 → 等待完成

  4. 打开应用

  5. 授权:

    • 存储权限 → 允许(必须)
    • 相机 / 麦克风(可选,用于图片 / 语音)

2. 系统要求

  • Android 12+ / iOS 16+
  • 内存 ≥ 6GB(推荐 8GB+)
  • 存储空间 ≥ 3GB(Gemma 4-E2B ≈2.5GB,E4B≈3.6GB)

二、下载 Gemma 4 模型(手机内直接下)

打开后首页就是 模型列表,推荐:

  • Gemma 4-E2B-it(轻量,2B 级,6GB 手机流畅)
  • Gemma 4-E4B-it(全能,4B 级,8GB + 首选)

步骤:

  1. 点模型右侧 Download

    • 建议 Wi‑Fi 下载
  2. 等待下载 → 自动解压(1--3 分钟)

  3. 完成后按钮变成 Open


三、核心功能(Gemma 4 全支持)

1. AI Chat(聊天 + 思考模式)

  • 多轮对话、写作、代码、翻译、问答
  • Thinking Mode (Gemma 4 专属):显示模型思考过程(推理步骤)
  • 参数:Temperature、Top-P、Max tokens

2. Ask Image(多模态看图)

  • 上传图片 → 问问题:描述、OCR、图表解读、解题
  • 支持 JPG/PNG/WebP,最大 4096×4096

3. Audio Scribe(离线语音转文字)

  • 录音 / 上传音频 → 转文本 / 翻译
  • 完全本地、不上云

4. Prompt Lab(提示词实验室)

  • 预设模板:摘要、改写、代码、翻译
  • 批量测试、对比不同模型

5. Agent Skills(工具调用,Gemma 4 新功能)

  • 内置:维基百科搜索、地图、总结卡片
  • 让 AI 联网查资料、生成可视化(仍本地运行)

6. 性能面板

  • 实时显示:TTFT(首 token 延迟)、生成速度、内存占用
相关推荐
海兰2 小时前
使用 Elastic Workflows 监控 Kibana 仪表板访问数据
android·人工智能·elasticsearch·rxjava
大阿明2 小时前
使用vite打包并部署vue项目到nginx
前端·vue.js·nginx
陈天伟教授2 小时前
如何选择云端 CI/CD 平台
人工智能·安全·机器学习
小江的记录本2 小时前
【Swagger】Swagger系统性知识体系全方位结构化总结
java·前端·后端·python·mysql·spring·docker
jeffsonfu2 小时前
偏差与方差的权衡:深度学习的“中庸之道”
人工智能·深度学习
七夜zippoe2 小时前
OpenClaw TTS 语音合成详解:让 AI 助手开口说话
人工智能·ai·语音合成·tts·openclaw
rm6fEx0Z72 小时前
AUC 与 GAUC:从全局排序到用户内排序的理解
人工智能·算法·机器学习
健康人猿2 小时前
Business 降价导致 Codex 额度减少?GPT 各类套餐在 Codex 的使用限制是多少?
人工智能·gpt·chatgpt