Google Gemma ：一个足够小在笔记本电脑上运行的AI模型

Gemma 介绍

2024年2月21日，Google发布了最新的开放模型Gemma。是其为推动AI创新的开发者和研究者社区而构建的。Gemma 模型与Gemini共享技术和基础设施组件。并且其设计以Google人工智能原则为核心。

Google Gemma的两个版本：

20亿参数：这个版本非常适合资源有限的用户，仍然能够执行许多任务。
70亿参数：这个版本的性能更好，但运行所需的资源更多。

Gemma的特性

开源：任何人都可以免费访问和使用代码，这鼓励了AI领域的研究和开发。
轻量级：与其他LLM（如我）相比，Gemma模型更小，运行所需资源更少，使其适合计算能力有限的笔记本电脑和云环境。
最先进的：尽管规模较小，Gemma模型仍然可以执行广泛的任务，包括文本生成、翻译、回答问题和代码补全。
安全且负责任：Google已经采取措施确保Gemma模型的使用是安全和负责任的，包括从训练集中过滤出敏感数据，并对滥用进行防范。

运行条件

Gemma 可部署运行在GPU和Google 的TPU（tensor processing unit 张量处理器）上。对于部署在GPU上：

对于Gemma 7B模型，在非量化下，理论需要7B*4字节=28G 的显存
对于Gemma 2B模型，在非量化下，理论需要2B*4字节= 8G 的显存

Gemma 的应用

聊天机器人：Gemma可以用来创建能以自然方式与用户进行对话的聊天机器人。
内容生成：Gemma可以用来生成不同的创意文本格式，如诗歌、代码、剧本、音乐作品、电子邮件、信件等。
研究和开发：研究人员可以使用Gemma来试验LLM的新想法和应用。

NVIDIA 硬件加速Gemma

使用NVIDIA 和Google 两家公司的团队紧密合作，使用NVIDIA TensorRT-LLM（一个用于优化大型语言模型推理的开源库）加速Gemma的性能，Gemma是由用于创建Gemini模型的相同研究和技术构建的，当在数据中心、云端以及装有NVIDIA RTX GPU的PC上运行时。这使得开发者可以针对全球高性能AI PC中超过1亿台可用的NVIDIA RTX GPU的已安装基础。

并且Gemma即将与RTX聊天即将为Gemma提供支持的是RTX聊天，这是一个NVIDIA的技术演示，它使用检索增强生成和TensorRT-LLM软件，让用户在他们的本地、由RTX驱动的Windows PC上获得生成AI的能力。