
Google 最近发布其开源的 AI 编程终端工具 ------ Gemini CLI,程序员的生产力工具栈迎来新变化。从对标 Claude、开源开放、支持本地文件操作与多模态输入,图像、音频、视频处理,这款工具在 GitHub 上上线一天就获得 3 万 star。目前**5万+**star。那么它到底有哪些优势?普通人能用它做什么?是否值得一试?本文为你全面解析。
什么是 Gemini CLI?
Gemini CLI 是由 Google 推出的命令行人工智能助手,它基于 Gemini 2.5 Pro 模型,支持高达 100 万 token 上下文的处理能力,并提供多模态输入能力(例如 PDF、视频、音频、图片)。它旨在让开发者在终端环境中无需切换上下文即可实现 AI 协助,包括但不限于:
- 代码生成与重构
- 自动化脚本编写与文件操作
- 图片处理与格式转换
- 多模态文档、音视频解析
安装与配置
根据官方文档,使用前需要先安装 Node.js 运行环境(版本需 ≥ 18) ,可前往 Node.js 官网 下载并安装。完成后,打开终端,执行以下命令即可全局安装 Gemini CLI 工具:
bash
npm install -g @google/gemini-cli
安装完成后,执行 gemini 命令,根据提示选择并设置主题。
gemini

启动后根据提示配置
登录
在选择主题之后,进入到登录页面,这里我选择的是第一种,使用google账号的方式进行登录。

如遇 Google Cloud 项目认证问题,在Google Cloud 创建一个项目得到 project_id
:

在终端中执行下面的指令,将project_id
写入到环境变量中:
bash
echo 'export GOOGLE_CLOUD_PROJECT=<你的 project_id>' >>
~/.zshrc
再输入刷新生效指令
bash
source ~/.zshrc
功能体验
问答能力
输入提示词:
你好,你是谁,你可以做什么,你的优势是什么?

搜索能力
gemini CLi 工具中内置了 GoogleSearch,具备联网搜索的能力。
输入提示词:
请使用 Google 搜索功能,查找关于'最新AI发展的趋势的热点'的资料,,然后为我生成一份 Markdown 格式的综合报告,并存为 ai_treading_report.md。


通过上面我给出的提示词指令,可以看到通过它的意图识别,他进行调用google搜索,搜索了2025年AI的发展趋势,并调用写入工具将搜索的内容写到到了我指定的文件中。
代码生成与网页搭建
输入提示词:
css
创建一个仿照apple的计算器App,使用html+css代码实现


执行之后的效果还是非常不错的,从视觉的还原度上看可以。
多模态能力
视频分析
选择对应的视频文件,输入提示词:这个视频主要讲了什么

图片分析
选择对应的图片文件,输入提示词:这个图片是什么风格的,给这个图片打一个标签。

文件分析:
选择要分析的文件,输入提示词:分析一下这个文件,这个文件的内容主要是什么,包含了哪些信息。

其他设置:
memory配置
可以为项目设置自定义记忆文件,遵循我们设置的规则进行编程开发。
当使用/memory show
的时候可以看到,需要我们在GEMINI.md的文件中设置对应的规则

创建 GEMINI.md 文件并添加相应规则后,执行 /memory refresh
即可使设置生效。此后,再次执行命令时,Gemini CLI 会自动根据配置的规则进行响应。
MCP配置
终端输入
bash
cd ~/.gemini/
在这个目录下显示如下的文件,settings.json 是Gemini-CLI的配置文件。

perl
{
"theme": "Default",
"selectedAuthType": "oauth-personal",
"mcpServers": {
"context7": {
"command": "npx",
"args": ["-y", "@upstash/context7-mcp"]
}
}
配置完成后,记得重新打开一个终端窗口,然后输入 gemini
,这样刚才的配置就会生效啦。
结语
目前来看,Gemini CLI 更适合有一定技术背景、特别是熟悉命令行的开发者使用。在数据处理、自动化构建和日常脚本任务方面确实能带来便利。如果你是热衷工具效率、具备基本终端操作能力的开发者,不妨动手体验一下 Gemini CLI。