简介
Google AI Studio 是一个基于浏览器的集成开发环境(IDE),它允许用户使用生成模型来设计原型。Google AI Studio 提供了一个便捷的环境,让用户可以快速尝试不同的模型,并对各种提示进行实验。该平台几乎包含了Google所有模型和智能应用。
使用限制
- 需要科学上网
- 可以免费使用但免费版有额度限制
官网
官网地址:aistudio.google.com
进入官网,使用Google账号登录后可以看到 Google AI Studio 首页
这里几乎包含了Google所有的模型:
- gemini 2 系列
- gemini-2.0-flash
- gemini-2.0-flash-lite-preview-02-05
- gemini-2.0-pro-exp-02-05
- gemini-2.0-flash-thinking-exp-01-21
- gemini 1.5 系列
- gemini-1.5-pro
- gemini-1.5-flash
- gemini-1.5-flash-8b
- preview 系列
- gemini-2.0-flash-exp
- learnlm-1.5-pro-experimental
- gemma 系列
- gemma-2-2b-it
- gemma-2-9b-it
- gemma-2-27b-it
这里还包括了Gemini相关智能应用:
- 模型对话对比
- 实时流,包括实时 语音交互、视频交互、投屏交互
- Gemini能力应用,包括 空间理解、视频分析、地图探索
- 提示词广场,包含大量优秀提示词
Create Prompt
Create Prompt提供了所有Gemini模型的配置和Chat入口,在这里我们可以方便的切换和使用不同的Gemini模型
系统提示词
系统提示词也是计算在token数中的
提供可选的语气和风格指令,用于定义AI生成内容的上下文、语气、风格等,这里的系统提示词其实类似于AI Agent中的提示词,即告诉大模型它在本次任务中的 角色(Role)、简介(Profile)、背景信息(Background)、目标(Goals)、技能(Skills)、限制条件(Constraints) 等细节。
Chat
Google AI Studio中Gemini的Chat支持多模态信息,如文本、图片、文件、录音、拍照、Media及Google Drive等类型。
文本对话
Gemini模型支持多种语言,不用担心语言障碍限制。
输入提示词点击【Run】执行,回车这里为换行不会触发执行
鼠标放在回复内容上可以直观查看问题的响应时间
下面看下Gemini是否可以实时获取数据
今天是2025年2月8日,Gemini得到的数据还是2024年的数据,可以看到Gemini并不能实时获取数据。
编程能力
第一个问题:无重复字符的最长子串
php
给定一个字符串 s ,请你找出其中不含有重复字符的最长子串的长度。补充下面函数
/**
* @param {string} s
* @return {number}
*/
var lengthOfLongestSubstring = function(s) {
};
将生成的代码放到领扣中进行验证,可以看到测试用例全部通过
第二个问题:最小覆盖子串
arduino
给你一个字符串 s 、一个字符串 t 。返回 s 中涵盖 t 所有字符的最小子串。如果 s 中不存在涵盖 t 所有字符的子串,则返回空字符串 "" 。
将代码放到领扣中进行验证,可以看到测试用例同样全部通过
逻辑推理能力
第一个问题:年龄问题推理
小明妈妈7年前是小明年龄的6倍,小明今年12岁,问小明妈妈几岁?
回答正确✅,看来这种问题已经难不倒AI了
第二个问题:场景分析
9.9和9.11哪个大
回答错误❌,不假思索张口就来😂
看来还要引导才行,经过引导Gemini才给出差不多的答案
第三个问题:字符统计
strawberry中有几个r?
回答错误❌,嘴还挺硬,需要继续引导
文件处理
本人尝试无法直接上传文件引用(图片可以,文件上传成功了,只是Google AI Studio报错了),可以先上传文件到Google Drive再选择使用
第一个问题:识别图片内容输出markdown格式
效果非常好,内容识别很准确
第二个问题:总结文本内容
文章内容提炼总结的效果看着也还可以
第三个问题:图片特征识别与提取
第四个问题:图形识别
文生图
第一个问题:科幻风格图片
css
a striking and surreal scene that combines elements of both the natural world and fantasy. Dominating the composition is a massive, reptilian eye, filling almost the entire frame. The eye is highly detailed, with a slit-like pupil that suggests it belongs to a large, powerful creature, perhaps a dragon or another mythical being. The texture around the eye is rugged and scaly, giving the impression of ancient, weathered skin. In the lower portion of the image, a solitary human figure stands before the eye, dressed in a flowing black robe. The figure is tiny in comparison to the colossal eye, emphasizing the vast difference in scale and power between the two. The person stands on a surface that appears to be water or mist, which reflects the eerie, otherworldly light that surrounds the scene. The atmosphere is misty and dreamlike, adding to the sense of mystery and awe. Overall, the image is both dramatic and thought-provoking, blending cultural elements with a fantastical imagination to create a visually captivating scene.
不支持文生图🥶
模型对比
可以选择不同的模型进行对比,查看模型响应时间及回答结果,借助模型对比功能,我们可以选择更适合自己的模型
模型选择
在右侧【Model】下拉可以选择模型和查看模型的详细信息,包含token费用情况及使用限制
工具
Google AI Studio提供了对模型的基本参数配置,对模型使用有更高要求的小伙伴,可以在工具栏自定义需要的参数
额度及使用限制
以 Gemini 2.0 Flash Experimental 为例,使用限制如下:
免费版限制:
- 上下文token数为1048576
- 服务的请求速率限制是每分钟10次,
- 该服务每天最多允许1500次请求。
API Key
Google AI Studio 中 API Key 的获取和使用方式可以参考之前的文章:使用Roo Cline体验Gemini2.0的新方式
Stream Realtime(实时流)
右侧的输出类型最好选择Text,语音听不懂是什么语种
Stream Realtime是Google AI Studio提供的实时流功能,可以使用 麦克风实时对话、摄像头实时共享所见内容、共享屏幕,在某些场景下这将极大的帮助我们获取实时信息,如可以与Gemini实时对话练习口语、使用摄像头向Gemini询问现实中的事物、共享屏幕获取让Gemini指导我们玩游戏、翻译学习等
Stream Realtime提供了 Audio、Text 两种输出格式,可以根据情况选择
Talk to Gemini(实时语音)
点击【Talk to Gemini】进入实时语音模式,过程中会请求麦克风权限,默认同意即可
Gemini会根据语音内容进行回复
Show Gemini(实时视频)
点击【Show Gemini】进入摄像头共享模式,过程中会请求摄像头权限,默认同意即可
获取到摄像头权限后会在右下角看到实时画面,问AI摄像头中出现的物品后,可以看到Gemini给出了可能性的答案
Share Your Screen(屏幕共享)
点击【Share your screen】进入屏幕共享模式
选择需要进行屏幕共享的窗口
直接通过语音或者问题描述问题,Gemini就会截取当前时段的视频、音频并根据视频、音频或者提示词进行分析回复
初步试了一下,感觉给出的问题答案还是比较准确的。示例窗口是领扣的"76. 最小覆盖子串"算法问题,通过屏幕共享让Gemini帮我解决,Gemini很快给出了回复,将Gemini给出的答案在领扣上测试也通过了测试用例,这个就有些强了👍。
Starter Apps(Gemini应用)
这里是Gemini的能力应用,包括 空间理解、视频分析、地图探索
Spatial Understanding(空间理解)
点击【Spatial Understanding】进入空间理解应用
Gemini提供了对图片的2D、3D及位置的检查分析,我们可以根据自己的需求自由选择。我们选择一张内置的图片,选择2D边界盒子,点击【Send】查看一下效果
从预览效果上看识别结果还挺准确的,我们还可以针对具体物品进行提问获取我们想要的结果。
查看位置信息可以点击【Points】然后点击【Send】
会得到具体的物品位置坐标信息(提供的坐标是相对于图片的,经过归一化处理,范围在0-1000之间。也就是说,例如[500, 250]表示的是图片高度的50%和宽度的25%的位置)
Video Analyzer(视频分析)
点击【Video Analyzer】进入视频分析应用
点击【My Drive】或者【Upload File】上传视频文件
感兴趣的小伙伴可以根据自己的喜好尝试,这里以【A/V captions】(A/V字幕)为例,选择【A/V captions】点击【Generate】生成
等待几秒就可以看到场景分析结果
Map Explorer(地图浏览器)
点击【Map Explorer】进入地图浏览器应用
使用地图浏览器的快捷操作或者聊天可以快速切换到不同的国家的不同地区
还是挺赞的,是一个学习地理和旅游攻略完美方案。
Tune a Model(优化模型)
这是Google AI Studio提供的模型优化选项,基于gemini-1.5-flash-001-tuning(目前只支持该模型)模型上传自己的数据进行训练微调,有需要的可以自行了解。
Library
展示历史提示词记录
Prompt Gallery(提示词广场)
Google AI Studio内置多个优秀提示词示例,可以在提示词广场查看学习
体感
抛去Google AI Studio使用环境上的限制,在Google AI Studio上我们可以免费体验Gemini的所有模型,无需任何费用,这点对AI小白就非常友好。除此之外,Google AI Studio提供的3个实时流功能和3个场景应用也是比较好用的,极大的增强了AI体感,在某些使用场景下可以极大的提高效率。
友情提示
见原文:Google AI Studio强大的Gemini AI模型集成平台)
本文同步自微信公众号 "程序员小溪" ,这里只是同步,想看及时消息请移步我的公众号,不定时更新我的学习经验。