Gemini 开放香港了,大陆开发者的 API 能跟着薅吗?实测 3 种方案

昨天刷朋友圈全是「Google Gemini 正式进军香港」的消息,什么"无须 VPN 即可使用""全民 AI 时代来了"。作为一个每天都在调 API 的人,我第一反应不是"终于能跟 Gemini 聊天了"------而是:API 也放开了吗?免费额度还在吗?大陆开发者能不能跟着沾光?

于是花了一晚上把几种方案都测了一遍,结果有点出乎意料。

先说结论

方案 能用吗 延迟 免费额度 适合谁
Google AI Studio 直连 ❌ 大陆 403 - - 海外/港澳开发者
香港节点中转 150-300ms 有(Google 免费层) 个人开发者/测试
聚合 API 服务 80-200ms 看平台 生产环境/懒人

一句话总结:香港开放的是消费端(gemini.google.com),API 端大陆开发者还是得绕。但好消息是,Gemini 3 Flash 的免费额度依然在,薅羊毛还是可以的。

到底开放了什么?

先搞清楚 Google 这次做了什么。

3 月 16 日,Google 宣布 Gemini 网页版和 Android 端逐步向全体香港用户开放。之前只有 Google Workspace 企业用户能用,现在个人用户也行了。

但注意------这是消费端产品。就是你打开 gemini.google.com,能跟 AI 对话、生成图片那个。

开发者关心的 API(通过 Google AI Studio 或 Vertex AI 调用),没有变化 。API endpoint 还是 generativelanguage.googleapis.com,大陆 IP 还是 403。

所以标题党说的"免魔法用 Gemini"------对,但仅限聊天,不是 API。

当前 Gemini 模型和免费额度

既然要薅,先搞清楚能薅什么。截至 2026 年 3 月,Gemini API 的模型矩阵:

模型 定位 免费层 上下文
Gemini 3.1 Pro Preview 旗舰推理 ❌ 仅付费 1M tokens
Gemini 3 Flash Preview 快速推理 ✅ 有免费额度 1M tokens
Gemini 2.5 Pro 上代旗舰 ✅ 有免费额度 1M tokens
Gemini 2.5 Flash 上代快速 ✅ 有免费额度 1M tokens

重点:Gemini 3.1 Pro 没有免费层。想白嫖最新旗舰模型?不行。但 Gemini 3 Flash 和 2.5 系列都有免费额度,日常开发测试完全够用。

免费层的限制大概是 15 RPM、1000 RPD,够你写 demo 和小项目了。

方案一:Google AI Studio 直连(海外/港澳限定)

这是最"正统"的方式。去 Google AI Studio 注册,拿 API Key,直接调。

python 复制代码
from google import genai

client = genai.Client(api_key="你的API_KEY")

response = client.models.generate_content(
    model="gemini-3-flash-preview",
    contents="用一句话解释什么是 Transformer"
)
print(response.text)

实测结果

大陆网络直连------ConnectionError,意料之中。

开了香港节点之后------正常返回,延迟 200ms 左右。

所以如果你人在香港或者有稳定的海外环境,直连是最省事的。但如果你的服务跑在国内服务器上,这条路走不通。

方案二:自建中转代理

思路很简单:在香港或海外搞台服务器,跑个反向代理,把请求转发到 Google API。

Nginx 配置大概长这样:

nginx 复制代码
server {
    listen 443 ssl;
    server_name gemini-proxy.你的域名.com;

    location /v1beta/ {
        proxy_pass https://generativelanguage.googleapis.com/v1beta/;
        proxy_set_header Host generativelanguage.googleapis.com;
        proxy_ssl_server_name on;
        proxy_connect_timeout 60s;
        proxy_read_timeout 120s;
    }
}

然后 Python 里改一下 endpoint:

python 复制代码
import openai

# Gemini API 兼容 OpenAI 协议
client = openai.OpenAI(
    api_key="你的_GEMINI_API_KEY",
    base_url="https://gemini-proxy.你的域名.com/v1beta/openai/"
)

response = client.chat.completions.create(
    model="gemini-3-flash-preview",
    messages=[{"role": "user", "content": "Transformer 的核心创新是什么?"}]
)
print(response.choices[0].message.content)

实测结果

用了一台香港轻量云(某厂 24 元/月那种),延迟 150-300ms,能用但偶尔抖动。关键问题是:

  1. 得自己维护------SSL 证书、服务器续费、Google 封 IP 了得换
  2. 免费额度是 Google 账号级别的------代理不影响,该限还是限
  3. 流式响应要额外配置------Nginx 默认 buffer 会把 SSE 流吞掉

适合有运维能力的个人开发者,不适合团队或生产环境。

方案三:聚合 API 服务

这是我现在实际在用的方案。市面上有不少聚合 API 平台,统一封装了 OpenAI、Claude、Gemini 等模型的接口,改个 base_url 就能切换。

我后来换了 ofox.ai 的聚合接口,原因很简单:国内直连、不用自己维护代理、而且兼容 OpenAI SDK 协议------意味着已有代码改一行就能用。

python 复制代码
import openai

client = openai.OpenAI(
    api_key="你的聚合平台_KEY",
    base_url="https://api.ofox.ai/v1"
)

# 调 Gemini
response = client.chat.completions.create(
    model="gemini-3-flash-preview",
    messages=[{"role": "user", "content": "Transformer 的核心创新是什么?"}]
)
print(response.choices[0].message.content)

# 同样的代码,换个 model 名就能调 Claude
response2 = client.chat.completions.create(
    model="claude-sonnet-4-6",
    messages=[{"role": "user", "content": "同样的问题,你怎么看?"}]
)
print(response2.choices[0].message.content)

实测结果

延迟 80-200ms(阿里云/火山云加速),流式响应开箱即用。最大的好处是一套代码同时能调 50 多个模型,对比测试的时候特别方便。

踩坑记录

一晚上测下来踩了不少坑,记录几个关键的:

坑 1:Gemini 3 Pro 已弃用

如果你之前的代码写的是 gemini-3-pro-preview,现在会报错。Google 在 3 月 9 号就把这个模型下线了,得迁移到 gemini-3.1-pro-preview(付费)或者用 gemini-3-flash-preview(免费)。

python 复制代码
# ❌ 已弃用,会报 404
model="gemini-3-pro-preview"

# ✅ 新旗舰(付费)
model="gemini-3.1-pro-preview"

# ✅ 免费快速模型
model="gemini-3-flash-preview"

坑 2:免费层 Rate Limit 比文档说的更严

文档说免费层 15 RPM,实际我测下来有时候 8-10 个请求就触发 429 了。怀疑跟 Google 账号的"信任度"有关------新注册的号限制更严。

解决办法:在请求里加重试逻辑。

python 复制代码
import time

def call_with_retry(client, **kwargs):
    for attempt in range(3):
        try:
            return client.chat.completions.create(**kwargs)
        except openai.RateLimitError:
            wait = 2 ** attempt * 5  # 5s, 10s, 20s
            print(f"触发限流,等待 {wait}s 后重试...")
            time.sleep(wait)
    raise Exception("重试 3 次仍失败")

坑 3:流式响应在 Nginx 代理后卡住

自建代理时,Gemini 的 SSE 流式响应死活出不来。排查了半天发现是 Nginx 的 proxy_buffering 默认开启,把 chunk 都缓存了。

nginx 复制代码
# 加这三行就好了
proxy_buffering off;
proxy_cache off;
chunked_transfer_encoding on;

坑 4:OpenAI 兼容协议的模型名映射

Gemini API 原生用的是 generativelanguage.googleapis.com/v1beta/openai/ 这个 OpenAI 兼容端点,但模型名有些跟原生 SDK 不一样。比如你用 genai.Client 时模型叫 gemini-3-flash-preview,但走 OpenAI 兼容接口时也是同名------这个倒没坑,只是容易让人以为会不一样。

真正的坑是:不是所有 Gemini 功能都能通过 OpenAI 协议调用。比如图片生成、代码执行这些 Gemini 独有功能,走 OpenAI SDK 调不了,得用原生 SDK。

小结

Google 开放香港 Gemini 这事,对大陆开发者来说象征意义大于实际意义。消费端开放了,API 端没变。但换个角度想,至少说明 Google 在推进 AI 服务的地区覆盖,后面大陆正式开放也不是没可能(虽然不知道要等多久)。

目前实际可行的路线:

  • 个人测试:Google AI Studio + 香港节点,薅 Gemini 3 Flash 免费额度
  • 生产环境:聚合 API 服务,省心省力,一套代码跑多个模型
  • 企业级:Google Cloud 合作伙伴方案(贵,但合规)

Gemini 3 Flash 的能力其实已经很强了,免费额度日常够用。真要上 3.1 Pro 旗舰,那就得掏钱了------不过哪家的旗舰模型不掏钱呢,对吧。

相关推荐
以后换名字20 小时前
delphi对接API的优势
微服务·架构·api·软件架构调整
程序员佳佳1 天前
2025 AI 架构演进:从 Open Claw 到 GPT-5.3,如何用“向量引擎”解决大模型调用的“最后一公里”?
人工智能·gpt·架构·数据分析·aigc·api
爱打代码的小林2 天前
用 OpenAI API 自动化分类智能手表用户问题示例
运维·自动化·大模型·api·智能手表
SkyWalking中文站2 天前
AI Coding 如何重塑软件架构师的工作方式
claude·gemini·vibecoding
Carson带你学Android2 天前
Android 17 重磅发布:详解四大颠覆性变革与保姆级适配指南
google
Qiuner2 天前
浏览器拓展通用安装方法 edge浏览器、谷歌浏览器、google浏览器、火狐浏览器
前端·google·edge
Swift社区3 天前
最强生图模型NanoBanana 2,一手深度测- 附教程
gpt·claude·gemini
bu_shuo3 天前
AI生成的数学公式复制为LaTeX插件
ai·chatgpt·latex·gemini·千问·豆包·数学公式复制
爱打代码的小林3 天前
从模型到 API:Flask+PyTorch 快速搭建图像分类
人工智能·pytorch·分类·api