Gemini 开放香港了，大陆开发者的 API 能跟着薅吗？实测 3 种方案

昨天刷朋友圈全是「Google Gemini 正式进军香港」的消息，什么"无须 VPN 即可使用""全民 AI 时代来了"。作为一个每天都在调 API 的人，我第一反应不是"终于能跟 Gemini 聊天了"------而是：API 也放开了吗？免费额度还在吗？大陆开发者能不能跟着沾光？

于是花了一晚上把几种方案都测了一遍，结果有点出乎意料。

先说结论

方案	能用吗	延迟	免费额度	适合谁
Google AI Studio 直连	❌ 大陆 403	-	-	海外/港澳开发者
香港节点中转	✅	150-300ms	有（Google 免费层）	个人开发者/测试
聚合 API 服务	✅	80-200ms	看平台	生产环境/懒人

一句话总结：香港开放的是消费端（gemini.google.com），API 端大陆开发者还是得绕。但好消息是，Gemini 3 Flash 的免费额度依然在，薅羊毛还是可以的。

到底开放了什么？

先搞清楚 Google 这次做了什么。

3 月 16 日，Google 宣布 Gemini 网页版和 Android 端逐步向全体香港用户开放。之前只有 Google Workspace 企业用户能用，现在个人用户也行了。

但注意------这是消费端产品。就是你打开 gemini.google.com，能跟 AI 对话、生成图片那个。

开发者关心的 API（通过 Google AI Studio 或 Vertex AI 调用），没有变化 。API endpoint 还是 generativelanguage.googleapis.com，大陆 IP 还是 403。

所以标题党说的"免魔法用 Gemini"------对，但仅限聊天，不是 API。

当前 Gemini 模型和免费额度

既然要薅，先搞清楚能薅什么。截至 2026 年 3 月，Gemini API 的模型矩阵：

模型	定位	免费层	上下文
Gemini 3.1 Pro Preview	旗舰推理	❌ 仅付费	1M tokens
Gemini 3 Flash Preview	快速推理	✅ 有免费额度	1M tokens
Gemini 2.5 Pro	上代旗舰	✅ 有免费额度	1M tokens
Gemini 2.5 Flash	上代快速	✅ 有免费额度	1M tokens

重点：Gemini 3.1 Pro 没有免费层。想白嫖最新旗舰模型？不行。但 Gemini 3 Flash 和 2.5 系列都有免费额度，日常开发测试完全够用。

免费层的限制大概是 15 RPM、1000 RPD，够你写 demo 和小项目了。

方案一：Google AI Studio 直连（海外/港澳限定）

这是最"正统"的方式。去 Google AI Studio 注册，拿 API Key，直接调。

python 复制代码

from google import genai

client = genai.Client(api_key="你的API_KEY")

response = client.models.generate_content(
    model="gemini-3-flash-preview",
    contents="用一句话解释什么是 Transformer"
)
print(response.text)

实测结果：

大陆网络直连------ConnectionError，意料之中。

开了香港节点之后------正常返回，延迟 200ms 左右。

所以如果你人在香港或者有稳定的海外环境，直连是最省事的。但如果你的服务跑在国内服务器上，这条路走不通。

方案二：自建中转代理

思路很简单：在香港或海外搞台服务器，跑个反向代理，把请求转发到 Google API。

Nginx 配置大概长这样：

nginx 复制代码

server {
    listen 443 ssl;
    server_name gemini-proxy.你的域名.com;

    location /v1beta/ {
        proxy_pass https://generativelanguage.googleapis.com/v1beta/;
        proxy_set_header Host generativelanguage.googleapis.com;
        proxy_ssl_server_name on;
        proxy_connect_timeout 60s;
        proxy_read_timeout 120s;
    }
}

然后 Python 里改一下 endpoint：

python 复制代码

import openai

# Gemini API 兼容 OpenAI 协议
client = openai.OpenAI(
    api_key="你的_GEMINI_API_KEY",
    base_url="https://gemini-proxy.你的域名.com/v1beta/openai/"
)

response = client.chat.completions.create(
    model="gemini-3-flash-preview",
    messages=[{"role": "user", "content": "Transformer 的核心创新是什么？"}]
)
print(response.choices[0].message.content)

实测结果：

用了一台香港轻量云（某厂 24 元/月那种），延迟 150-300ms，能用但偶尔抖动。关键问题是：

得自己维护------SSL 证书、服务器续费、Google 封 IP 了得换
免费额度是 Google 账号级别的------代理不影响，该限还是限
流式响应要额外配置------Nginx 默认 buffer 会把 SSE 流吞掉

适合有运维能力的个人开发者，不适合团队或生产环境。

方案三：聚合 API 服务

这是我现在实际在用的方案。市面上有不少聚合 API 平台，统一封装了 OpenAI、Claude、Gemini 等模型的接口，改个 base_url 就能切换。

我后来换了 ofox.ai 的聚合接口，原因很简单：国内直连、不用自己维护代理、而且兼容 OpenAI SDK 协议------意味着已有代码改一行就能用。

python 复制代码

import openai

client = openai.OpenAI(
    api_key="你的聚合平台_KEY",
    base_url="https://api.ofox.ai/v1"
)

# 调 Gemini
response = client.chat.completions.create(
    model="gemini-3-flash-preview",
    messages=[{"role": "user", "content": "Transformer 的核心创新是什么？"}]
)
print(response.choices[0].message.content)

# 同样的代码，换个 model 名就能调 Claude
response2 = client.chat.completions.create(
    model="claude-sonnet-4-6",
    messages=[{"role": "user", "content": "同样的问题，你怎么看？"}]
)
print(response2.choices[0].message.content)

实测结果：

延迟 80-200ms（阿里云/火山云加速），流式响应开箱即用。最大的好处是一套代码同时能调 50 多个模型，对比测试的时候特别方便。

踩坑记录

一晚上测下来踩了不少坑，记录几个关键的：

坑 1：Gemini 3 Pro 已弃用

如果你之前的代码写的是 gemini-3-pro-preview，现在会报错。Google 在 3 月 9 号就把这个模型下线了，得迁移到 gemini-3.1-pro-preview（付费）或者用 gemini-3-flash-preview（免费）。

python 复制代码

# ❌ 已弃用，会报 404
model="gemini-3-pro-preview"

# ✅ 新旗舰（付费）
model="gemini-3.1-pro-preview"

# ✅ 免费快速模型
model="gemini-3-flash-preview"

坑 2：免费层 Rate Limit 比文档说的更严

文档说免费层 15 RPM，实际我测下来有时候 8-10 个请求就触发 429 了。怀疑跟 Google 账号的"信任度"有关------新注册的号限制更严。

解决办法：在请求里加重试逻辑。

python 复制代码

import time

def call_with_retry(client, **kwargs):
    for attempt in range(3):
        try:
            return client.chat.completions.create(**kwargs)
        except openai.RateLimitError:
            wait = 2 ** attempt * 5  # 5s, 10s, 20s
            print(f"触发限流，等待 {wait}s 后重试...")
            time.sleep(wait)
    raise Exception("重试 3 次仍失败")

坑 3：流式响应在 Nginx 代理后卡住

自建代理时，Gemini 的 SSE 流式响应死活出不来。排查了半天发现是 Nginx 的 proxy_buffering 默认开启，把 chunk 都缓存了。

nginx 复制代码

# 加这三行就好了
proxy_buffering off;
proxy_cache off;
chunked_transfer_encoding on;

坑 4：OpenAI 兼容协议的模型名映射

Gemini API 原生用的是 generativelanguage.googleapis.com/v1beta/openai/ 这个 OpenAI 兼容端点，但模型名有些跟原生 SDK 不一样。比如你用 genai.Client 时模型叫 gemini-3-flash-preview，但走 OpenAI 兼容接口时也是同名------这个倒没坑，只是容易让人以为会不一样。

真正的坑是：不是所有 Gemini 功能都能通过 OpenAI 协议调用。比如图片生成、代码执行这些 Gemini 独有功能，走 OpenAI SDK 调不了，得用原生 SDK。

小结

Google 开放香港 Gemini 这事，对大陆开发者来说象征意义大于实际意义。消费端开放了，API 端没变。但换个角度想，至少说明 Google 在推进 AI 服务的地区覆盖，后面大陆正式开放也不是没可能（虽然不知道要等多久）。

目前实际可行的路线：

个人测试：Google AI Studio + 香港节点，薅 Gemini 3 Flash 免费额度
生产环境：聚合 API 服务，省心省力，一套代码跑多个模型
企业级：Google Cloud 合作伙伴方案（贵，但合规）

Gemini 3 Flash 的能力其实已经很强了，免费额度日常够用。真要上 3.1 Pro 旗舰，那就得掏钱了------不过哪家的旗舰模型不掏钱呢，对吧。