上周AI圈密度拉满,GTC发布了三颗芯片、GPT-5.4开放Computer Use、Anthropic搞起了AI审查AI的代码流水线、英伟达还开源了一个Agent专用大模型。
这篇聊聊我对这些事的理解,重点放在对开发者实际有用的部分。
GTC 2026:三颗芯片各打一个位置
黄仁勋这次搞了个意外------把原定2028年量产的Feynman架构提前拿出来秀了。台积电A16(1.6nm),首次用硅光子光互连,带宽密度提升10倍。
但对我们写代码的人来说,今年下半年量产的 Vera Rubin 更值得关注。核心数据:
- 台积电3nm + HBM4,单卡288GB显存
- FP4推理算力突破50 PFLOPS
- 单Token生成成本降到原来的1/10
推理成本降到1/10意味着什么?算一笔账:
python
# 假设当前 GPT-4 级别模型的推理成本
current_cost_per_1k_tokens = 0.03 # 美元
monthly_tokens = 50_000_000 # 5000万 token/月
current_monthly = current_cost_per_1k_tokens * monthly_tokens / 1000
future_monthly = current_monthly / 10
print(f"当前月费: ${current_monthly:,.0f}")
print(f"Vera Rubin 铺开后: ${future_monthly:,.0f}")
print(f"节省: ${current_monthly - future_monthly:,.0f}/月")
# 输出:
# 当前月费: $1,500
# Vera Rubin 铺开后: $150
# 节省: $1,350/月
原来因为成本卡住的应用场景,很快就能跑通了。
第三颗是 LPU推理专用芯片------英伟达收了Groq技术团队后做的。片上230MB SRAM,80TB/s带宽,首Token延迟低于0.1秒。这颗芯片的意义是:训练和推理正在彻底分家。
GPT-5.4 Computer Use:四个场景实测
GPT-5.4的原生Computer Use不是截图识别,是直接控制鼠标键盘。OpenAI说成功率75%,比人类平均分还高。
我测了四个场景,直接说结果:
场景一:Excel数据分析 --- 打开销售表,做透视表,画柱状图。40秒搞定,零失误。
场景二:预订会议室 --- Google Calendar找空闲时间、建会议、发邀请。中间点错一次,总耗时1分钟。
场景三:部署Web应用 --- 最流畅的场景。50秒完成SSH + 拉代码 + 装依赖 + 重启。
场景四:填报销单 --- 翻车了。PDF识别没问题,但字段映射搞错,金额填到日期栏。
如果你想用Python搭一套类似的自动化流程,思路大概是这样:
python
import pyautogui
import subprocess
import time
class SimpleComputerAgent:
"""简易桌面自动化 Agent(GPT-5.4 之前的土办法)"""
def deploy_app(self, host, repo_path):
"""场景三的脚本化实现"""
commands = [
f"ssh {host} 'cd {repo_path} && git pull origin main'",
f"ssh {host} 'cd {repo_path} && pip install -r requirements.txt'",
f"ssh {host} 'sudo systemctl restart myapp'",
]
for cmd in commands:
result = subprocess.run(cmd, shell=True, capture_output=True, text=True)
if result.returncode != 0:
print(f"[FAIL] {cmd}\n{result.stderr}")
return False
print(f"[OK] {cmd}")
return True
def check_service(self, host, port=8080):
"""部署后健康检查"""
import urllib.request
try:
resp = urllib.request.urlopen(f"http://{host}:{port}/health", timeout=10)
return resp.status == 200
except Exception as e:
print(f"健康检查失败: {e}")
return False
# 用法
agent = SimpleComputerAgent()
agent.deploy_app("prod-server", "/opt/myapp")
agent.check_service("prod-server")
结论:GPT-5.4操作电脑已经到了"简单任务能用、复杂任务还会翻车"的阶段。按这个曲线,年底可靠性到90%不是问题。
AI审查AI代码:工具链闭环正在形成
Anthropic给Claude Code加了代码审查功能。背景很现实------企业里AI写的代码越来越多,总不能让工程师一行行去读,那AI省的时间又花回去了。
这套东西接CI/CD流程,每次commit自动跑。如果你用GitHub Actions,配置大概长这样:
yaml
# .github/workflows/ai-review.yml
name: AI Code Review
on:
pull_request:
types: [opened, synchronize]
jobs:
review:
runs-on: ubuntu-latest
steps:
- uses: actions/checkout@v4
with:
fetch-depth: 0
- name: Get changed files
id: diff
run: |
echo "files=$(git diff --name-only origin/main...HEAD | tr '\n' ' ')" >> $GITHUB_OUTPUT
- name: AI Review
env:
ANTHROPIC_API_KEY: ${{ secrets.ANTHROPIC_API_KEY }}
run: |
# 把diff内容发给Claude做review
git diff origin/main...HEAD | curl -s https://api.anthropic.com/v1/messages \
-H "x-api-key: $ANTHROPIC_API_KEY" \
-H "anthropic-version: 2023-06-01" \
-H "content-type: application/json" \
-d @- << EOF
{
"model": "claude-sonnet-4-20250514",
"max_tokens": 4096,
"messages": [{"role": "user", "content": "Review this git diff for bugs, security issues, and code quality:\n$(git diff origin/main...HEAD | head -500)"}]
}
EOF
更有意思的是趋势本身。AI写代码的工具链正在从单点走向闭环:
- AI写代码(Copilot/Cursor/Claude Code)
- AI审查代码(现在这一步)
- AI发现bug后自己修(已有雏形)
- AI从需求到部署全自动(Agent终极形态)
我们正在从第二步往第三步走,速度比多数人预期的快。
Nemotron 3 Super:芯片公司做大模型的逻辑
英伟达开源了Nemotron 3 Super,1200亿总参数,120亿激活参数,支持100万Token上下文。用了Mamba-2 + MoE混合架构,专为Agent场景优化。
如果你有英伟达的卡,本地跑一下试试:
bash
# 用 vLLM 部署 Nemotron 3 Super
pip install vllm
# 单卡 A100/H100 就能跑(只激活120亿参数)
python -m vllm.entrypoints.openai.api_server \
--model nvidia/Nemotron-3-Super-120B-Instruct \
--tensor-parallel-size 1 \
--max-model-len 65536 \
--port 8000
# 测试 Agent 场景:多步工具调用
curl http://localhost:8000/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "nvidia/Nemotron-3-Super-120B-Instruct",
"messages": [
{"role": "system", "content": "You are an AI agent with access to tools: [search, calculator, code_executor]. Use them to solve tasks step by step."},
{"role": "user", "content": "查询今天BTC价格,计算如果在3万美元买入10个,现在盈亏多少"}
],
"temperature": 0.1
}'
英伟达做模型的逻辑跟苹果做Final Cut Pro一样------软硬件一体化是最深的护城河。Nemotron跑在Blackwell上的性能一定比跑在AMD卡上好。
其他几件值得关注的事
DeepSeek 100万Token上下文。我拿到测试资格了,丢了20万字的合同进去问第47页第三段说了什么,答对了。长上下文正在从PPT数字变成真能用的东西。
智谱GLM-5-Turbo。39元/月体验卡包3500万Token,同时API涨价20%。典型的To C做流量、To B赚利润。
中国大模型调用量首超美国。IDC数据,2月份单周突破5万亿Token。国内AI落地比很多人以为的快。
这周最该记住的一件事
推理成本降到1/10。
模型再强,用不起就是论文里的数字。推理成本从一万降到一千,市场直接扩大十倍。
过去两年的主旋律是"模型越做越大"。从今年开始,主旋律切换成了降成本、扩覆盖、让更多人用得上。英伟达降硬件成本,DeepSeek用更少算力做更好模型,OpenAI把能力下放到免费版。
一个80分但便宜的模型,商业价值往往大于一个95分但贵十倍的模型。
关注公众号 92year,每天一篇AI工具深度实测