o3 猜照片位置深度思考 6 分 48 秒全程高能,范围精确到 “这么近那么美”

ChatGPT 新玩法,让程序员大佬 Simon Willison 直呼太反乌托邦了,像科幻突然变成现实:

只需一张照片,靠带图深度思考就能猜出地理位置。

这种玩法很简单,随手拍一张风景,没有任何明显的地标即可,也不需要复杂的提示词,只需要问 "猜猜这张照片是在哪里拍的?"(需要 o3/o4-mini 的带图思考,先关闭所有记忆功能)。

只见 ChatGPT 从山看到植物,从建筑细节分析到车辆,运行代码截取放大车牌数次。

最终得出结果,离准确答案只差 200-300 公里,相当于从北京到河北,这么近那么美。

ChatGPT 的策略是先猜个大概,再根据画面细节一步步缩小范围锁定结论,给出的依据如下:

首先车牌是加州样式→基本确定在加州。

很多加州常见植物和标志性蓝天→典型的加州中部沿海植被和气候。

低矮的淡色海滩小屋,配有白色尖桩篱笆和绳索和柱子搭建的露台栏杆→圣克鲁斯和皮斯莫之间的海滩小镇的常见建筑。

城镇后面连绵起伏的绿色海岸山脉(没有高峰,没有雪)→符合圣卢西亚 / 圣克鲁斯沿海丘陵。

最终 ChatGPT 给出结论:

综合起来,这张照片指向一号公路边上的一个小村庄。村舍林立,背靠群山,颇有加州坎布里亚 (莫罗湾和卡尤科斯以北)的风情。我猜你是在坎布里亚西村的一家咖啡馆露台上拍的这张照片,离月光石海滩大道大概一两个街区远。

(如果我错了,备选答案是半月湾到更北边的埃尔格拉纳达,但坎布里亚是我的第一直觉!)

正确答案正是在埃尔格拉纳达附近的一家露天酒吧里拍的,ChatGPT 只靠一小段道路、一栋无名的房子和背景中的小山猜得非常接近。

看到这里,论坛上专门玩猜照片位置的竞技级玩家也不得不服气,承认 AI 能记住的信息远超人类大脑能力。

一张照片裁剪放大 25 次

作者 Simon Willison 分享了完整的对话记录,包括 6 分钟的完整深度思考记录。

虽然 ChatGPT 能猜得很接近,但过程还是很波折。

首先是一个开幕雷击,AI 突然 "瞎" 了认为自己无法直接看到图片。

可能是训练数据包含太多之前单模态语言模型的数据太多了,不过丝毫不影响后面继续发挥。

现浏览一下整体,ChatGPT 心里就已经大致有数,后面都是寻找证据。

放大车牌这一步动用了代码工具,

基本锁定了加州作为大方向,开始进一步分析细节。

接下来反复裁剪、放大照片的某个区域,思考它所看到的内容,将其与之前的观察结果进行比较,然后再次裁剪、放大和分析。

它就这样持续思考了 6 分多钟,期间也有裁剪错位置。

不过每一次都能退回上一步重来。

在深度思考的结尾,ChatGPT 甚至尝试把范围缩小到一个具体的餐厅。

整个过程看下来,作者 Simon Willison 怀疑模型的视觉输入分辨率很低,所以裁剪到更靠近车牌的位置会对思考过程产生重大影响。

但对一张照片裁剪操作 25 次还是有些夸张了。

o3 不是唯一一个能根据照片猜测地理位置的 AI 模型,但它的独特之处就在于工具使用被集成到推理阶段。

预计其他模型开发商也会跟进这个特性。

后面 Simon Willison 还发现一点小疏忽,ChatGPT 应用其实能获取使用者的大致位置信息,可能是为了改进联网搜索结果加上的。

不过这不影响试验的结果,如果 ChatGPT 知道位置信息,就不会把真正的答案埃尔格拉纳达放到备选结果里。

为了验证这一点,作者还试验了两张在数千公里外旅行时的照片,且通过截图抹除照片的 EXIF 信息,o3 也都猜对了。

试试你能不能猜出来这两张照片分别在哪里?

ChatGPT 悄悄更新,但是不知道更新了什么

就在这半个周末,ChatGPT 再次悄悄更新,GPT-4o 的智力和个性都得到升级。

不过只有奥特曼的一句话,到底更新的是 APP 呢还是 API 呢还是都升级了呢,还要靠员工来补充:只有 ChatGPT 应用上升级了。

OpenAI 这种越来越不透明的现象也被更多人批评。

更详细的信息(也不太详细)发布在 ChatGPT 帮助中心的更新日志里。

有人感觉到 GPT-4o 升级之后有什么变化么?欢迎在评论区分享。

参考链接:

1\][simonwillison.net/2025/Apr/26...](https://link.juejin.cn?target=https%3A%2F%2Fsimonwillison.net%2F2025%2FApr%2F26%2Fo3-photo-locations%2F "https://simonwillison.net/2025/Apr/26/o3-photo-locations/") \[2\][news.ycombinator.com/item?id=438...](https://link.juejin.cn?target=https%3A%2F%2Fnews.ycombinator.com%2Fitem%3Fid%3D43803243 "https://news.ycombinator.com/item?id=43803243") \[3\][x.com/sama/status...](https://link.juejin.cn?target=https%3A%2F%2Fx.com%2Fsama%2Fstatus%2F1915902652703248679 "https://x.com/sama/status/1915902652703248679") \[4\][help.openai.com/en/articles...](https://link.juejin.cn?target=https%3A%2F%2Fhelp.openai.com%2Fen%2Farticles%2F9624314-model-release-notes "https://help.openai.com/en/articles/9624314-model-release-notes") **欢迎在评论区留下你的想法!** --- **完** ---

相关推荐
B博士34 分钟前
科研进展 | JAG: 大光斑高光谱激光雷达遥感辐射传输模型从垂直视角解锁森林叶绿素分布密码
人工智能·jag·高光谱激光雷达·森林分层叶绿素诊断
Yao.Li1 小时前
PVN3D ORT CUDA Custom Ops 实现与联调记录
人工智能·3d·具身智能
诺伦2 小时前
LocalClaw 在智能制造的新机会:6部门AI+电商政策下的工厂AI升级方案
人工智能·制造
小陈工3 小时前
Python Web开发入门(十七):Vue.js与Python后端集成——让前后端真正“握手言和“
开发语言·前端·javascript·数据库·vue.js·人工智能·python
墨染天姬8 小时前
【AI】端侧AIBOX可以部署哪些智能体
人工智能
AI成长日志8 小时前
【Agentic RL】1.1 什么是Agentic RL:从传统RL到智能体学习
人工智能·学习·算法
2501_948114248 小时前
2026年大模型API聚合平台技术评测:企业级接入层的治理演进与星链4SAPI架构观察
大数据·人工智能·gpt·架构·claude
小小工匠8 小时前
LLM - awesome-design-md 从 DESIGN.md 到“可对话的设计系统”:用纯文本驱动 AI 生成一致 UI 的新范式
人工智能·ui
黎阳之光8 小时前
黎阳之光:视频孪生领跑者,铸就中国数字科技全球竞争力
大数据·人工智能·算法·安全·数字孪生
小超同学你好8 小时前
面向 LLM 的程序设计 6:Tool Calling 的完整生命周期——从定义、决策、执行到观测回注
人工智能·语言模型