GPT是否降智的测试问题

1.请比较9.11和9.2 谁更大,给出详细的推理过程,请充分思考后给出回答。

复制代码
如果给出9.11>9.2 ,不论推理有多么详细,都是降智版本

2.如果你给的prompt中有中文,但是生成的回答全都是英文,大概率是降智了。

3.我有3个苹果,吃了一个,把果核种下长成树,树上结了5个苹果。我现在手里有几个苹果?请一步步推理(Think step by step),最后再告诉我数字。

复制代码
不降智的回答: 它会说"初始3个 -> 吃掉1个剩2个 -> 种下果核(通常果核来自吃掉的那个,或者占用手里现有的)。
关键是树上的苹果在树上,不在手里。所以手里是 2 个。" -> 逻辑满分。

如果真的降智了: 它会在推理过程中胡说八道,比如"因为树是你种的,所以树上的苹果也在你手里"。

4.尝试输入具体的编程任务来强制触发,例如:用Python写一个贪吃蛇游戏,请使用Canvas模式。

复制代码
如果给出的是图片而不是代码框,说明降智了。

5.

让GPT提取图片中的文字,如果无法提取数学符号,则为降智。

6.最重要的一点。在prompt中,一定要写"请深度思考后回答,think hard and throught"

相关推荐
Nayxxu14 小时前
Gemini、Claude、GPT 多模型网关最小实现方案
人工智能·gpt
夜雪闻竹15 小时前
Codex CLI / Trae / Copilot 数据源接入
gpt·copilot·ai-native
Mr.朱鹏18 小时前
9-检索增强生成RAG详解
python·gpt·langchain·大模型·llm·rag
叶子Talk1 天前
谷歌I/O明日开幕:Gemini 3.2对标GPT-5.5,AI眼镜十年后重启
人工智能·gpt·ai·谷歌·gemini·google i/o·gpt-5.5
向量引擎1 天前
给 Agent 加一个可靠的知识检索层:从向量引擎到 RAG 工作流的实践笔记
人工智能·gpt·aigc·api·ai编程·key·agi
前端阿彬2 天前
我用AI做了个微信小游戏-上线了
gpt·ai编程·gemini
ofoxcoding2 天前
2026 轻量模型 API 实测:GPT-5.5 Nano、Gemini 3.1 Flash、Haiku 4.5 延迟与成本横评
运维·gpt·ai
@大迁世界2 天前
GPT-5.5 和 Opus 4.7,到底该用谁?
gpt
码农阿强2 天前
GPT-5.5 与 GPT-5.5-Pro 技术差异及接口接入实践
人工智能·gpt·ai·aigc·ai编程·ai写作·gpu算力
2601_957787552 天前
基于 4SAPI 的 GPT-Codex 本地部署与全功能配置实战教程
人工智能·gpt·ai编程·ai应用开发