GPT是否降智的测试问题

1.请比较9.11和9.2 谁更大,给出详细的推理过程,请充分思考后给出回答。

复制代码
如果给出9.11>9.2 ,不论推理有多么详细,都是降智版本

2.如果你给的prompt中有中文,但是生成的回答全都是英文,大概率是降智了。

3.我有3个苹果,吃了一个,把果核种下长成树,树上结了5个苹果。我现在手里有几个苹果?请一步步推理(Think step by step),最后再告诉我数字。

复制代码
不降智的回答: 它会说"初始3个 -> 吃掉1个剩2个 -> 种下果核(通常果核来自吃掉的那个,或者占用手里现有的)。
关键是树上的苹果在树上,不在手里。所以手里是 2 个。" -> 逻辑满分。

如果真的降智了: 它会在推理过程中胡说八道,比如"因为树是你种的,所以树上的苹果也在你手里"。

4.尝试输入具体的编程任务来强制触发,例如:用Python写一个贪吃蛇游戏,请使用Canvas模式。

复制代码
如果给出的是图片而不是代码框,说明降智了。

5.

让GPT提取图片中的文字,如果无法提取数学符号,则为降智。

6.最重要的一点。在prompt中,一定要写"请深度思考后回答,think hard and throught"

相关推荐
victory04311 天前
同一prompt下 doubao qwen gpt kimi的模型训练时长预测不同表现
gpt·prompt
向量引擎2 天前
【万字硬核】解密GPT-5.2-Pro与Sora2底层架构:从Transformer到世界模型,手撸一个高并发AI中台(附Python源码+压测报告)
人工智能·gpt·ai·aigc·ai编程·ai写作·api调用
程序员佳佳2 天前
【万字硬核】从GPT-5.2到Sora2:深度解构多模态大模型的“物理直觉”与Python全栈落地指南(内含Banana2实测)
开发语言·python·gpt·chatgpt·ai作画·aigc·api
向量引擎3 天前
[架构师级] 压榨GPT-5.2与Sora 2的极限性能:从单体调用到高并发多模态Agent集群的演进之路(附全套Python源码与性能调优方案)
开发语言·人工智能·python·gpt·ai·ai写作·api调用
workflower3 天前
Gpt 5 mini自动识别用例
gpt·测试用例·集成测试·需求分析·软件需求·结对编程
百***78754 天前
Gemini 3.0 Pro与2.5深度对比:技术升级与开发实战指南
开发语言·python·gpt
@我们的天空4 天前
【AI应用】学习和实践基于 LangChain/LangGraph 的链(Chain)构建、Agent 工具调用以及多轮对话流程的实现
人工智能·gpt·学习·语言模型·chatgpt·langchain·aigc
星云POLOAPI4 天前
【2025实测】10大AI模型API中转/聚合平台横评:一键集成GPT/Claude/文心一言,拒绝重复造轮子
人工智能·gpt·文心一言
百***24375 天前
Gemini 3.0 Pro 对决 GPT-5.2:编程场景深度横评与选型指南
gpt
return19996 天前
gpt进行修改润色 不要和原来的一样
gpt·深度学习