OpenAI GPT o1技术报告阅读(4)- 填字游戏推理

✨继续阅读报告:使用大模型来学习推理(Reason)

原文链接:https://openai.com/index/learning-to-reason-with-llms/

这次我们继续看一个填字游戏的案例。

我们先看下问题:

解决以下填字游戏:

Across(横向):

1 Evade 中文:躲避

2 One to close envelopes 中文:封信封的工具

3 Mother ______ 中文:母亲______

4 Initiated people 中文:启蒙人们

5 Native American tent 中文:美洲原住民的帐篷

6 Mistakes 中文:错误

Down(纵向):

1 ______ car (Station wagon) 中文:______车(旅行车)

2 Automatic planting machine 中文:自动种植机

3 Profession 中文:职业

4 Syrian and Turkish pepper variety 中文:叙利亚和土耳其的辣椒品种

5 Annoy 中文:烦恼

6 Deletes 中文:删除

先看下GPT4o的回答:

Let's solve the crossword using the provided clues.

Across:

  1. Evade - Dodge

  2. One to close envelopes - Sealer

  3. Mother ______ - Motherland

  4. Initiated people - Insiders

  5. Native American tent - Tepee

  6. Mistakes - Errors

Down:

  1. ______ car (Station wagon) - Family

  2. Automatic planting machine - Seeder

  3. Profession - Career

  4. Syrian and Turkish pepper variety - Aleppo

  5. Annoy - Irritate

  6. Deletes - Erases

Here's how the crossword would look filled in:

【小梦备注:emm,一眼错误,也不需要逐行翻译了,基本它把这题目当成一个寻找近似词了,几乎完全没有管字符数量和字符之间关系的事情了。】

接下来是OpenAI O1 preview上场。

首先是CoT部分:

我们被要求解决这个填字游戏谜题。

让我们首先理解这个格子:

  • 这是一个6x6的格子,从1到11的位置编号如下:

【小梦备注:首先读了一遍题目,仔细审题并尝试理解结构,是个好习惯。】

所以横向的条目编号为1到6,纵向的条目从1到11。

但实际上,线索是:

横向:

  1. Evade 逃避

  2. One to close envelopes 封信封的工具

  3. Mother ______ 母亲______

  4. Initiated people 启蒙人们

  5. Native American tent 美洲原住民的帐篷

  6. Mistakes 错误

纵向:

1 ______ car (Station wagon) ______车(旅行车)

2 Automatic planting machine 自动种植机

3 Profession 职业

4 Syrian and Turkish pepper variety 叙利亚和土耳其的辣椒品种

5 Annoy 烦恼

6 Deletes 删除

首先,让我们尝试正确地编号方格,我认为在这样的格子中,编号是在条目的起始方格。

但我们需要弄清楚单词从哪里开始。

考虑到格子中的编号从1到11,并且1是第一个横向线索。

通常,横向和纵向的线索对应于格子中的编号,并且编号放在我们开始第一个字母的方格中。

考虑到这一点,也许让我们构建一个有意义的格子。

通常在填字游戏编号中,数字是分配给横向和纵向条目的第一个字母,按顺序编号。

考虑到这一点,格子可能是这样的(如果我们有更清晰的图片会更有帮助,但我们将尽力而为。)

[1] [7] [8] [9][10][11]    <-- first row  
[2]                            <-- first letter of Across 2 in the first square of row 2  
[3]                            <-- first letter of Across 3 in the first square of row 3  
[4]                            <-- first letter of Across 4 in the first square of row 4  
[5]                            <-- Across 5  
[6]                            <-- Across 6  

那么对于纵向的条目,第一行中的数字对应于纵向的条目。

纵向

  1. (______ car (station wagon) [Clue is '____ car (station wagon)'])______车(旅行车)[提示是'____车(旅行车)']

数字1位于左上角。

所以纵向1从方格1开始,向下垂直。

同样,纵向7从方格7开始(它在第一行,第二列),然后向下。

其余的数字也是类似。

让我们来标出这些数字。

格子是:

所以横向1从1号方格开始,然后横向延伸。

同样,在第二行,第一个方格编号为2,所以是横向2。

但是纵向的条目在第一行。

纵向1从1号方格开始,然后向下延伸。

同样,纵向7从(1,2)号方格开始,也就是第一行,第二列。

好的,记住这一点,让我们继续解决这个填字游戏。

【小梦备注:大模型在尝试理解结构?毕竟不是多模态,所以貌似它不是很理解平面图这种东西。】

首先,我们需要条目的长度。

横向1从(1,1)开始,根据需要填充方格。

考虑到格子是6个方格宽,6个方格高。

根据格子的尺寸,横向条目可以长达6个字母。

但更有可能的是横向条目从1号方格开始,填充整行。

所以,绘制格子,并填充编号:

位置(行,列):

(1,1): 编号1(横向1从这里开始,纵向1从这里开始)

(1,2): 编号7(纵向7从这里开始)

(1,3): 编号8(纵向8从这里开始)

(1,4): 编号9(纵向9从这里开始)

(1,5): 编号10(纵向10从这里开始)

(1,6): 编号11(纵向11从这里开始)

(2,1): 编号2(横向2从这里开始,可能没有纵向提示从这里开始)

(3,1): 编号3(横向3从这里开始)

...【太重复了,小梦帮你省略了。】

所以每个横向单词从每一行的第一列开始,纵向单词从每一列的第一行开始。

现在让我们计算一下条目有多少个字母。

由于格子是6个方格宽,并且没有黑色方格(假设),每个横向条目可以长达6个字母。

同样,纵向条目可以长达6个字母。

让我们写下带有它们长度的单词。

首先,列出横向单词的单词:

原文:1. Evade (starts at (1,1) and goes across): length is 6 letters.

中文:1. 逃避(从(1,1)开始,然后横向延伸):长度是6个字母。

原文:2. One to close envelopes (starts at (2,1)): length is 6 letters.

中文:2. 封信封的工具(从(2,1)开始):长度是6个字母。

原文:3. Mother ______ (starts at (3,1)): length 6 letters.

中文:3. 母亲______(从(3,1)开始):长度6个字母。

原文:4. Initiated people (starts at (4,1)): length 6 letters.

中文:4. 启蒙人们(从(4,1)开始):长度6个字母。

原文:5. Native American tent (starts at (5,1)): length 6 letters.

中文:5. 美洲原住民的帐篷(从(5,1)开始):长度6个字母。

原文:6. Mistakes (starts at (6,1)): length 6 letters.

中文:6. 错误(从(6,1)开始):长度6个字母。

纵向单词也类似。

纵向提示:

原文:1. ______ car (station wagon) (starts at (1,1)): down from (1,1). So length 6 letters.

中文:1.______车(旅行车)(从(1,1)开始):从(1,1)向下。所以长度6个字母。

原文:7. Automatic planting machine (starts at (1,2)): down from (1,2). Length 6 letters.

中文:7. 自动种植机(从(1,2)开始):从(1,2)向下。长度6个字母。

原文:8. Profession (starts at (1,3)): length 6 letters.

中文:8. 职业(从(1,3)开始):长度6个字母。

原文:9. Syrian and Turkish pepper variety (starts at (1,4)): length 6 letters.

中文:9. 叙利亚和土耳其的辣椒品种(从(1,4)开始):长度6个字母。

原文:10. Annoy (starts at (1,5)): length 6 letters.

中文:10. 使烦恼(从(1,5)开始):长度6个字母。

原文:11. Deletes (starts at (1,6)): length 6 letters.

中文:11. 删除(从(1,6)开始):长度6个字母。

所以所有条目都是6个字母长。

好的,现在让我们开始填写我们可以填写的内容。

首先,让我们考虑横向条目。

横向:Evade 逃避(6个字母)

与'Evade'同义的6个字母可能的单词:

ESCAPE (6 letters)

AVOID (5 letters)

DODGE (5 letters)

ELUDE (5 letters)

也许是'ESCAPE'?因为这个单词是6个字母。

但让我们继续考虑。

横向:One to close envelopes 封信封的工具(6个字母)

可能的单词:

SEALER(6个字母)

ENVELOPE CLOSER(太长了)

也许是SEALER

横向:Mother 母亲_(6个字母)

Mother Nature(6个字母)

是的,那是6个字母。

【小梦备注:哈 还自己强调了一下,戏真多:)】

Alternatively, Mother Goose (10 letters)

或者Mother Goose(10个字母)

但是'Mother Nature'合适。

横向:Initiated people启蒙人们(6个字母)

可能的单词:ADEPTS(6个字母)

也许'ADEPTS'意味着启蒙人们。

还有其他可能性吗?

我们可以想到'INSIDE'(6个字母),但那没有意义。

ADEPTS似乎是可能的。

【...省略比较重复的推理部分】

现在让我们看看纵向提示。

纵向:_____ car (station wagon) ______车(旅行车)(6个字母)

可能的单词:

  • ESTATE car (6个字母)

在英国英语中,'Estate car'是旅行车的术语。

在英国'station wagon'被称为'estate car'。

因此'ESTATE'合适。

也与横向1的ESCAPE对齐。

【小梦备注:emm,到这里还记得填字游戏的规则,不错。】

如果我们有ESCAPE作为1横向,从(1,1)开始横向,而ESTATE从(1,1)向下。

第一个字母是E,第二个字母是S(来自两个单词。)

让我们写下来:

ESCAPE

E S C A P E

从第一个字母E开始垂直,向下条目长达6个字母,从(1,1),(1,2)等开始字母。

所以纵向1是ESTATE

E

S

T

A

T

E

与ESCAPE在E S C A P E交叉

第二个字母S在横向和纵向都是。

现在7纵向:planting machine自动种植机(6个字母),从(1,2)开始。第一个字母是S(来自ESCAPE,第二个字母)

可能的单词:

SOWER?(5个字母)

PLANTERS?(8个字母)

SEEDER? (6个字母)

是的,SEEDER(6个字母)

所以7纵向是SEEDER。

所以我们有ESCAPE横向(1,1)-(1,6),和SEEDER从(1,2)向下到(6,2)。

现在,在(1,2)的位置,我们有来自ESCAPE的S。

从S垂直向下是SEEDER。

确认S。

现在8纵向:'Profession'职业(6个字母),从(1,3)开始,ESCAPE的第三个字母是C,所以(1,3)的位置是C(来自ESCAPE)

我们需要一个6个字母的单词,意思是'职业',以C开始。

可能的单词:CAREER(6个字母)

是的,CAREER

所以,我们有ESCAPE作为横向:

E S C A P E

纵向从(1,3)的位置开始是来自ESCAPE的C,所以CAREER:

C

A

R

E

E

R

现在,9纵向:叙利亚和土耳其的辣椒品种(6个字母),从(1,4)开始

ESCAPE中的第四个字母是A,(1,4)的位置是A

所以我们有一个6个字母的单词,意思是'叙利亚和土耳其的辣椒品种',以A开始。

可能的单词:ALEPPO(6个字母)

Aleppo辣椒是来自叙利亚和土耳其的一种辣椒

所以ALEPPO合适。

【小梦备注:思路确认没问题,找满足某个规则下的同义词这件事情,大模型理论上肯定比一般人类的脑袋好使,这里就省略一步步的推理了。】

所以我们已经成功填写了整个填字游戏。

让我写出填满单词的整个格子:

格子,其中行从上到下编号为1到6,列从左到右编号为1到6。

位置是(行,列)

第1行(位置(1,1)-(1,6)):

E S C A P E

第2行:

S E A L E R

第3行:

T E R E S A

第4行:

A D E P T S

【省略】

列,纵向条目:

第1列(位置(1,1)-(6,1)):

E S T A T E

第2列:

S E E D E R

【省略】

第6列:

E R A S E S

这样解决了填字游戏。

o1-preview的正式回答:

我们来一步步的解决填字游戏。

理解格子:

所有横向单词从最左边的列开始,长度为6个字母。

所有纵向单词从最上面的行开始,长度为6个字母。

数字对应每个单词的起始方格。

让我们来解填字游戏:

横向提示:

  1. 逃避(6个字母)

答案:ESCAPE

  1. 封信封的工具(6个字母)

答案:SEALER

  1. 母亲______(6个字母)

答案:TERESA

  1. 启蒙人们(6个字母)

答案:ADEPTS

  1. 美洲原住民的帐篷(6个字母)

答案:TEEPEE

  1. 错误(6个字母)

答案:ERRORS

纵向提示:

  1. ______车(旅行车)(6个字母)

答案:ESTATE

  1. 自动种植机(6个字母)

答案:SEEDER

  1. 职业(6个字母)

答案:CAREER

  1. 叙利亚和土耳其的辣椒品种(6个字母)

答案:ALEPPO

  1. 使烦恼(6个字母)

答案:PESTER

  1. 删除(6个字母)

答案:ERASES

填好的填字游戏格子:

| E | S | C | A | P | E |  ← 1 Across: ESCAPE
| S | E | A | L | E | R |  ← 2 Across: SEALER
| T | E | R | E | S | A |  ← 3 Across: TERESA
| A | D | E | P | T | S |  ← 4 Across: ADEPTS
| T | E | E | P | E | E |  ← 5 Across: TEEPEE
| E | R | R | O | R | S |  ← 6 Across: ERRORS
↓   ↓   ↓   ↓   ↓   ↓
E   S   C   A   P   E
S   E   A   L   E   R
T   E   R   E   S   A
A   D   E   P   T   S
T   E   E   P   E   E
E   R   R   O   R   S
↑   ↑   ↑   ↑   ↑   ↑
1D  7D  8D  9D  10D 11D
ESTATE
SEEDER
CAREER
ALEPPO
PESTER
ERASES

解释:

1 横向(ESCAPE)与 1 纵向(ESTATE)在字母 E 处交叉。

2 横向(SEALER)与第二行中纵向单词的字母完美对齐。

3 横向(TERESA)使用 1 纵向(ESTATE)的第三个字母 T,并与纵向单词匹配。

每个横向单词的字母在它们交叉的地方与纵向单词中相应的字母匹配。

最终答案:

• 横向:

ESCAPE

SEALER

TERESA

ADEPTS

TEEPEE

ERRORS

• 纵向:

ESTATE

SEEDER

CAREER

ALEPPO

PESTER

ERASES

这个过程真的就像人类拿个小本子在纸上写写画画差不多的思路,o1-preview这个模型还是挺强的。其他几个案例涉及数学公式、化学方程和代码,格式不太好弄,大家感兴趣还是去原文中看好了,不过根据这三个我贴出来的案例,大家也可以感受到o1模型的CoT大概的展开方式了。

好,本篇就先到这里。晚安~

✨写在最后

如果对comfyui还不熟悉的话,最近面向ComfyUI的新手,写了一门系统性入门图文课程,现在已经更新完成了,内容主要包括如何下载软件、如何搭建自己的工作流、关键基础节点讲解、遇到报错怎么解决等等,如果大家在学习过程中遇到什么问题,也可以直接对应的文章下留言,会持续更新相关答疑内容哈。欢迎订阅哦~

https://blog.csdn.net/jumengxiaoketang/category_12683612.html

​​​​

感谢大家的支持~

相关推荐
三月七(爱看动漫的程序员)1 天前
Knowledge Graph Prompting for Multi-Document Question Answering
人工智能·gpt·学习·语言模型·自然语言处理·机器人·知识图谱
三月七(爱看动漫的程序员)1 天前
LEAST-TO-MOST PROMPTING ENABLES COMPLEX REASONING IN LARGE LANGUAGE MODELS---正文
人工智能·gpt·学习·机器学习·语言模型·自然语言处理·llama
hunteritself2 天前
OpenAI直播发布第11天:ChatGPT桌面客户端升级,就这?
人工智能·gpt·chatgpt·语音识别·claude
ghostwritten2 天前
Linux 下的 GPT 和 MBR 分区表详解
linux·运维·gpt
旷野..2 天前
GPT 时代,精进编程思维 + 熟练 Prompt 是否是新的编程范式?
python·gpt·prompt
that's boy2 天前
ChatGPT Search开放:实时多模态搜索新体验
人工智能·gpt·chatgpt·openai·midjourney
云起无垠3 天前
第78期 | GPTSecurity周报
人工智能·gpt·网络安全·aigc
戴着眼镜看不清4 天前
从腾讯云的恶意文件查杀学习下PHP的eval函数
android·python·gpt·学习·网络安全·木马·中转api
三月七(爱看动漫的程序员)5 天前
AI Alignment: A Comprehensive Survey---分布转移下的学习
人工智能·gpt·深度学习·学习·语言模型·自然语言处理·chatgpt
itwangyang5205 天前
AIGC drug design 人工智能生成式药物设计:基于 GPT 的 SMILES 生成与应用
人工智能·gpt