【人工智能学习-AI入试相关题目练习-第十八次】

人工智能学习-AI入试相关题目练习-第十八次

1-前言
3-问题题目训练
4-练习（日语版本）解析
5-练习（日语版本）
- - （1）各記号の意味
  - [（2）Q学習が off-policy である理由](#（2）Q学習が off-policy である理由)
【問題2｜满分答案模板】
- - （1）SARSAの更新式
  - [（2）Q学習とSARSAの違い（on / off-policy）](#（2）Q学習とSARSAの違い（on / off-policy）)
  - （3）SARSAが安全寄りの行動を学習しやすい理由
【問題3｜满分答案模板｜预测命中率最高】
6-总结

1-前言

为了应对大学院考试，我们来学习相关人工智能相关知识，并做各种练习。

通过学习，也算是做笔记，让自己更理解些。

3-问题题目训练

【問題1｜模拟①｜Q学習の定義と更新式】

（配点想定：25点）

状態集合を (S)、行動集合を (A) とするマルコフ決定過程（MDP）において、

エージェントはモデルを持たず、行動価値関数 (Q(s,a)) を直接学習する。

このとき、Q学習における1ステップ更新式は次式で与えられる：

Q(s_t, a_t) \\leftarrow Q(s_t, a_t) + \\alpha \\Bigl\[ r_{t+1} + \\gamma \\max_{a'} Q(s_{t+1}, a') - Q(s_t, a_t) \\Bigr

]

以下の問いに答えよ。

上式に含まれる各記号

(\alpha, \gamma, r_{t+1}, \max_{a'} Q(s_{t+1}, a'))

がそれぞれ何を意味するか、強化学習の文脈で簡潔に説明せよ。
Q学習が
- 方策に依存しない（off-policy）学習
  であると言われる理由を、上式を用いて説明せよ。

【問題2｜模拟②｜SARSAとの比較】

（配点想定：30点）

Q学習とSARSAはいずれも行動価値関数を学習する手法であるが、

更新式および学習の性質に明確な違いが存在する。

以下の問いに答えよ。

SARSAの更新式を記述せよ。
Q学習とSARSAの違いを、
- 更新に用いる次状態の行動
- 探索行動（例：(\varepsilon)-greedy）との関係
  の観点から比較し、on-policy / off-policy の違いを明確にして説明せよ。
危険な行動（大きな負の報酬）を含む環境において、

SARSAがQ学習より安全寄りの行動を学習しやすい理由を述べよ。

【問題3｜预测题｜Q学習の収束と実用上の問題】

（配点想定：35点｜立命馆"考察型"）

Q学習は、適切な条件下において最適行動価値関数 (Q^*) に収束することが知られている。

以下の問いに答えよ。

Q学習が理論的に収束するために必要な条件を、

学習率 (\alpha) と探索条件の観点から述べよ。
状態空間・行動空間が非常に大きい場合、

テーブル型Q学習が実用的でなくなる理由を説明せよ。
上記の問題を解決するために導入された
関数近似（例：ニューラルネットワーク）を用いたQ学習 において、

学習が不安定になる主な原因を1つ挙げ、簡潔に説明せよ。

4-练习（日语版本）解析

5-练习（日语版本）

（Q学習の定義と更新式）

（1）各記号の意味

Q学習における更新式

Q(s_t, a_t) \\leftarrow Q(s_t, a_t) + \\alpha \\Bigl\[ r_{t+1} + \\gamma \\max_{a'} Q(s_{t+1}, a') - Q(s_t, a_t) \\Bigr

]

において、

(\alpha) は学習率であり、新しい経験をどの程度現在の推定値に反映させるかを制御するパラメータである。
(\gamma) は割引率であり、将来得られる報酬をどの程度重視するかを表す。
(r_{t+1}) は、状態 (s_t) で行動 (a_t) を選択した結果として得られる即時報酬である。
(\max_{a'} Q(s_{t+1}, a')) は、次状態 (s_{t+1}) において取り得る行動の中での最大の行動価値を表し、将来の最適行動を仮定した評価である。

（※ここまででほぼ満点ゾーン）

（2）Q学習が off-policy である理由

Q学習は、実際に選択した行動とは無関係に 、

次状態における 最大の行動価値 (\max_{a'} Q(s_{t+1}, a')) を用いて更新を行う。

そのため、

行動選択は探索方策（例：(\varepsilon)-greedy）に従って行われていても、
更新は常に最適方策を仮定した値に基づいて行われる。

このように、行動生成方策と更新に用いる方策が一致していない ため、

Q学習は off-policy 学習である。

【問題2｜满分答案模板】

（SARSAとの比較）

（1）SARSAの更新式

SARSAの更新式は次式で与えられる。

Q(s_t, a_t) \\leftarrow Q(s_t, a_t) + \\alpha \\Bigl\[ r_{t+1} + \\gamma Q(s_{t+1}, a_{t+1}) - Q(s_t, a_t) \\Bigr

]

ここで (a_{t+1}) は、次状態 (s_{t+1}) において実際に選択された行動である。

（2）Q学習とSARSAの違い（on / off-policy）

Q学習では、更新に

\\max_{a'} Q(s_{t+1}, a')

を用いるため、次状態における最適行動 を仮定して学習を行う。

このため Q学習は off-policy 学習である。

一方、SARSAでは、

Q(s_{t+1}, a_{t+1})

すなわち、探索を含む現在の方策によって実際に選択された行動を用いて更新を行う。

したがって、SARSAは
行動選択と学習が同一の方策に基づく on-policy 学習である。

（3）SARSAが安全寄りの行動を学習しやすい理由

SARSAでは、探索行動によるリスクも含めた行動価値が更新に反映される。

そのため、危険な行動が探索中に選択され、大きな負の報酬を受ける場合、

その影響が直接 (Q) 値に反映される。

結果として、

SARSAは 探索時のリスクを考慮した保守的な方策 を学習しやすく、

Q学習と比べて安全寄りの行動を選択する傾向がある。

【問題3｜满分答案模板｜预测命中率最高】

（収束性と実用上の問題）

（1）Q学習の収束条件

Q学習が最適行動価値関数 (Q^*) に収束するためには、以下の条件が必要である。

すべての状態--行動対が無限回訪問されること（十分な探索）
学習率 (\alpha_t) が $\\sum_t \\alpha_t = \\infty,\\quad \\sum_t \\alpha_t\^2 \< \\infty$ を満たすように、適切に減少すること

これらの条件の下で、Q学習は確率1で (Q^*) に収束することが知られている。

（2）大規模状態空間における問題点

状態空間および行動空間が大きくなると、

テーブル型Q学習ではすべての状態--行動対に対して

(Q) 値を保存・更新する必要がある。

その結果、

メモリ使用量が増大する
十分な探索が困難になる

といった問題が生じ、実用的でなくなる。

（3）関数近似Q学習が不安定になる原因

ニューラルネットワークなどの関数近似を用いたQ学習では、

ブートストラップ（自己参照）
関数近似
off-policy 学習

の3つが同時に存在する。

この組み合わせにより、

学習が発散したり不安定になる可能性があることが知られている。

6-总结

知识一点点记录吧，最后应对考试，打下基础