【人工智能学习-AI入试相关题目练习-第五次】

人工智能学习-AI入试相关题目练习-第五次

  • 1-前言
  • 3-问题题目训练
  • 4-练习(日语版本)解析
    • [【第1問】A*探索 ― 満点テンプレ](#【第1問】A*探索 ― 満点テンプレ)
      • [① 定義を書く(これがあると一気に評価UP)](#① 定義を書く(これがあると一気に評価UP))
      • [② 初期状態を明示](#② 初期状態を明示)
      • [③ 各展開を「表 or 箇条書き」で](#③ 各展開を「表 or 箇条書き」で)
      • [④ CLOSED順は「列挙」](#④ CLOSED順は「列挙」)
      • [⑤ 経路とコストは最後にまとめる](#⑤ 経路とコストは最後にまとめる)
      • [⑥ 許容性の判断(超重要)](#⑥ 許容性の判断(超重要))
    • [【第2問】粒子フィルタ(SIR)― 満点テンプレ](#【第2問】粒子フィルタ(SIR)― 満点テンプレ)
      • [① 概念を一言で押さえる](#① 概念を一言で押さえる)
      • [② 正規化は必ず式で](#② 正規化は必ず式で)
      • [③ 有効サンプルサイズ(ESS)](#③ 有効サンプルサイズ(ESS))
      • [④ 判定を「比較」で書く](#④ 判定を「比較」で書く)
      • [⑤ 用語は名詞でピタッと](#⑤ 用語は名詞でピタッと)
    • [【第3問】Q学習 ― 満点テンプレ](#【第3問】Q学習 ― 満点テンプレ)
      • [① 更新式を最初に書く(必須)](#① 更新式を最初に書く(必須))
      • [② Stepごとに「数値代入」](#② Stepごとに「数値代入」)
      • [③ max の意味を文章で](#③ max の意味を文章で)
  • 5-总结

1-前言

为了应对大学院考试,我们来学习相关人工智能相关知识,并做各种练习。

通过学习,也算是做笔记,让自己更理解些。

3-问题题目训练

第1問(相似:A*探索)

次の有向グラフにおいて、辺ラベルは移動コスト、各ノードの括弧内はヒューリスティック値 (h(n)) を表す。開始ノードを (S)、目標ノードを (G) とする。A*探索(評価関数 (f(n)=g(n)+h(n)))を用いる。ここで、OPEN から取り出す優先順位は (f) が最小 、同値の場合は (g) が小さい方を優先 、それでも同値の場合は アルファベット順とする。取り出したノードは CLOSED(訪問済み)に入れ、必要なら (g) を更新する(グラフ探索)。

  • ノード:

    (S(6), A(4), B(4), C(2), D(1), E(3), G(0))

  • 辺(コスト):

    (S\to A:2,; S\to E:2)

    (A\to B:2,; A\to C:2)

    (E\to C:2,; E\to G:8)

    (C\to D:2,; C\to G:6)

    (D\to G:2,; B\to G:6)

(1) CLOSED に入る順(取り出し順)を、(S) から (G) が取り出されるまで全て書け。
(2) A*が返す経路と、その総移動コストを求めよ。
(3) 上の (h(n)) が 許容的(admissible)かどうかを判定し、根拠を 1 行で述べよ。

罠:同値タイ処理/(g) 更新(グラフ探索)/許容性の判定(「どこか1点でも過大」なら不可)


第2問(相似:粒子フィルタ / SIR)

自己位置推定に粒子フィルタを用いる。時刻 (t) における粒子は ({x_t^{(i)}, w_t{(i)}}_{i=1}{5}) で表される。観測尤度に比例して未正規化重み (\tilde{w}_t^{(i)}) が得られたとする。

(\\tilde{w}_t^{(1)},\\tilde{w}_t^{(2)},\\tilde{w}_t^{(3)},\\tilde{w}_t^{(4)},\\tilde{w}_t\^{(5)}) = (0.20,;0.10,;0.05,;0.05,;0.60)

(1) 正規化重み (w_t^{(i)}) を求めよ。
(2) 有効サンプルサイズ (N_{\mathrm{eff}} = \frac{1}{\sum_{i=1}{5}(w_t{(i)})^2}) を求めよ。
(3) しきい値を (N_{\mathrm{th}}=2.5) とするとき、SIR(Sampling Importance Resampling)を実行すべきか判定せよ。
(4) 粒子フィルタが「確率分布をサンプル集合で近似する」ことの名称を 1 つ答えよ。また、SIR で行う「再抽出」の名称を 1 つ答えよ。

罠:正規化しないままESSを計算/ESS式の分母・二乗ミス/「モンテカルロ近似」「リサンプリング(再標本化)」が出ない


第3問(模擬:Q学習の数値更新)

Q学習を考える。更新式は

Q(s,a)\\leftarrow Q(s,a)+\\alpha\\left\[r+\\gamma \\max_{a'}Q(s',a')-Q(s,a)\\right

]

とする。学習率 (\alpha=0.5)、割引率 (\gamma=0.9)。行動は各状態で 2 通り (a_1,a_2)。初期値はすべて (Q(\cdot,\cdot)=0)。

次の 3 ステップの経験列が得られた(同一状態が再訪されることに注意せよ):

  1. (s_0) で (a_1) を選び、報酬 (r=2)、次状態 (s_1)
  2. (s_1) で (a_2) を選び、報酬 (r=-1)、次状態 (s_0)
  3. (s_0) で (a_1) を選び、報酬 (r=2)、次状態 (s_1)

(1) 各ステップ後の (Q(s_0,a_1)) と (Q(s_1,a_2)) を求めよ(更新の途中式も示せ)。
(2) 上の更新で用いた (\max_{a'}Q(s',a')) が意味するものを 1 行で説明せよ。

罠:2回目の (s_0,a_1) 更新で「前回更新済みのQ」を使わず初期値扱い/maxを同じ行動で固定してしまう/(\alpha) と (\gamma) を取り違える

4-练习(日语版本)解析

【第1問】A*探索 ― 満点テンプレ

① 定義を書く(これがあると一気に評価UP)

text 复制代码
A*探索では評価関数を
f(n) = g(n) + h(n)
とし、OPEN集合から f が最小のノードを取り出す。

② 初期状態を明示

text 复制代码
初期状態:
OPEN = { S },  g(S)=0, f(S)=0+h(S)=6
CLOSED = ∅

③ 各展開を「表 or 箇条書き」で

(※ 採点者はここを一番見ます)

text 复制代码
S を展開:
A: g=2, f=2+4=6
E: g=2, f=2+3=5
→ f 最小の E を選択
text 复制代码
E を展開:
C: g=4, f=4+2=6
G: g=10, f=10+0=10

🔴 罠対策

  • 同じノードに別経路が来たら
    **「g が小さい場合のみ更新」**と明記

④ CLOSED順は「列挙」

text 复制代码
CLOSED に入る順:
S → E → A → C → D → G

⑤ 経路とコストは最後にまとめる

text 复制代码
得られた経路:
S → A → C → D → G

総移動コスト:
2 + 2 + 2 + 2 = 8

⑥ 許容性の判断(超重要)

text 复制代码
全ノードで h(n) ≤ 実際の最短距離が成り立つため、
このヒューリスティック関数は許容的である。

これで満点構成


【第2問】粒子フィルタ(SIR)― 満点テンプレ

① 概念を一言で押さえる

text 复制代码
粒子フィルタは確率分布を有限個のサンプルで近似する
モンテカルロ近似手法である。

② 正規化は必ず式で

text 复制代码
重みの総和:
Σ wi = 0.20 + 0.10 + 0.05 + 0.05 + 0.60 = 1.00

よって正規化後も同一である。

🔴

正規化を書かない答案は高確率で減点

③ 有効サンプルサイズ(ESS)

text 复制代码
Neff = 1 / Σ (wi)^2
     = 1 / (0.04 + 0.01 + 0.0025 + 0.0025 + 0.36)
     = 1 / 0.415
     ≈ 2.41

④ 判定を「比較」で書く

text 复制代码
Neff = 2.41 < Nth = 2.5 より、
リサンプリングを実行すべきである。

⑤ 用語は名詞でピタッと

text 复制代码
分布近似:モンテカルロ近似
再抽出:SIR(リサンプリング)

【第3問】Q学習 ― 満点テンプレ

① 更新式を最初に書く(必須)

text 复制代码
Q(s,a) ← Q(s,a) + α [ r + γ max_a' Q(s',a') − Q(s,a) ]

② Stepごとに「数値代入」

text 复制代码
Step1:
Q(s0,a1) = 0 + 0.5[2 + 0.9×0 − 0] = 1.0
text 复制代码
Step2:
Q(s1,a2) = 0 + 0.5[−1 + 0.9×1.0 − 0] = −0.05
text 复制代码
Step3:
Q(s0,a1) = 1.0 + 0.5[2 + 0.9×0 − 1.0]
         = 1.5

🔴 最大の罠

  • Step3で 「更新後のQ(s0,a1)=1.0」を使わない答案

③ max の意味を文章で

text 复制代码
max_a' Q(s',a') は、
次状態において最も高い価値を持つ行動の推定値を表す。

5-总结

知识一点点记录吧,最后应对考试,打下基础

相关推荐
敏叔V5871 小时前
AI应用开发框架对比:LangChain vs. Semantic Kernel vs. DSPy 深度解析
人工智能·驱动开发·langchain
Das11 小时前
【机器学习】04_支持向量机_拉格朗日对偶法
人工智能·机器学习·支持向量机
川西胖墩墩1 小时前
自动化提示工程的演进路径
人工智能
小咖自动剪辑1 小时前
视频去水印与去字幕教程:免费去水印软件与去字幕工具推荐
人工智能·音视频·实时音视频·视频编解码
GISer_Jing1 小时前
1.17-1.23日博客之星投票,每日可投
前端·人工智能·arcgis
檐下翻书1731 小时前
HR人力资源管理流程图在线绘制方法
大数据·人工智能·架构·流程图·论文笔记
charlie1145141912 小时前
输入法处理杂谈——Windows 下的 IMM32 输入法处理机制和Chrome如何桥接TSF输入法
开发语言·chrome·windows·学习·输入法
liliangcsdn2 小时前
基于策略梯度的高效强化学习算法-GRPO
人工智能
JAI科研2 小时前
MICCAI 2025 IUGC 图像超声关键点检测及超声参数测量挑战赛
人工智能·深度学习·算法·计算机视觉·自然语言处理·视觉检测·transformer