【人工智能学习-AI-MIT公开课-第9.约束:视觉对象识别(視覚対象認識)】

人工智能学习-AI-MIT公开课-第9.约束:视觉对象识别(視覚対象認識)

1-前言

为了应对大学院考试,我们来学习相关人工智能相关知识,并且是基于相关课程。使用课程为MIT的公开课。

通过学习,也算是做笔记,让自己更理解些。

2-课程链接

是在B站看的视频,链接如下:
https://www.bilibili.com/video/BV1dM411U7qK?spm_id_from=333.788.videopod.episodes&vd_source=631b10b31b63df323bac39281ed4aff3&p=9

3-具体内容解释说明

一、这节在「整个课程体系」里的位置

前后关系其实非常清楚:

  • 7:约束 → 解释线条图(解釈線条図)
  • 8:约束 → 搜索、域缩减
  • 9:约束 → 视觉对象识别 ← 你现在问的
  • 10:学习 → 最近邻
  • 11:学习 → 决策树
  • 12:学习 → 神经网络

👉 也就是说:

9 还是"约束思想",还没进入"机器学习"


二、什么是「视觉对象识别(視覚対象認識)」

一句话版本(考试用):

从图像中判断"这是什么东西"

比如:

  • 这是立方体还是金字塔?
  • 哪些线属于同一个物体?
  • 哪些面是前面、后面?

⚠️ 注意:

这里 不是 YOLO / CNN / 深度学习。


三、为什么会放在「约束(Constraint)」里?

核心思想只有一句话:

视觉识别 = 在大量可能解释中,找一个"满足所有约束"的解释

也就是说:

  • 图像本身 → 模糊、不完整
  • 人能一眼看懂
  • AI 必须靠 约束条件 来排除不合理解释

四、把视觉识别「形式化」成约束问题

1️⃣ 变量(Variables)

  • 每条线段属于哪条边?

  • 每个面是:

    • 正面 / 背面
    • 凸 / 凹 / 遮挡?

2️⃣ 值域(Domains)

  • 每条线可能的标签集合
    例如:{凸边、凹边、遮挡边}

3️⃣ 约束(Constraints)

这是考试最喜欢问的地方:

  • 几何约束

    • 立方体的角只能三条线相交
  • 物理约束

    • 一个面不能同时在前又在后
  • 一致性约束

    • 相邻面的关系必须一致

👉 所有约束同时满足,才是「合理的物体解释」


五、和「线条图解释」的直接关系

你前面学过 解释线条图(解釈線条図),对吧?

线条图的问题是:

  • 一张 2D 线稿
  • 可能对应 多个 3D 物体

👉 视觉对象识别就是:

在所有 3D 可能性中,

找一个 不违反任何约束 的解释


六、这类内容在入试里怎么考?

典型出题方式(非计算)

  • 为什么视觉对象识别可以建模为约束满足问题?
  • 约束在视觉识别中起什么作用?
  • 如果约束不足,会发生什么?
  • 与机器学习方法相比,基于约束的方法有什么特点?

答题关键词(记住这几个就稳)

  • 不确定性(曖昧さ)
  • 多重解释(複数の解釈)
  • 制约条件(制約)
  • 一致性(整合性)
  • 探索空间缩小(探索空間の削減)

七、一句话总结(考试能直接写)

視覚対象認識は、画像から得られる不完全な情報に対して、

幾何的・物理的な制約を用いて、

矛盾のない対象解釈を探索する問題である。

(这句话你可以直接背)


八、你现在的优势(实话)

你做过:

  • CV
  • 目标检测
  • 合成数据
  • 工程实现

👉 这节课是在讲 "在深度学习出现之前,人们怎么理解视觉"

你是从"结果"往回看"思想"

而很多考生是第一次接触。


4-课后练习(日语版本)


問題1(視覚対象認識と制約)

視覚対象認識を**制約充足問題(Constraint Satisfaction Problem)**として定式化する理由として、最も適切なものはどれか。

a. 画像中の特徴量を数値的に最適化するため

b. 複数の物体候補を確率的に生成するため

c. 不完全な視覚情報から矛盾のない解釈を選択するため

d. 学習データの量を削減するため


問題2(線画解釈と制約)

線画(Line Drawing)から三次元形状を推定する際、制約条件の役割として最も適切なものはどれか。

a. 線の長さを正確に測定すること

b. すべての可能な解釈を列挙すること

c. 不自然な三次元構造を排除すること

d. 画像のノイズを除去すること


問題3(制約の種類)

視覚対象認識において用いられる制約の説明として、誤っているものはどれか。

a. 幾何的制約は、面や辺の接続関係に基づく

b. 物理的制約は、物体の存在可能性を制限する

c. 一貫性制約は、局所的な判断の整合性を保つ

d. 統計的制約は、必ず学習データから導出される


問題4(制約ベース手法の特徴)

制約に基づく視覚対象認識手法の特徴として、最も適切なものはどれか。

a. 大量の教師データが必要である

b. 深層ニューラルネットワークが不可欠である

c. 問題構造を明示的に記述できる

d. 認識精度は常に学習型手法より高い


(回答は今は表示しません)


出題者が見ているポイント(ヒント)

  • 「なぜ制約が必要か」
  • 「制約によって何が減るか(探索空間)」
  • 「学習手法との思想的な違い」
  • 「線画 → 解釈 → 一貫性」

5-课后答案解析(日语版本)

問題1

你的答案:C正解

視覚対象認識を制約充足問題として定式化する理由

正确理由:

  • 视觉信息本身不完整
  • 可能的解释很多
  • 用制约来排除矛盾的解释

👉 C 正中出题意图


問題2

你的答案:B不正确
正解:C

線画解釈における制約の役割

为什么 B 不对?

  • B「列举所有可能解释」
    👉 这是搜索本身,不是制约的作用

为什么 C 对?

  • 制约的本质是
    👉 排除不合理的三维结构
  • 减少搜索空间(探索空間の削減)

問題3

你的答案:D正解

制約の説明として誤っているもの

  • D「统计制约一定来自学习数据」❌

    • 统计制约也可能来自先验知识
    • 不一定通过学习获得

👉 这题选得非常稳


問題4

你的答案:A不正确
正解:C

制約ベース手法の特徴

为什么 A 不对?

  • A 是 学习型方法(ML/DL) 的特点
  • 制约法不依赖大量标注数据

为什么 C 对?

  • 制约方法:

    • 显式描述问题结构
    • 规则可解释
    • 知识可直接嵌入

成绩总结(入试视角)

题号 你的答案 正误
1 C
2 B
3 D
4 A

👉 2 / 4 正确


非常关键的评价(实话)

你的错误不是没学会,而是:

把「制约方法」和「学习方法」的思路混在了一起

这在有工程背景的人中非常常见(包括你)。


给你一个「入试修正口诀」

制约法:规则 × 排除 × 结构
学习法:数据 × 统计 × 拟合

只要题目里出现:

  • 「探索空間」
  • 「整合性」
  • 「明示的知識」
  • 「解釈可能性」

👉 优先选制约相关选项


6-总结

知识一点点记录吧,最后应对考试,打下基础

相关推荐
陌上明苏7 小时前
.NET学习-依赖注入、配置系统、日志系统
学习
知识分享小能手7 小时前
Ubuntu入门学习教程,从入门到精通, Ubuntu 22.04中的Shell编程详细知识点(含案例代码)(17)
linux·学习·ubuntu
大山老树8 小时前
行动教练学习笔记
笔记·学习
副露のmagic9 小时前
更弱智的算法学习 day16
数据结构·学习·算法
@zulnger9 小时前
python 学习笔记(文件读写)
笔记·python·学习
微露清风9 小时前
系统性学习C++-第十六讲-AVL树实现
java·c++·学习
YJlio9 小时前
Kali Linux 外置无线网卡接入与识别排障(VMware 环境|合规学习版)
linux·网络·学习
韩明君9 小时前
debian13学习笔记
服务器·笔记·学习
浩瀚地学10 小时前
【Java】面向对象进阶-接口
java·开发语言·经验分享·笔记·学习
xwz小王子10 小时前
TRO 综述:面向多模态示教机器人学习的深度生成模型
学习·机器人