【人工智能学习-AI-MIT公开课11. 学习:识别树、无序】

人工智能学习-AI-MIT公开课11. 学习:识别树、无序

1-前言

为了应对大学院考试,我们来学习相关人工智能相关知识,并且是基于相关课程。使用课程为MIT的公开课。

通过学习,也算是做笔记,让自己更理解些。

2-课程链接

是在B站看的视频,链接如下:
https://www.bilibili.com/video/BV1dM411U7qK?spm_id_from=333.788.videopod.episodes&vd_source=631b10b31b63df323bac39281ed4aff3&p=11

3-具体内容解释说明

一、这节课在整个课程里的位置

从目录可以看出顺序是:

  • 10:学习介绍、最近邻(k-NN)
  • 11:识别树、无序
  • 12:神经网络、反向传播
  • 13:遗传算法

👉 说明这是传统机器学习 → 深度学习 之间的过渡章节

不讲工程实现,重在"思想与原理"


二、前半部分:识别树(=决策树)

1️⃣ 什么是识别树?

一句话:

通过一连串"如果...那么..."的判断来进行分类或预测

例如:

  • 如果「温度 > 30℃」?
  • 如果「下雨 = 是」?
  • 最终得到「去 / 不去」

👉 本质:树结构的分类模型


2️⃣ 决策树是怎么"学"的?

核心思想只有一个:

每一步选"最能区分数据"的特征

常见指标(知道名字即可):

  • 信息增益(Information Gain)
  • 熵(Entropy)
  • 基尼指数(Gini)

入试不会让你算公式,但会问:

  • 为什么要选"信息增益最大"的特征?
  • 这样做有什么好处?

3️⃣ 决策树的优缺点(必考)

优点

  • 结构直观,可解释性强
  • 不需要复杂数学
  • 适合规则清晰的问题

缺点

  • 容易过拟合
  • 对噪声敏感
  • 树太深会泛化差

👉 很常见的考法:

「以下哪一项是决策树的特点?」


三、后半部分:无序(=无监督学习)

1️⃣ 什么是"无序学习"?

日文里的「無序」= 没有正确答案标签

一句话:

只有数据,没有老师

与前面学过的「教师あり学習(监督学习)」形成对比。


2️⃣ 典型无监督学习任务

🔹 聚类(Clustering)
  • 把相似的数据分到一组
  • 代表方法:k-means

例如:

  • 自动把顾客分群
  • 把相似图片聚在一起
🔹 降维(Dimensionality Reduction)
  • 用更少的变量表示数据
  • 代表方法:PCA

3️⃣ 无监督学习的特点(考试重点)

  • 没有"正确答案"

  • 结果的好坏依赖评价方法

  • 常用于:

    • 数据探索
    • 特征预处理
    • 发现隐藏结构

👉 很爱考这种对比题:

「监督学习 与 无监督学习 的区别是?」


四、这节课的"入试视角总结"

如果这是日本大学院 AI 入试,这节课在考什么?

不会考代码

不会考复杂公式

会考概念理解 + 区别 + 适用场景

重点记住三组对比:

1️⃣ 决策树 vs 最近邻

2️⃣ 监督学习 vs 无监督学习

3️⃣ 可解释性强 vs 表达能力强(为神经网络铺垫)


4-课后练习(日语版本)

問題1(識別木:基本性質)

識別木(決定木)に関する説明として、最も適切なものを一つ選べ。

A.識別木は常に最短の分類規則を生成する。

B.識別木は学習データに対して過学習を起こしにくい。

C.識別木は分類規則を木構造として表現し、可読性が高い。

D.識別木は教師なし学習の代表的手法である。


問題2(識別木:分割基準)

識別木において、分割に用いられる評価基準として一般的でないものを一つ選べ。

A.情報利得

B.エントロピー

C.ジニ係数

D.ユークリッド距離


問題3(無教師学習:特徴)

無教師学習に関する説明として、正しいものを一つ選べ。

A.正解ラベルを用いてモデルを学習する。

B.分類精度を用いて結果の良否を直接評価できる。

C.データの潜在的な構造や類似性を発見する目的で用いられる。

D.誤差逆伝播法を用いて学習を行う。


問題4(学習方法の比較)

教師あり学習と無教師学習の違いに関する説明として、最も適切なものを一つ選べ。

A.教師あり学習では、常に分類問題のみを扱う。

B.無教師学習では、入力データと正解ラベルの対応が与えられる。

C.教師あり学習では、目的変数が与えられる。

D.無教師学習は、識別木によってのみ実現される。


做题建议(重要)

  • 不要靠「感觉」
  • 每个选项都问自己一句:
    👉 "这是不是定义层面的事实?"

你可以直接回复我:

复制代码
1: ?
2: ?
3: ?
4: ?

5-课后答案解析(日语版本)

問題1(識別木の性質)

你的答案:C

識別木は分類規則を木構造として表現し、可読性が高い。

正确

  • 决策树最大的特点就是 可解释性强
  • 这是教科书级正确描述
  • A、B 都是常见陷阱("常に""起こしにくい")

👉 这一题你是标准满分答案


問題2(分割基準)

你的答案:A(情報利得)

这一题错了

题目问的是:

一般的でないもの(不常用的)

  • 情報利得 ✔ 常用
  • エントロピー ✔ 常用
  • ジニ係数 ✔ 常用
  • ユークリッド距離 ❌(这是 k-means 等聚类用的)

✅ 正确答案是:D


問題3(無教師学習)

你的答案:C

データの潜在的な構造や類似性を発見する目的で用いられる。

完全正确

  • 这是无监督学习的标准定义句
  • A、B、D 都是典型"监督学习/深度学习混入陷阱"

問題4(教師あり vs 無教師あり)

你的答案:C

教師あり学習では、目的変数が与えられる。

正确

  • 这是区分监督/无监督的核心一句话
  • 表述精准,没有多余限定词

📊 总结成绩(按真实入试标准)

题号 结果 评价
1 教科书级理解
2 典型混淆点
3 概念非常稳
4 入试标准答案

👉 正确率:3 / 4(合格线以上)


🎯 出题人对你的评价(实话)

  • 概念掌握是对的

  • 错的不是"不会",而是:

    • 没有抓住"这个指标是给谁用的"

这正是日本大学院入试想筛的点。


🔑 给你一个"不会再错"的一句话规则

"凡是'距离'相关的,多半不是决策树的分割指标。"


6-总结

知识一点点记录吧,最后应对考试,打下基础

相关推荐
哈__13 小时前
CANN加速Image-to-Image转换:风格迁移与图像编辑优化
人工智能·计算机视觉
ujainu13 小时前
解码昇腾AI的“中枢神经”:CANN开源仓库全景式技术解析
人工智能·开源·cann
Elastic 中国社区官方博客13 小时前
Elasticsearch:Workflows 介绍 - 9.3
大数据·数据库·人工智能·elasticsearch·ai·全文检索
组合缺一13 小时前
Solon AI (Java) v3.9 正式发布:全能 Skill 爆发,Agent 协作更专业!仍然支持 java8!
java·人工智能·ai·llm·agent·solon·mcp
哈__13 小时前
CANN: AI 生态的异构计算核心,从架构到实战全解析
人工智能·架构
熊猫钓鱼>_>13 小时前
移动端开发技术选型报告:三足鼎立时代的开发者指南(2026年2月)
android·人工智能·ios·app·鸿蒙·cpu·移动端
想你依然心痛14 小时前
ModelEngine·AI 应用开发实战:从智能体到可视化编排的全栈实践
人工智能·智能体·ai应用·modelengine
KIKIiiiiiiii14 小时前
微信个人号API二次开发中的解决经验
java·人工智能·python·微信
ZH154558913114 小时前
Flutter for OpenHarmony Python学习助手实战:Web开发框架应用的实现
python·学习·flutter
哈哈你是真的厉害14 小时前
解构 AIGC 的“核动力”引擎:华为 CANN 如何撑起万亿参数的大模型时代
人工智能·aigc·cann