深度学习与神经网络 | 邱锡鹏 | 第三章学习笔记

softmax是用的改进版一对其余，而剩下的都是二分类的线性模型，即g(f(x))形式，不一样的是他们使用了不同的损失函数，这会导致他们学出来的模型不一样，所以取的名字也不一样

图像识别，垃圾邮件过滤，文档归类，情感分类这些都是分类问题

fx是判别函数，g(f(x))是决策函数 0和1表示正类和负类

一条线把两个分类隔开

有了模型下一个就是学习准则就是损失函数，01损失函数不可求导，无法转化为最优化问题所以要重新选择一个更好的损失函数

多分类不可以用一个函数表示，那就表示要用多个函数表示

虽然是改进的一对其余，但是仍然是不可导的，那说明我们还是得去找一个更好的损失函数

信息压缩就是信息编码

applicatio_剩下的字符几乎只能写n，概率就是1

appl_剩下的字符可以是e可以是y，概率就是分别0.5，或者根据使用频率另外再说

自信息衡量一个随机事件的信息量是多少

其实就是对应概率的取对数的相反数

表示的其实就是一个事件如果经常发生，那说明这件事包含的信息量就很少

applicatio_就没有什么信息量，因为他的结果几乎是确定的，也就是说最后一位取n这件事经常发生

而另外appl_那就有信息量了，因为他的结果并不确定，结果越不确定信息量越大

信息量具有可加性

可以用来衡量两个分布的差异

KL散度是用概率分布q来近似p时所造成的信息损失量；

最小化KL散度=最小化交叉熵损失=最大化对数似然

用交叉熵作为损失函数，并使用梯度下降法进行参数优化

logistic回归！= 逻辑回归

判别函数fx=wtx

没必要优化到01分布，只要能够优化到能把两个分类给分开就好了

解决多分类问题；

把要分类的东西代入fc，哪个分类的评分最高，就把东西归为哪个分类

学习准则：参数化的条件概率和真实条件概率的交叉熵

损失函数：依旧使用交叉熵

交叉熵损失也是一种最大似然估计

图中y是真实概率，y^是softmax函数预测出来的概率

而y这个向量就是一个one hot向量

c取1，那第一维就是1，剩下的都是0

c取2，那第二维就是2，剩下的都是0

答案（元宝的部分答案：