机器学习备份

监督学习通过对数据进行标注，来让机器学习到，比如：小曹多重多高就是胖纸，或者用身高体重等数据，来计算得到小曹的BMI系数；

而无监督学习则没有任何的数据标注（超过多高算高，超过多重算胖），只有数据本身。

聚类是一个将数据集中在某些方面相似的数据成员进行分类组织的过程，聚类就是一种发现这种内在结构的技术，聚类技术经常被称为无监督学习。

余弦相似度

余弦相似度量：计算个体间的相似度。

相似度越小，距离越大。相似度越大，距离越小。

K-means算法

k-NearestNeighbor=KNN

前馈神经网络是一种最简单的神经网络，各神经元分层排列。每个神经元只与前一层的神经元相连。接收前一层的输出，并输出给下一层．各层间没有反馈。

后一层只接受前一层的输入，各层没有反馈

循环神经网络，Recurrent Neural Network

Sigmoid函数是一个在生物学中常见的S型函数，也称为S型生长曲线。

Sigmoid函数常被用作神经网络的阈值函数，将变量映射到0，1之间

SGD（随机梯度下降）Gradient Descent

卷积神经网络（Convolutional Neural Network）

由于该网络避免了对图像的复杂前期预处理，可以直接输入原始图像

前馈 feedforward

限制玻尔兹曼机(Restricted Boltzmann Machine RBM)

变量 k 是运行对比散度（Contrastive Divergence）

对比散度是用来计算梯度（该斜率表示网络权重与其误差之间的关系）的方法

优化算法（optimizationAlgo）指神经网络最小化误差或者找到最小误差轨迹的方式，它是一步一步调整参数的。

正则化（regularization）方法（如 L2）有助于防止神经网络中的过拟合。

深度学习网络的每一层都需要四个元素：输入、系数、偏置项以及变换（激活算法）。

输入是数值数据，是一个来自于前面层（或者原始数据）的向量。系数是通过每个节点层的特征的权重。偏置项确保部分节点无论如何都能够被激活。变换是一种额外的算法，它在数据通过每一层以后以一种使梯度（梯度是网络必须学习的）更容易被计算的方式压缩数据。

感受野(Receptive Field)

半监督学习（semi-supervised learning）

缩短truncate

准确率accuracy 简称acc

损失率loss

PIL(Python Image Library）

plot 制图 matlab中二维线画图函数

assert 断言

cross_entropy 交叉熵

线性整流函数（Rectified Linear Unit, ReLU）

MLP（Multi-Layer Perceptron），即多层感知器

激活函数：Sigmoid函数，Tanh函数，ReLU函数

人们也常把将多层前馈网络直接称为BP网络。

一个输入 x 会拥有 12 个权重（4 个输入节点×3 个输出节点）。

architecture 体系结构

利用梯度下降的方法解题步骤如下：

1、求梯度，

2、向梯度相反的方向移动，如下

，其中，为步长。如果步长足够小，则可以保证每一次迭代都在减小，但可能导致收敛太慢，如果步长太大，则不能保证每一次迭代都减少，也不能保证收敛。

3、循环迭代步骤2，直到的值变化到使得在两次迭代之间的差值足够小，比如0.00000001，也就是说，直到两次迭代计算出来的基本没有变化，则说明此时已经达到局部最小值了。

4、此时，输出，这个就是使得函数最小时的的取值。

voc 文件格式：DOS系统下面的音频文件格式标准

2019年3月16日

一方面TensorFlow官方已经给出方法，那就是将图片制作成tfrecord格式的数据，供TensorFlow读取。

另一方面Python以及Python的图像处理第三方库都有读取制作的方法，种类繁杂。

输入是数值数据，是一个来自于前面层（或者原始数据）的向量。

系数是通过每个节点层的特征的权重。

偏置项确保部分节点无论如何都能够被激活。

变换是一种额外的算法，它在数据通过每一层以后以一种使梯度（梯度是网络必须学习的）更容易被计算的方式压缩数据。

BP网络的学习过程是一种误差修正型学习算法，由正向传播和反向传播组成。(误差反向传播算法)

2.前向传播算法(Forward propagation)与反向传播算法(Back propagation)

3.线性整流函数（Rectified Linear Unit, ReLU），又称修正线性单元，

是一种人工神经网络中常用的激活函数（activation function），

通常指代以斜坡函数及其变种为代表的非线性函数。

4.无论你神经网络有多少层，输出都是输入的线性组合，

与没有隐藏层效果相当，这种情况就是最原始的感知机（Perceptron）了

对于前向传播来说，不管维度多高，其过程都可以用如下公式表示：

a2=σ(z2)=σ(a1∗W2+b2)

其中，上标代表层数，星号表示卷积，b表示偏置项bias，σσ表示激活函数。

6.卷积与傅里叶变换有着密切的关系。利用一点性质，

即两函数的傅里叶变换的乘积等于它们卷积后的傅里叶变换，

能使傅里叶分析中许多问题的处理得到简化。

7.全连接层（fully connected layers，FC）在整个卷积神经网络中起到"分类器"的作用。

8.偏置项相当于一个阈值，达到这个阈值可以改变输出

pooling层(池化层)的输入一般来源于上一个卷积层,主要有以下几个作用：

1.保留主要的特征,同时减少下一层的参数和计算量，防止过拟合；

保持某种不变性，包括translation(平移)，rotation(旋转)，scale(尺度),常用的有mean-pooling和max-pooling。

20190318

tmplist =["hello","it","is","me","i","am","wondering"]

tempslice = tmplist[:2] #hello it

print (tempslice)

tempslice = tmplist[2:] #is me i am wondering

print (tempslice)

tempslice =tmplist[-2:]#am wondering

print (tempslice)

tempslice =tmplist[2:4]#is me 两个都是序列

print (tempslice)

tempslice =tmplist[2:100]#is me i am wondering

print (tempslice)

tempslice ="1" #弱类型赋值，可以随便转换类型

print (tempslice)

tempslice =tmplist[:]

print (tempslice)

3.整理照片的一种更好的方法是从图像本身中提取语义信息并智能地使用这些信息。

1 特征（feature）

数据的特征。

举例：书的内容

2 标签（label）

数据的标签。

举例：书属于的类别，例如"计算机""图形学""英文书""教材"等。

3 学习（learning）

将很多数据丢给计算机分析，以此来训练该计算机，培养计算机给数据分类的能力。换句话说，学习指的就是找到特征与标签的映射（mapping）关系。这样当有特征而无标签的未知数据输入时，我们就可以通过已有的关系得到未知数据标签。

举例：把很多书交给一个学生，培养他给书本分类的能力。

4 分类（classification）

定性输出称为分类，或者说是离散变量预测。

举例：预测明天是阴、晴还是雨，就是一个分类任务。

5 回归（regression）

定量输出称为回归，或者说是连续变量预测；

举例：预测明天的气温是多少度，这是一个回归任务；

6 聚类（clustering）

无监督学习的结果。聚类的结果将产生一组集合，集合中的对象与同集合中的对象彼此相似，与其他集合中的对象相异。

举例：没有标准参考的学生给书本分的类别，表示自己认为这些书可能是同一类别的（具体什么类别不知道）。

有监督学习

举例：不仅把书给学生进行训练给书本分类的能力，而且把分类的结果（哪本书属于哪些类别）也给了学生做标准参考。

有监督学习的结果可分为两类：分类或回归。

无监督学习

举例：只给学生进行未分类的书本进行训练，不给标准参考，学生只能自己分析哪些书比较像，

根据相同与相似点列出清单，说明哪些书比较可能是同一类别的。

半监督学习

举例：给学生很多未分类的书本与少量的清单，清单上说明哪些书属于同一类别。

20190319

"单下划线" 开始的成员变量叫做保护变量，意思是只有类对象和子类对象自己能访问到这些变量；

"双下划线" 开始的是私有成员，意思是只有类对象自己能访问，连子类对象也不能访问到这个数据。

2.with g.as_default(): 上下文管理器，把g设置为默认图

一幅图中包含一些操作（Operation）对象，这些对象是计算节点。

前面说过的Tensor对象，则是表示在不同的操作（operation）间的数据节点。

tf.Graph()

功能：生成新的计算图。

说明：不同计算图上的张量和运算都不会共享。

20190426

1.这个滤波器要对这种曲线有很高的输出，对其他形状则输出很低，

这也就像是神经元的激活。

2.一般的CNN架构都是三明治一样，卷积池化交替出现，保证提取特征的同时也强制模糊增加特征的旋转不变性。

20190427

1.平均值mean，众数mode，中值median，标准差stddev

20190508

从数学上看，分布函数F(x)=P(X<x)，表示随机变量X的值小于x的概率。这个意义很容易理解。

概率密度f(x)是F(x)在x处的关于x的一阶导数，即变化率。如果在某一x附近取非常小的一个邻域Δx，那么，随机变量X落在(x, x+Δx)内的概率约为f(x)Δx，即P(x<X<x+Δx)≈f(x)Δx。

换句话说，概率密度f(x)是X落在x处"单位宽度"内的概率。"密度"一词可以由此理解

20190509

1.softmax 归一化指数函数

2.softmax源码

import math

z = [1.0, 2.0, 3.0, 4.0, 1.0, 2.0, 3.0]

z_exp = [math.exp(i) for i in z]

print(z_exp) # Result: [2.72, 7.39, 20.09, 54.6, 2.72, 7.39, 20.09]

sum_z_exp = sum(z_exp)

print(sum_z_exp) # Result: 114.98

softmax = [round(i / sum_z_exp, 3) for i in z_exp]

print(softmax) # Result: [0.024, 0.064, 0.175, 0.475, 0.024, 0.064, 0.175]

交叉熵：（表征距离）

H(p,q) = -sump(x)logq(x)

假设N=3,期望输出为p=（1，0，0）

实际输出为q1=（0.5，0.2，0.3）

实际输出为q2=（0.8，0.1，0.1）

则表征距离：

H(p,q1)=-(1xlog0.5+0xlog0.2+0xlog0.3)

H(p,q1)=0.3

H(p,q2)=-(1xlog0.8+0xlog0.1+0xlog0.1)

H(p,q2)=0.1

交叉熵应该是一个列向量

20190511

1.最小特征值对应的特征向量就是平面的法向量。

2.计算投影的方法上面已经阐述，就是将x与u1做内积，由于只需要求u1的方向，所以设u1也是单位向量。

3.我们有矩阵代数中的定理知，向量经矩阵映射前后的向量长度之比的最大值就是这个矩阵的最大奇异值

4.fai是矩阵A的最大奇异值（亦是矩阵A的二范数）

0范数，向量中非零元素的个数。

1范数，为绝对值之和。

2范数，就是通常意义上的模。

无穷范数，就是取向量的最大值。

0）设A为实对称矩阵，若对于每个非零实向量X，都有X'AX≥0，

则称A为半正定矩阵，称X'AX为半正定二次型。（其中，X'表示X的转置。） [1]

1）设A为实对称矩阵，若对于每个非零实向量X，都有X'AX>0，

则称A为正定矩阵，称X'AX为正定二次型。

2）设A为实对称矩阵，若对于每个非零实向量X，都有X'AX<0，

则称A为负定矩阵，称X'AX为负定二次型。

3）设A为实对称矩阵，若对于每个非零实向量X，都有X'AX≤0，

则称A为半负定矩阵，称X'AX为半负定二次型。

4）设A为实对称矩阵，若A既不是半正定又不是半负定，

则称A为不定矩阵，称X'AX为不定二次型。

7.由于协方差矩阵是对称的，因此其特征向量正交

2020年5月25日10:57:21