本人水平有限,记下自己的一点笔记。漫画机器学习入门1漫画机器学习入门2数据挖掘矩阵的行的样本,列是特征。矩阵可以看作是一些模式的...
本人水平有限,记下自己的一点笔记。
1漫画机器学习入门
2数据挖掘
矩阵的行的样本,列是特征。矩阵可以看作是一些模式的排列,矩阵=列*行模式,矩阵的秩是线性无关的向量的个数,模式的个数。
2机器学习
即:由人定义一些计算机算法,让计算机根据输入的数据(样本)和人预先提供的一些先验知识来总结和归纳这些数据中隐藏的特征,并用这些特征与一定的学习目标形成对应(映射)关系,从而可以自动地做出一些反应。
根本课题:最优化问题,将模型中的各个参数进行优化,使得模型的实际输出尽可能地与理想输出相等。
聚类:将数据按照结构或特征进行分类,通过初步分类后再看数据,通常会得到更多的有用的信息。
3批量学习 / 在线学习
在线学习:如果新数据与原来的数据有较大差别,就可能会对匹配的模型产生影响,因为在线学习误差将会变大。在线学习通用性更好,因为数据是不停接收进来的。
4监督学习 / 无监督学习
监督学习:为了让输出符合要求。
无监督学习,为了能补充矩阵中空白的数据,并能预测出新的模式。去除无关特征,用稀疏矩阵建立模型。
3神经网络模型
一般是前馈型神经网络,前一个特征单方面的去下一个节点,单方面的信息流动。
把特征量组合后进行非线性变换(如,sig(x)=、斜坡函数)。
4监督学习的神经网络
分为正向(前馈)型神经网络,双向型神经网络
分为一层神经网络,多层神经网络
5梯度下降算法
找最小值的算法。
可能到达鞍点(如双变量函数的曲面,从左右两边看鞍点是极小值,从先后看鞍点是极大值),而不是最小值(全局最优解)
6梯度下降可能面临的问题:
梯度消失:例如非线性函数不合理, sig(x) 函数的微分当x很大时,微分很小,调整权值时输出几乎没有变化。例如当损失函数不为凸函数时,不能达到最优解。过度学习模型参数过多,可能过拟合。常规定一个参数值不能远远大于其他参数值,同一参数值在某时某刻的数值也不能远远大于其他时刻的值,否则必须对数据做 正规化处理。中退取舍 (dropout) 法,适当地选取一定比例的特征量,剩下的全部弃用,直接结束最优求解过程。模型参数太少,可能欠拟合。6反向传播算法
Back propagation,也叫BP算法
反向传播(反向调整权值,计算梯度)是梯度下降(找最小值)在神经网络上的具体实现方式。
6最快梯度下降算法
即,所有特征向正确方向拟合,逐步拟合 (O(n))
目标函数的梯度:
表示索引为 i 的样本的损失函数的梯度。
6概率梯度下降算法
随机优化某一条训练数据上的损失函数,这样每一轮的参数更新速度大大加快,跳跃拟合(O(1))
但也可能不是最小值(全局最优解)
6批梯度下降算法
上面两者的结合
4双向型神经网络
由 Hopfield 提出,双向型神经网络不同于正向信息处理,它可以有多个输出结果,而且从这些输出结果中它可以“回忆起”以前记忆过的信息,因此也被叫做联想记忆。
类比物理中,伊辛模型 ISing mode,其中由朝上下两个方向的大量微小磁介值,根据周围其介质的朝向和基于各种算法会有不同的处理方式,在进行多次循环之后,磁介质的朝向会逐渐被更新,最终实现统一。
4多层人工神经网络
类似,偏微分
中间层:隐层,由新的隐特征组成。
模型越复杂,网络就越纠缠。
4深度学习
深度学习拥有多层神经网络结构,而神经网络又是机器学习中的一个重要方法。所谓的“深度”就是深层次地挖掘数据中的相互关系。
在传统机器学习中,手工设计特征对学习效果很重要,但是特征工程非常繁琐。而深度学习能够从大数据中自动学习特征(预处理,卷积)
5预训练(无监督的深度学习网络)
无监督的深度学习,喂给机器数据数据,而不告诉具体哪些是有用的特征。这种学习方式在深度学习中也被称为预训练,用于提取特征,可以处理哪些对任务(最后让系统做什么)结果不明确的数据(不确定有没有用的统一叫数据,有用的叫特征),这样可以激发多层神经网络潜在的性能。
6迁移学习
进行了预训练的系统即使改变一下任务后也可以使用,这叫用迁移学习(指一种学习对另一种学习的影响,或习得的经验对其他活动的影响)
5基于玻尔兹曼机器学习的图像处理方法
图像处理:
如果知道足够多的你的面部图像中每一个地方不同颜色所出现的概率,在每一个像素的位置都能够输出概率高的颜色值,那么我就可以大体描绘出的你的面部图像了。
如果某个像素显示的是皮肤的颜色,那么这个像素的邻近像素也会显示皮肤颜色的趋势。
玻尔兹曼机:按这种思路建立的模型,称作玻尔兹曼机。
玻尔兹曼机器学习:将图像的颜色数据输入到玻尔兹曼机中,计算机通过分析这些数据,微分运算改像素颜色,就可以得到实际图像的特征、个像素点显示某种颜色的概率,以及相邻像素间的关系等。这种学习方式叫做玻尔兹曼机器学习。玻尔兹曼机器学习采用双向型神经网络,最终得到的是反应事务规律的主要特征。普通深度学习网络最终得到的是一个预测结果。
玻尔兹曼机器学习的过程中,就是要自身不停地生产出伪数据来,也叫采样(sampling),使伪数据和实际数据的似然度(相似程度)足够大。玻尔兹曼机器学习相比梯度下降法就增加了采用。
由于图像需要比较似然度,相比传统数值回归问题降低损失函数(采样隐含在算法中,损失函数反应了采样结果),玻尔兹曼机器学习处理图像要生产很多中间图像,很消耗时间。
由于图像像素相邻(包含更远的范围)像素间具有关系,相比与传统的神经网络模型,他是一种双向型神经网络,每一个特征(像素)需要询问其周围(包含更远的范围)的特征。
6马尔科夫链蒙特卡罗方法
信息传播的方法,一个点会与整个网络中的所有点交流
玻尔兹曼机器学习在进行时,采用马尔科夫链蒙特卡罗方法来逐一考虑相邻像素之间的关系,来完成双向型神经网络的信息流动。这是一种在整个网络中的循环,在这一过程中还要不断地采集大量的重构数据。
6平均场近似法
信息传播的方法,一个点会与周围四个点交流
单纯考虑由相邻像素传送来的信息,这种方法叫做平均场近似法。速度比马尔科夫链蒙特卡罗方法快,但是性能有损失。
6信息交互法
信息传播的方法,一个点会与周围的周围的12个点交流
与相邻像素进行信息的互相交流
6拟最大似然法(快)
依据相邻像素的数据,在现有参数值情况下,预测中心像素的颜色值。需要大量的数据支撑。
5受限玻尔兹曼机
普通玻尔兹曼机是相邻像素有关系,而受限玻尔兹曼机加入了隐含变量(只利用像素来处理模式问题会比较困难,所以用隐含变量表示可见变量(像素)之间的关系)
利用这种方式,就可以提前准备好隐藏变量,当隐藏变量为某个值的时候,通过可见变量与隐藏变量之间的关系就可以决定在可见变量一侧表示出什么。这种方法认为可见变量(像素)之间没有任何关联,各个开关之间也没有关联。只考虑隐藏变量和可见变量之间的关系,叫做受限玻尔兹曼机。它不仅简单,还具有较好的特性,比如一定条件下的独立性。
6对比散度算法
对比散度-1,表示将实例的颜色数据与建立的模型采集到的伪数据进行比较一次
5深度玻尔兹曼机
是多层神经网络+受限玻尔兹曼机
5无监督学习的其他方法
6自我符号化
获得输入的某种表现形式和特征,进行降维操作(降低维数,保留最重要的部分,特征提取),在中间层进行组合,再复原输出(一定要完全一样,似然就好)。
和玻尔兹曼机不同,自我符号化是单向的网络结构
和普通多层神经网络解决回归/分类问题不同(有测试集),自我符号化是自己和自己比(复原输入,根据任务来决定输出)
3回归问题
使损失函数尽量小。如果模型太复杂,如何去除误差又会成了一项非常艰苦的工作。
学习率:拟合时的步长,权值的微调。
3分类问题
非线性函数:单位阶跃函数
用超平面分类
4感知机模型
perceptron,这个可以通过移动分割超平面将不同数据进行分类的模型
5支持向量机
在感知机的基础上,尽可能扩大安全裕yu量(在分类的基础上调整,分割线尽使其尽量远离所有数据点,与回归问题防止过度学习而采用数据正规化处理识别目的相同)
支持向量机,支持向量机考虑的是分割朝平面于各个数据之间距离的远近,通用型高,处理简单分类问题不错
6内核法
内核法是关注这种变形后在距离上的规则,是通过距离上规则的变化来决定非线性变换的方法。因此是一种在距离的计算上非常简单,非线性变换也不是特别复杂。不需要求解大量参数的最优化问题,是一种非常简便的方法。
4卷积神经网络
随着图像研究的深入,已经有了适合图像处理的神经网络,卷积神经网络。在输入图像的时候,横夺情况并没有进行预处理,而是直接利用了卷积神经网络。
卷积:在某种程度上将邻近的像素组合起来形成特征量(周围像素加权),这就是卷积。
池化(Pooling):利用卷积将特征量进行排序,将相近的特征进行比较并选用其中的最大值或平均值(提取特特征量)。
而池化后的特征量作为多层神经网络的输入,后面都是一样的步骤。
以前是根据人们提前决定好的(预训练的)特征量来处理的,但并不能完全确认我们选定的这些特征量与最终目的之间的关联性到底有多大。因此,能否选择正确的特征量是以前机器学习效果的关键。
如果认为本文对您有所帮助请赞助本站