机器学习

机器学习(ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。

它是人工智能核心,是使计算机具有智能的根本途径。

机器学习研究和构建的是一种特殊算法(而非某一个特定的算法),能够让计算机自己在数据中学习从而进行预测。所以,机器学习不是某种具体的算法,而是很多算法的统称

ML基本思路:首先将现实问题抽象为数学问题(模型),利用数学方法对该问题进行求解,机器解决数学问题,从而解决现实问题

机器学习原理:

        训练集:给机器学习训练的数据

        特征:用来区分不同数据的属性

        建模:机器不断学习的过程

        模型:机器学习之后总结出来的规律

        通过训练集,不断识别特征,不断建模,最后形成有效的模型,这个过程就叫“机器学习”

机器学习分类:

监督学习 

监督学习:指我们给算法一个数据集,并且给定正确答案。机器通过数据来学习正确答案
的计算方法。即通过大量人工打标签来帮助机器学习,是ML中的一种训练/学习方式

        特点:目标明确、需要带标签的训练数据、效果容易评估、效果好、成本高

两个任务:分类和回归

    分类: 预测连续的、具体的数值,学习器要知道如何区分信息类型,并进行特定对象的识别。

    回归: 对各种事物分门别类,用于离散型预测,识别模式和计算结果预测的过程

监督学习算法:

分类:

逻辑回归(Logistic Regression):用于处理因变量为分类变量的回归问题,常见是二分类或二项分布问题,也可以处理多分类问题

决策树(DT:Decision Trees):是一种简单但广泛使用的分类器,通过训练数据构建决策树,对未知的数据进行分类

朴素贝叶斯(NBC:Naive Bayesian Classification):是基于贝叶斯定理的统计学分类方法,通过预测一个给定的元组属于一个特定类的概率,来进行分类

支持向量机(SVM:Support Vector Machines):把分类问题转化为寻找分类平面的问题,并通过最大化分类边界点距离分类平面的距离来实现分类

学习向量量化(LVQ:Learning Vector Quantization):是一种人工神经网络算法,允许选择要挂起的训练实例数量,并准确了解这些实例应该是什么样子,属于原型聚类,即试图找到一组原型向量来聚类

回归:

线性回归(LR:Linear Regression):最常用算法之一,期望使用一个超平面拟合数据集(两个变量时为一条直线)

回归树(Regression Tree):决策树的一种,通过将数据集重复分割为不同的分支而实现分层学习,就是用树模型做回归问题,每一片叶子都输出一个预测值。预测值一般是该片叶子所含训练集元素输出的均值

分类+回归:

K邻近(KNN:k-Nearest Neighbors ):通过搜索K个最相似的实例(邻居)的整个训练集并总结那些K个实例的输出变量,对新数据点进行预测

AdaBoost:是一种集合技术,目的就是从训练数据中学习一系列的弱分类器或基本分类器,然后讲这些弱分类器组合成一个强分类器

神经网络(Neural networks):从信息处理角度对人脑神经元网络进行抽象, 建立某种简单模型,按不同的连接方式组成不同的网络

随机森林(Random forest):指的是利用多棵树对样本进行训练并预测的一种分类器,是一个包含多个决策树的分类器, 并且其输出的类别是由个别树输出的类别的众数而定

受限波尔兹曼机(RBM:Restricted Boltzmann machine):一种可以用于降维、分类、回归、协同过滤、特征学习以及主题建模的算法,可通过输入数据集学习概率分布的随机生成神经网络,是一种生成随机的人工神经网络,可以学习的概率分布在其组输入

无监督学习

无监督学习:就是训练样本中目标变量未被标记。学习器要自己从训练样本数据中发掘规律,按照样本的性质自动分组,本质上是一个统计手段,在没有标签的数据里可以发现潜在的一些结构的一种训练方式

特点:目标不明确、不需要带标签的数据、效果很难评估

无监督学习算法:

聚类:一种自动分类的方法,并不清楚聚类后的几个分类每个代表什么意思

K均值聚类(k-means clustering algorithm):是一种迭代求解的聚类分析算法,先随机选取K个对象作为初试的聚类中心,然后计算每个对象与各个种子聚类中心之间的距离,把每个对象分配给距离最近的聚类中心,制定分组的数量为K,自动进行分组

层次聚类(hierarchical clustering) :层次聚类试图在不同层次对数据集进行划分,从而形成树形的聚类结构,如果不知道应该分为几类,那么层次聚类就比较适合了。层次聚类会构建一个多层嵌套的分类,类似一个树状结构

最大期望算法(EM:Expectation-Maximization algorithm):是一类通过迭代进行极大似然估计(Maximum Likelihood Estimation, MLE)的优化算法

降维:看上去像压缩。是为了在尽可能保存相关的结构的同时降低数据的复杂度,目标是简化数据

主成分分析(PCA:Principal Component Analysis):是把多指标转化为少数几个综合指标,主要思想是数据经过某种投影,或者说乘以一个矩阵之后,得到的新的矩阵在所投影的维度上数据的方差最大,以此使用较少的数据维度,同时保留住较多的原数据点的特性

奇异值分解 (SVD:Singular Value Decomposition):线性代数中一种重要的矩阵分解,奇异值分解则是特征分解在任意矩阵上的推广

线性判别分析(LDA:Linear Discriminant Analysis):一种有监督的(supervised)线性降维算法,模式识别的经典算法,是一种用于统计,模式识别和机器学习的方法,传统上仅限于两类分类问题的分类算法,如果有两个以上的类,则线性判别分析算法是首选的线性分类技术 

半监督学习 

半监督学习:是介于监督学习和无监督学习得一种算法。本质上,半监督模型将两者结合到自己的一个算法中。其在训练阶段结合了大量未标记的数据和少量标签数据。与使用所有标签数据的模型相比,使用训练集的训练模型在训练时可以更为准确,而且训练成本更低

强化学习 

强化学习(RL:Reinforcement Learning):是机器学习的一种学习方式,它跟监督学习、无监督学习是对应的,并不是某一种特定的算法,而是一类算法的统称,是在连续的尝试和失败序列中,基于标记数据的组合和传入数据的交互来改进自身

区别:强化学习和监督学习、无监督学习最大的不同就是不需要大量的“数据喂养”。而是通过自己不停的尝试来学会某些技能

Logo

汇聚全球AI编程工具,助力开发者即刻编程。

更多推荐