机器学习及其分类

learning-striving

2256人浏览 · 2022-08-09 22:01:35

learning-striving · 2022-08-09 22:01:35 发布

机器学习

机器学习（ML）是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。

它是人工智能核心，是使计算机具有智能的根本途径。

机器学习研究和构建的是一种特殊算法（而非某一个特定的算法），能够让计算机自己在数据中学习从而进行预测。所以，机器学习不是某种具体的算法，而是很多算法的统称

ML基本思路：首先将现实问题抽象为数学问题（模型），利用数学方法对该问题进行求解，机器解决数学问题，从而解决现实问题

机器学习原理：

训练集：给机器学习训练的数据

特征：用来区分不同数据的属性

建模：机器不断学习的过程

模型：机器学习之后总结出来的规律

通过训练集，不断识别特征，不断建模，最后形成有效的模型，这个过程就叫“机器学习”

机器学习分类：

监督学习

监督学习：指我们给算法一个数据集，并且给定正确答案。机器通过数据来学习正确答案
的计算方法。即通过大量人工打标签来帮助机器学习，是ML中的一种训练/学习方式

特点：目标明确、需要带标签的训练数据、效果容易评估、效果好、成本高

两个任务：分类和回归

分类： 预测连续的、具体的数值，学习器要知道如何区分信息类型，并进行特定对象的识别。

回归： 对各种事物分门别类，用于离散型预测，识别模式和计算结果预测的过程

监督学习算法：

分类：

逻辑回归（Logistic Regression）：用于处理因变量为分类变量的回归问题，常见是二分类或二项分布问题，也可以处理多分类问题

决策树（DT：Decision Trees）：是一种简单但广泛使用的分类器，通过训练数据构建决策树，对未知的数据进行分类

朴素贝叶斯（NBC：Naive Bayesian Classification）：是基于贝叶斯定理的统计学分类方法，通过预测一个给定的元组属于一个特定类的概率，来进行分类

支持向量机（SVM：Support Vector Machines）：把分类问题转化为寻找分类平面的问题，并通过最大化分类边界点距离分类平面的距离来实现分类

学习向量量化（LVQ：Learning Vector Quantization）：是一种人工神经网络算法，允许选择要挂起的训练实例数量，并准确了解这些实例应该是什么样子，属于原型聚类，即试图找到一组原型向量来聚类

回归：

线性回归（LR：Linear Regression）：最常用算法之一，期望使用一个超平面拟合数据集（两个变量时为一条直线）

回归树（Regression Tree）：决策树的一种，通过将数据集重复分割为不同的分支而实现分层学习，就是用树模型做回归问题，每一片叶子都输出一个预测值。预测值一般是该片叶子所含训练集元素输出的均值

分类+回归：

K邻近（KNN：k-Nearest Neighbors ）：通过搜索K个最相似的实例（邻居）的整个训练集并总结那些K个实例的输出变量，对新数据点进行预测

AdaBoost：是一种集合技术，目的就是从训练数据中学习一系列的弱分类器或基本分类器，然后讲这些弱分类器组合成一个强分类器

神经网络（Neural networks）：从信息处理角度对人脑神经元网络进行抽象，建立某种简单模型，按不同的连接方式组成不同的网络

随机森林（Random forest）：指的是利用多棵树对样本进行训练并预测的一种分类器，是一个包含多个决策树的分类器，并且其输出的类别是由个别树输出的类别的众数而定

受限波尔兹曼机（RBM：Restricted Boltzmann machine）：一种可以用于降维、分类、回归、协同过滤、特征学习以及主题建模的算法，可通过输入数据集学习概率分布的随机生成神经网络，是一种生成随机的人工神经网络，可以学习的概率分布在其组输入

无监督学习

无监督学习：就是训练样本中目标变量未被标记。学习器要自己从训练样本数据中发掘规律，按照样本的性质自动分组，本质上是一个统计手段，在没有标签的数据里可以发现潜在的一些结构的一种训练方式

特点：目标不明确、不需要带标签的数据、效果很难评估

无监督学习算法：

聚类：一种自动分类的方法，并不清楚聚类后的几个分类每个代表什么意思

K均值聚类（k-means clustering algorithm）：是一种迭代求解的聚类分析算法，先随机选取K个对象作为初试的聚类中心，然后计算每个对象与各个种子聚类中心之间的距离，把每个对象分配给距离最近的聚类中心，制定分组的数量为K，自动进行分组

层次聚类（hierarchical clustering）：层次聚类试图在不同层次对数据集进行划分，从而形成树形的聚类结构，如果不知道应该分为几类，那么层次聚类就比较适合了。层次聚类会构建一个多层嵌套的分类，类似一个树状结构

最大期望算法（EM：Expectation-Maximization algorithm）：是一类通过迭代进行极大似然估计（Maximum Likelihood Estimation, MLE）的优化算法

降维：看上去像压缩。是为了在尽可能保存相关的结构的同时降低数据的复杂度，目标是简化数据

主成分分析（PCA：Principal Component Analysis）：是把多指标转化为少数几个综合指标，主要思想是数据经过某种投影，或者说乘以一个矩阵之后，得到的新的矩阵在所投影的维度上数据的方差最大，以此使用较少的数据维度，同时保留住较多的原数据点的特性

奇异值分解（SVD：Singular Value Decomposition）：线性代数中一种重要的矩阵分解，奇异值分解则是特征分解在任意矩阵上的推广

线性判别分析（LDA：Linear Discriminant Analysis）：一种有监督的（supervised）线性降维算法，模式识别的经典算法，是一种用于统计，模式识别和机器学习的方法，传统上仅限于两类分类问题的分类算法，如果有两个以上的类，则线性判别分析算法是首选的线性分类技术

半监督学习

半监督学习：是介于监督学习和无监督学习得一种算法。本质上，半监督模型将两者结合到自己的一个算法中。其在训练阶段结合了大量未标记的数据和少量标签数据。与使用所有标签数据的模型相比，使用训练集的训练模型在训练时可以更为准确，而且训练成本更低

强化学习

强化学习（RL：Reinforcement Learning）：是机器学习的一种学习方式，它跟监督学习、无监督学习是对应的，并不是某一种特定的算法，而是一类算法的统称，是在连续的尝试和失败序列中，基于标记数据的组合和传入数据的交互来改进自身

区别:强化学习和监督学习、无监督学习最大的不同就是不需要大量的“数据喂养”。而是通过自己不停的尝试来学会某些技能

AI编程社区

汇聚全球AI编程工具，助力开发者即刻编程。

更多推荐

氛围编程：AI代码生成的幻象与现

AI编程社区

【AI编程实战天花板】用通义灵码1小时落地一体化接口文档系统：从需求到上线的全流程拆解

AI编程社区

马斯克颠覆AI编程界！xAI新模型Grok Code Fast 1免费体验，256K上下文极速处理！

AI编程社区

所有评论(0)

查看更多评论

learning-striving

@qq_43874317

已为社区贡献1条内容