吉林大学22级机器学习B期末复习

初步理解概率论加线性代数课。

兜兜里有纸

6570人浏览 · 2024-11-26 21:11:02

兜兜里有纸 · 2024-11-26 21:11:02 发布

~~第一步，新建文件夹~~ 持续更新中..不知道什么时候能整完> <

初步理解概率论加线性代数课

只给这门课留了一周时间实在是有点紧张啊。。。

李航老师统计学习方法答案汇总_统计学习方法李航答案-CSDN博客

【一起入门MachineLearning】中科院机器学习期末考试*总复习*-考前押题+考后题目回忆_中科大机器学习期末试卷-CSDN博客

推荐大二下学期选修计算方法这门课，开卷考试不过比较难，但是很有用，大三上后悔已经来不及了

简答题

1.线性回归的基本思想？

2.简要说明梯度下降法的过程？
（梯度下降vs最小二乘）

3.BGD vs. SGD？

4.学习率α的选择？

5.欠拟合vs过拟合？

6.硬分类vs软分类

7.准确率vs精确率vs召回率

8.SVM的过程？

引入拉格朗日算子、原始问题转换对偶问题、求对偶问题的解、对偶问题的解转为原问题的解

9.求解线性可分支持向量机的步骤？

利用拉格朗日乘子法，构造拉格朗日函数；利用强对偶性(KKT条件)将优化问题进行转化，并求解；利用最优的𝑤∗和𝑏∗构建分类器。

10.SMO的思想？

11.非线性SVM的解法？

12.SVRvsSVM

13.聚类问题是什么？

聚类（Clustering）是最常见的无监督学习算法，它指的是按照某个特定标准（如距离）把一个数据集分割成不同的类或簇，使得同一个簇内的数据对象的相似性尽可能大，同时不在同一个簇中的数据对象的差异性也尽可能地大。

14.聚类过程中需要解决哪些问题？

定义数据间的距离/相似度度量；使用相应的算法对数据集进行分割；度量聚类结果的性能。

15.聚类主要类型

划分聚类（K-means、K-medoids等）层次聚类（凝聚法、分裂法）密度聚类（DBScan、基于密度峰值算法）网格法（STING、CLIQUE）模型法（概率模型：高斯混合模型Gaussian MixtureModels ；神经网络模型:SOM；吸引子传播算法：AP聚类）谱聚类

16.K-means的流程

随机选择 K 个簇中心点（可以选已有的数据作为中心点，也可直接选高维空间中的位置）；样本被分配到离其最近的中心点； K 个簇中心点根据所在簇样本，以求平均值的方式重新计算；开始迭代，重复第2步和第3步直到所有样本的分配不再改变

17.K-means的优缺点

优点：简单快速，对大数据集保持伸缩性和高效性，对密集结果簇效果好

缺点：只适合数值型数据，需要事先给出K，且对初值敏感，不适合于发现非凸面形状的簇或者大小差别很大的簇，对噪声和孤立点数据敏感

18.什么是数据降维？

降维(Dimensionality Reduction)是将训练数据中的样本(实例)从高维空间转换到低维空间。该过程与信息论中有损压缩概念相似，完全无损的降维是不存在。降维方法又分为线性降维和非线性降维，非线性降维又分为基于核函数和基于流形等方法

19.为什么要降维？

数据降维可以使得数据集更易使用、确保变量之间彼此独立、降低算法计算运算成本、去除噪音。数据降维常应用于文本处理、人脸识别、图片识别、自然语言处理等领域。

20.常见的几种核函数？

线性核， Gauss径向基核，多项式核，S形核(双曲正切核)

证明题

证明题想不出来怎么出..因为老师说公式的推导不需要重点关注。猜测和简答题差不多吧

1.最小二乘法的正规方程

重点公式

线性回归

1.拟合函数

2.代价函数

3.平方和误差（最小二乘法目标函数）

4.最小二乘法矩阵形式

5.最小二乘法封闭解

6.BGD

7.SGD

逻辑回归

1.sigmoid函数

2.拟合函数

3.最大化似然目标函数

4.牛顿迭代公式

5.准确率

6.精确率

7.召回率

8.F1-score

9.AUC

支持向量机

1.初始优化目标

2.拉格朗日函数

3.目标函数

4.最优超分类曲面

计算题

线性回归梯度下降法

书接上回，梯度下降法解线性回归_哔哩哔哩_bilibili

逻辑回归最大似然函数牛顿法

感觉出大题的概率稍微小一点，因为统计学习方法里面没有应用题（可能会考推导？）

【作业讲解】逻辑回归_哔哩哔哩_bilibili

SVM求最大间隔分离超平面和分类决策函数

（计算题概率大一些，核方法的推导也有可能会考）

求b*笔误修正

其实还可以用高中方法解决，就是①的那三个约束直接画图，然后取边界点

PCA

出题概率很大，PPT上为数不多的例题

第一章绪论

机器学习的基本流程

步骤1: 选择具体的模型

步骤2:定义目标函数

步骤3:选择最优的函数

机器学习算法的类型

监督学习

◼ 回归

◼ 分类

• 无监督学习

◼ 聚类

◼ 降维

• 半监督学习

• 自监督学习

• 强化学习

第二章线性回归（重点）

线性回归

目标形式

代价函数

要求误差和最小，问题转化为求解【绝对误差】

为了方便后续求解，损失函数采用【误差平方和】

线性回归的过程
第一步：建模
线性模型

第二步：评估模型
估计误差

第三步：寻找最优函数

特征规范化

目的：各个特征变量的范围要保持相近

最小二乘目标函数（大题）

为了方便使用梯度下降法求解模型参数

以闭合形式求出使 J(θ) 最小的 θ 值。

最小化 J(θ)，令J(θ)关于θ 的偏导数为0，

得到θ的闭式解。

正规方程

示例

增广矩阵

X'是转置

梯度下降法

最小化优化【梯度下降法】

最大化优化【梯度上升法】

只有一个训练样本：

其中，0 ≤ 𝑗 ≤ 𝑛

多个样本
批量梯度下降

随机梯度下降

(BGD vs. SGD)

◼ BGD 扫描整个训练集后再更新参数

◼ SGD 遇到一个样本后立即更新参数

◼ 对于大样本问题，BGD收敛较慢

◼ 但SGD有可能发生震荡，而无法收敛到极小值

◼ mini-batch梯度下降：如果不是每拿到一个样本即更改梯度，而是若干个样本的平均梯度作为更新方向，则是 mini-batch梯度下降算法

学习率很重要【局部最小vs全局最小】

学习率α过小，达到收敛所需的迭代次数高；

学习率α过大，每次迭代可能会越过极小值，导致无法收敛。

总结

线性回归的概率解释

极大似然估计

取对数

求解最大化对数似然函数

欠拟合与过拟合

如果关于同一个问题有许多种理论，每一种都能作出同样准确的预言，那么应该挑选其中使用假定最少的

正则化

L1范数L2范数

第三章逻辑回归（重点）

分类问题

Logistics regression

单位阶跃函数

硬分类：离散、类别标签

软分类：连续、概率值(P(Y|X))

Logistics regression

刚开始学的时候觉得PPT的逻辑不是很清晰，而且半中文半英文比较影响阅读，推荐先看这个逻辑回归(logistics regression)原理-让你彻底读懂逻辑回归-腾讯云开发者社区-腾讯云

单位阶跃函数 vs. Sigmoid function

Logistic(sigmoid)函数(分布)的性质

Odds(几率、几率比)

◼ 在统计和概率理论中，一个事件或者一个陈述的发生比是该事件发生和不发生的比率，又称几率、几率比，公式为：

似然函数

1. 似然与概率的区别

似然 (likehood) 与概率 (probability) 在英语语境中是可以互换的。但是在统计学中，二者有截然不同的用法。概率描述了已知参数时的随机变量的输出结果；似然则用来描述已知随机变量输出结果时，未知参数的可能取值。

区别似然和概率的直接方法为，“XXX的概率"中XXX只能是事件，也就是，事件(发生)的概率是多少；而“XXX的似然"中的XXX只能是参数，比如说，参数等于某个值时的似然是多少。

2. 似然与概率的联系

3.最大似然估计（大题？）

最大似然估计是似然函数最初也是最自然的应用。似然函数取得最大值表示相应的参数能够使得统计模型最为合理。从这样一个想法出发，最大似然估计的做法是：首先选取似然函数（一般是概率密度函数或概率质量函数），整理之后求最大值。实际应用中一般会取似然函数的对数作为求最大值的函数，这样求出的最大值和直接求最大值得到的结果是相同的。似然函数的最大值不一定唯一，也不一定存在。

最大化对数似然目标函数【交叉熵损失函数】这个公式的推导可以看下面这个（PPT上都是英文）逻辑回归和极大似然估计有什么关系呢_哔哩哔哩_bilibili

单样本梯度下降

牛顿法（大题）

本质：迭代逐步逼近

求解过程

贴下上面的对数似然函数（要记住哦）（h是sigmod）

模型评估方法和性能评价指标

过拟合和欠拟合

训练集，验证集，测试集

样本集的划分

性能评价指标

AUC和ROC

第四章神经网络

什么是神经网络?
人工神经网络是一个并行、分布处理结构，它由处理单元及其称为联接的无向讯号通道互连而成。

神经网络的特点
◼ 并行结构和并行处理
◼ 知识的分布存储
         在神经网络中，知识不是存储在特定的存储单元，而是
分布在整个系统中，要存储多个知识就需要很多连接。
         要获得存储的知识则采用“联想”的办法，这类似于人
类和动物的记忆。
         联想记忆的两个主要特点：
                ✓存储大量复杂数据的能力
                ✓自适应的特征抽取能力
                ✓快速的推理能力
◼ 容错性
◼ 自适应性

M-P模型

线性加权模型

阶跃阈值模型

感知机

损失函数

第五章径向基函数与自组织特征映射神经网络

完全径向基(RBF)神经网络主要解决插值问题

第六章支持向量机（重重点）

支持向量机(SVM)的概念与原理

基本模型是定义在特征空间上的间隔最大的线性分类器

支持向量机还包括核技巧，这使它成为实质上的非线性分类器。

支持向量机的学习策略就是间隔最大化，可形式化为一个求解凸二次规划(convex quadraticprogramming)的问题

SVM的类型

核函数(kernel function)表示将输入从输入空间映射到特征空间得到的特征向量之间的内积；

• 通过使用核函数可以学习非线性支持向量机，等价于隐式地在高维的特征空间中学习线性支持向量机，这样的方法称为核技巧；

传统的统计模式识别方法在进行机器学习时，强调经验风险最小化。而单纯的经验风险最小化会产生“过学习问题”，其推广能力较差。

推广能力: 模型(即预测函数,或称学习函数、学习模型)对未来输出进行正确预测的能力。
过学习问题：模型训练精度高，而测试精度低、推广能力差的现象。

SVM如何克服过拟合问题

线性可分支持向量机

目标

（关键公式↑）

支持向量机的优化算法（大题）

求解对偶问题

求解线性可分支持向量机的步骤

1. 利用拉格朗日乘子法，构造拉格朗日函数

这一步其实真的很难理解，不过看样子PPT并没有把他当做重点来讲，而是一笔带过，不过还是推荐看一下详细的原理解释【数之道25】机器学习必经之路-SVM支持向量机的数学精华_哔哩哔哩_bilibili

2. 利用强对偶性（KKT）将优化问题进行转化，并求解

SVM的分解算法

S'M'O's'm

SMO详解快速理解SMO算法_哔哩哔哩_bilibili

线性支持向量机—软间隔最大化

软间隔最大化

非线性支持向量机——核方法（大题）

可以先看一下这个SVM核方法--这是我见过最好的一个视频。。核技巧核函数_哔哩哔哩_bilibili

#先跳一下，实在是太难理解了

SVR回归

第七章聚类问题（重点）

聚类问题概述

聚类过程中需要解决哪些问题？

1. 定义数据间的距离/相似度度量；

2. 使用相应的算法对数据集进行分割；

3. 度量聚类结果的性能。

聚类算法的类型

◼ 划分聚类（K-means、K-medoids等）

◼ 层次聚类（凝聚法、分裂法）

◼ 密度聚类（DBScan、基于密度峰值算法）

◼ 网格法（STING、CLIQUE）

◼ 模型法（概率模型：高斯混合模型Gaussian MixtureModels ；神经网络模型:SOM；吸引子传播算法：AP聚类）

◼ 谱聚类

划分聚类

• K-means聚类，也称为K-平均或K-均值聚类

• K：是最终簇数量（即：K 往往代表类别的个数），它是超参数，需要预先设定

• means：在算法计算中会涉及到求均值

K-means 算法的流程

1. 随机选择 K 个簇中心点（可以选已有的数据作为中心点，也可直接选

高维空间中的位置）

2. 样本被分配到离其最近的中心点

3. K 个簇中心点根据所在簇样本，以求平均值的方式重新计算

4. 开始迭代，重复第2步和第3步直到所有样本的分配不再改变

K-means 的损失函数

K-means算法 K 的选择(肘部法（elbow method）)

• 目标：（找到最合适的点——拐点）

• 找到一个聚类数目，使得K高于该值之后的损失变换会发生显著递减；

• 这个 K 值，称为肘部点（elbow point），因为它看起来像一个人的肘部。

优点：

◼ 是解决聚类问题的一种经典算法，简单、快速

◼ 对处理大数据集，该算法保持可伸缩性和高效率

◼ 当结果簇是密集的，它的效果较好

• 缺点

◼ 只适合对数值型数据聚类

◼ 必须事先给出k（要生成的簇的数目），而且对初值敏感，对于不同的初始值，可能会导致不同结果。

◼ 不适合于发现非凸面形状的簇或者大小差别很大的簇

◼ 对噪声和孤立点数据敏感

改进算法

第八章降维（重点）

数据降维概述

• 维数灾难(Curse of Dimensionality)：通常是指在涉及到向量的计算的问题中，随着维数的增加，计算量呈指数倍增长的一种现象。

• 在很多机器学习问题中，每条数据经常具有很高的特征维度。如果直接使用原始的数据，不仅会让训练非常缓慢，还会影响模型的泛化性能。

什么是数据降维？

• 降维(Dimensionality Reduction)是将训练数据中的样本(实例)从高维空间转换到低维空间。该过程与信息论中有损压缩概念相似，完全无损的降维是不存在。

• 降维方法又分为线性降维和非线性降维，非线性降维又分为基于核函数和基于流形等方法。

为什么要降维？

• 数据降维可以使得数据集更易使用、确保变量之间彼此独立、降低算法计算运算成本、去除噪音。

• 数据降维常应用于文本处理、人脸识别、图片识别、自然语言处理等领域。

主成分分析(PCA)算法（大题）

算法思想

• PCA算法对于重构和降维的要求：

1. 重构的不同维度之间线性无关(正交、协方差为0)；

2. 降维后所得维度的值尽可能分散(最大方差)；

• 一个使用PCA算法的实例

1. 识别在数据集中最大方差量的轴(c1)；

2. 找到与第一个轴正交的第二个轴(c2)。

• 对于高维数据按照规则继续计算；

• 第𝒊 轴的单位向量称为第 𝒊 个主成分(PC) ；

• 例子中第一个PC为𝑐1，第二个PC 为𝑐2 。

算法推导

算法步骤

实例

（取第一行是因为对应的特征值最大）

• PCA算法优点

1. 仅仅需要以方差衡量信息量,不受数据集以外的因素影响

2. 各主成分之间正交,可消除原始数据成分间的相互影响的因素

3. 计算方法简单,主要运算时特征值分解,易于实现

4. 它是无监督学习,完全无参数限制的

• PCA算法缺点

1. 主成分各个特征维度的含义具有一定的模糊性,不如原始样本特征的解释性强

2. 方差小的非主成分也可能含有对样本差异的重要信息,因降维丢弃可能对后续数据处理有影响

https://edu.csdn.net/learn/39067/627173?utm_source=2019755004

汇聚全球AI编程工具，助力开发者即刻编程。

更多推荐

【小白也能行】DeepSeek TUI 项目全景报告

AI编程社区

Claude Code 完全使用指南：从入门到精通的终端AI编程助手

本文介绍了ClaudeCode是一款基于Claude4系列模型的终端原生AI编程工具，可直接在终端中实现代码生成、调试和自动化任务处理。其核心优势包括200k超长上下文支持、直接文件操作能力和Unix哲学集成。文章详细介绍了安装方法、核心功能（斜杠命令、快捷键、高效技巧）、CLAUDE.md配置的重要性以及进阶玩法（MCP服务器、PlanMode、并行工作流）。最新桌面版新增多会话管理、SSH远程

AI编程社区

我花5分钱，让AI撸了一个值几百块的登录页

这篇文章分享了作者使用AI工具OpenCode和DeepSeek快速开发登录页面的经历。原本需要半天时间完成的工作，通过AI仅用10分钟、花费5分钱就完成了，包括Vue3项目搭建、主题切换、响应式设计和第三方登录集成等功能。作者对比了ClaudeCode的高昂费用（200美元/月），认为DeepSeek+OpenCode的组合实现了"AI民主化"，让普通开发者也能低成本使用顶级

AI编程社区

所有评论(0)

查看更多评论

兜兜里有纸

@m0_74740382

已为社区贡献1条内容

吉林大学22级机器学习B期末复习

兜兜里有纸

简答题

证明题

重点公式

线性回归

逻辑回归

支持向量机

计算题

线性回归 梯度下降法

逻辑回归 最大似然函数 牛顿法

SVM求最大间隔分离超平面和分类决策函数

PCA

第一章 绪论

第二章 线性回归（重点）

线性回归

特征规范化

最小二乘目标函数（大题）

梯度下降法

线性回归的概率解释

欠拟合与过拟合

第三章 逻辑回归（重点）

分类问题

Logistics regression

牛顿法（大题）

模型评估方法和性能评价指标

第四章 神经网络

第五章 径向基函数与自组织特征映射神经网络

第六章 支持向量机（重重点）

支持向量机(SVM)的概念与原理

线性可分支持向量机

支持向量机的优化算法（大题）

线性支持向量机—软间隔最大化

非线性支持向量机——核方法（大题）

SVR回归

第七章 聚类问题（重点）

聚类问题概述

聚类算法的类型

划分聚类

第八章 降维（重点）

数据降维概述

主成分分析(PCA)算法（大题）

所有评论(0)

温馨提示：您尚未绑定手机号

兜兜里有纸

线性回归梯度下降法

逻辑回归最大似然函数牛顿法

第一章绪论

第二章线性回归（重点）

第三章逻辑回归（重点）

第四章神经网络

第五章径向基函数与自组织特征映射神经网络

第六章支持向量机（重重点）

第七章聚类问题（重点）

第八章降维（重点）