2.机器学习——Regression

回归定义Regression 就是找到一个函数 function ，通过输入特征 x，输出一个数值 Scalar。模型步骤step1：模型假设，选择模型框架（线性模型）step2：模型评估，如何判断众多模型的好坏（损失函数）step3：模型优化，如何筛选最优的模型（梯度下降）Step 1：模型假设 - 线性模型一元线性模型（单个特征）以一个特征 xcpx_{cp}xcp 为例，线性模型假设 y=

pxlsdz

543人浏览 · 2020-10-25 23:38:55

pxlsdz · 2020-10-25 23:38:55 发布

回归定义

Regression 就是找到一个函数 function ，通过输入特征 x，输出一个数值 Scalar。

模型步骤

step1：模型假设，选择模型框架（线性模型）
step2：模型评估，如何判断众多模型的好坏（损失函数）
step3：模型优化，如何筛选最优的模型（梯度下降）

Step 1：模型假设 - 线性模型

一元线性模型（单个特征）
以一个特征 $x_{cp}$ 为例，线性模型假设 $y = b + w·x_{cp}$ 。
多元线性模型（多个特征）
在实际应用中，输入特征肯定不止 $x_{cp}$ 这一个。例如，进化前的CP值、物种（Bulbasaur）、血量（HP）、重量（Weight）、高度（Height）等，特征会有很多。

所以我们假设线性模型 Linear model： $\sum w_ix_i$

$x_i$ ：就是各种特征(fetrure) $x_{cp},x_{hp},x_w,x_h,···$
$w_i$ ：各个特征的权重 $w_{cp},w_{hp},w_w,w_h,··$
$b$ ：偏移量

Step 2：模型评估 - 损失函数

【单个特征】: $x_{cp}$

收集和查看训练数据
这里定义 $x^1$ 是进化前的CP值， $y^1\hat{y}^1$ 进化后的CP值， $^\hat{}$ 所代表的是真实值
如何判断众多模型的好坏
从数学的角度来讲，我们使用距离。求【进化后的CP值】与【模型预测的CP值】差，来判定模型的好坏。也就是使用损失函数（Loss function）来衡量模型的好坏，统计10组原始数据
最终定义损失函数 Loss function： $L(w,b)=(y^n−f(xcpn))2L(w,b)=\left ( \hat{y}^n - f(x_{cp}^n) \right )^2$ $=∑n=110(y^n−(b+w⋅xcp))2=\sum_{n=1}^{10}\left ( \hat{y}^n - (b + w·x_{cp}) \right )^2$

Step 3：最佳模型 - 梯度下降

【单个特征】: $x_{cp}$

如何筛选最优的模型（参数w，b）
已知损失函数是 $L(w,b)=∑n=110(y^n−(b+w⋅xcp))2L(w,b)= \sum_{n=1}^{10}\left ( \hat{y}^n - (b + w·x_{cp}) \right )^2$ ，需要找到一个令结果最小的 $f^*$ ，在实际的场景中，我们遇到的参数肯定不止 $w$ , $b$ 。

先从最简单的只有一个参数 $w$ 入手，定义 $min⁡⁡xL(w)w^* = arg\ \underset{x}{\operatorname{\min}} L(w)$
在这里插入图片描述

首先在这里引入一个概念学习率：移动的步长，如上图中 $η\eta$

步骤1：随机选取一个 $w^0$
步骤2：计算微分，也就是当前的斜率，根据斜率来判定移动的方向
大于0向右移动（增加 $w$ ）
小于0向左移动（减少 $w$ ）
步骤3：根据学习率移动重复步骤2和步骤3，直到找到最低点

步骤1中，我们随机选取一个 $w^0$ ，如图8所示，我们有可能会找到当前的最小值，并不是全局的最小值，这里我们保留这个疑问，后面解决。

解释完单个模型参数 $w$ ，引入2个模型参数 $w$ 和 $b$ ，其实过程是类似的，需要做的是偏微分，过程如图所示。
在这里插入图片描述
梯度下降的问题

问题1：当前最优（Stuck at local minima）
问题2：等于0（Stuck at saddle point）
问题3：趋近于0（Very slow at the plateau）

1元N次线性模型

在这里插入图片描述
是不是能画出直线就是线性模型，各种复杂的曲线就是非线性模型？其实还是线性模型，因为把 $x_{cp}^1$ = $x_{cp})^2$ 看作一个特征，那么 $y = b + w_1·x_{cp} + w_2·x_{cp}^1$ 其实就是线性模型。

高次方容易引起过拟合问题。
越复杂的model包含越多的function，所以在Tarining Data越来越低，但是在test data
不一定好，因为：。

步骤优化

分多种类进行判断
单我们可以合成一个线性模型。
在这里插入图片描述
Step2优化：如果希望模型更强大表现更好（更多参数，更多input）
更多特征，更多input，数据量没有明显增加，仍旧导致overfitting。

Step3优化：加入正则化

更多特征，但是权重 $w$ 可能会使某些特征权值过高，仍旧导致overfitting，所以加入正则化
在这里插入图片描述
理论上，越平滑的函数会在test会受的影响越小。

$w$ 越小，表示 $f u n c t i o n$ 较平滑的， $f u n c t i o n$ 输出值与输入值相差不大
在很多应用场景中，并不是 $w$ 越小模型越平滑越好，但是经验值告诉我们 $w$ 越小大部分情况下都是好的。
$b$ 的值接近于0 ，对曲线平滑是没有影响

AI编程社区

汇聚全球AI编程工具，助力开发者即刻编程。

更多推荐

2025了，学习深度学习框架哪个比较好？

本节内容回顾了AI框架在时间维度和技术维度的发展趋势技术上初代AI框架解决AI编程问题，第二代加速科研和产业落地，第三代结合特定领域语言和任务一起学习了AI框架随着的软硬件的发展升级而共同发展，展望AI框架的未来。

AI编程社区

AI编程未来趋势：边缘计算+AI如何改变架构设计？架构师的实战经验

当AI从“云端的实验室”走进“车间的角落”“商场的摄像头”“车舱的屏幕”，当“实时决策”“隐私保护”“带宽优化”成为AI应用的核心需求，边缘AI已经成为AI编程的下一个主战场。作为架构师，你不需要成为“硬件专家”或“算法专家”，但你需要成为“连接者”——连接硬件与算法，连接边缘与云，连接技术与业务。“真正的架构师，不是设计‘完美的系统’，而是设计‘符合需求的系统’——边缘AI的价值，就在于让AI‘

AI编程社区

AI编程革命：谁还在手动敲代码？

什么是AI辅助编程：解释概念（利用机器学习模型辅助代码生成、调试、优化等），区分于传统IDE工具。示例：AI可自动生成函数，如排序算法（时间复杂度为$O(n \log n)$的快速排序）。主流工具概述GitHub Copilot：基于OpenAI Codex，实现实时代码建议。ChatGPT：用于代码解释和bug修复。其他工具：如Tabnine、Amazon CodeWhisperer。技术基础简