机器学习：Softmax函数简介

Softmax函数简介

courniche

1075人浏览 · 2025-01-15 07:46:29

courniche · 2025-01-15 07:46:29 发布

Softmax函数是机器学习和深度学习中常用的一种激活函数，尤其在多分类任务中用于将模型输出转换为概率分布。

Softmax函数的定义

假设一个神经网络的输出层有 $n$ 个神经元，它们的输出（未归一化的得分）是 $z_{1},z_{2},\cdots ,z_{n}$ 。Softmax函数将这些输出转换为概率分布，满足以下条件：

所有输出值都在 $\left [ 0,1 \right]$ 范围内。
所有输出值的总和为 1。

Softmax函数的公式为： $\sigma (z_{i})=\frac{e^{z_{i}}}{\sum_{j=1}^{n}e^{z_{j}}}$

其中：

$z_{i}$ 是第 $i$ 个输出的原始得分。
$\sigma (z_{i})$ 是经过Softmax处理后的第 $i$ 个类别的概率。
$\sum_{j=1}^{n}e^{z_{i}}$ 是归一化因子，确保概率总和为 1。

Softmax的性质

非负性：每个输出值都是非负数，即 $\sigma (z_{i})\geq 0$ 。
归一化：所有输出值的总和为 1，即 $\sum_{i=1}^{n}\sigma (z_{i})=1$ 。
指数放大：对输入值较大的类别，Softmax会放大其概率；对较小的值，概率被压缩。这种性质使得Softmax函数对类别之间的相对差异更加敏感。

Softmax的应用场景

分类问题：
- 在多分类问题中，Softmax将模型输出的未归一化得分转换为每个类别的概率。
- 通常与交叉熵损失函数结合使用，以衡量预测分布与真实分布之间的差异。
注意力机制：
- 在自然语言处理任务中，Softmax函数常用于计算注意力权重，决定模型应该关注哪些部分的输入。
语言模型：
- Softmax用来预测词汇表中每个单词的概率。

Softmax的优缺点

优点：

将模型输出转换为概率分布，便于解释和分析。
能够放大类别之间的差异，提高预测的明确性。

缺点：

对数值范围敏感：当输入的值较大时，容易发生数值溢出问题（可以通过减去最大值来缓解）。
对类别间关联的处理能力有限：所有类别的概率是联动的，当一个类别的概率增加时，其他类别的概率必须减少。

Softmax与Sigmoid的对比

特性	Softmax	Sigmoid
用途	多分类问题	二分类问题或多标签问题
输出范围	每个类别概率之和为1	每个输出值独立，范围为[0, 1]
结果解释	概率分布，适合单标签分类	适合独立事件的概率计算

Softmax函数的核心思想是将未归一化的输出值映射到概率分布，是多分类任务中的重要工具。通过其指数放大的特性，Softmax在机器学习模型中广泛应用。

https://edu.csdn.net/learn/39067/627173?utm_source=2019755004

汇聚全球AI编程工具，助力开发者即刻编程。

更多推荐

cover

从 Copilot 到工程化 Agent 执行框架：基于OpenCode + OpenSpec 的企业级 AI Coding 落地实践

cover

从零到一：我用百度Comate全自动开发了“情绪引擎”，一行代码都没写

cover

【资讯热点】2026 AI 编程新范式：从 Copilot 到 Agentic Coding 的效率革命

所有评论(0)

查看更多评论

courniche

已为社区贡献1条内容