从神经网络到大模型

单层感知机(20 世纪 40 年代)

基本概念:单层感知机是一种最简单的人工神经网络,由美国心理学家弗兰克・罗森布拉特(Frank Rosenblatt)在 1957 年提出,但其概念雏形可追溯到 20 世纪 40 年代。它由一组输入节点和一个输出节点组成,输入节点通过权重与输出节点相连,可视为一个简单的线性分类器。
工作原理:输入信号经过加权求和后,通过一个激活函数产生输出。常见的激活函数为阶跃函数,当加权和大于某个阈值时,输出为 1;否则输出为 0。例如,在一个简单的二分类问题中,单层感知机通过调整权重,使得不同类别的数据能够被正确分类。
解决线性可分问题:单层感知机只能解决线性可分问题,即可以用一条直线(在二维空间)或一个超平面(在高维空间)将不同类别的数据点分开。对于线性可分的数据,通过一定的学习算法(如感知机学习算法),可以调整权重使得感知机收敛到一个能够正确分类的状态。然而,对于线性不可分的数据,单层感知机则无法完成分类任务。例如,经典的异或(XOR)问题就是线性不可分的,单层感知机无法解决。

BP 传播算法(20 世纪 80 年代)

算法定义:BP(Back Propagation)传播算法,即反向传播算法,由大卫・鲁梅哈特(David E. Rumelhart)、杰弗里・辛顿(Geoffrey E. Hinton)和罗纳德・威廉姆斯(Ronald J. Williams)在 1986 年提出。它是一种用于多层神经网络训练的高效算法,解决了多层神经网络的权重更新问题。
解决线性不可分问题的原理:BP 算法通过计算输出层的误差,然后将误差反向传播到网络的隐藏层和输入层,根据误差来调整各层之间的权重。这种方式使得多层神经网络能够学习到更复杂的非线性映射关系,从而解决线性不可分问题。例如,在处理异或问题时,多层神经网络结合 BP 算法,可以通过隐藏层学习到非线性特征,进而正确分类。
应用与意义:BP 算法的出现,使得多层神经网络得以有效训练,推动了神经网络在模式识别、语音识别、图像处理等众多领域的应用。它为深度学习的发展奠定了基础,使得神经网络能够处理更加复杂的任务,从简单的线性分类扩展到各种非线性问题的解决。

深度神经网络(2010 年左右)

深度神经网络概念:深度神经网络(DNN, Deep Neural Network)是具有多个隐藏层的神经网络。随着计算能力的提升和数据量的增加,大约在 2010 年左右,深度神经网络开始在学术界和工业界引起广泛关注,并取得了突破性进展。
海量图片分类应用:在图像分类任务中,深度神经网络展现出了强大的能力。以卷积神经网络(CNN, Convolutional Neural Network)为例,它是一种专门为处理图像数据设计的深度神经网络架构。CNN 通过卷积层、池化层和全连接层等组件,自动提取图像的特征。在大规模图像数据集(如 ImageNet)上进行训练后,能够对海量图片进行高精度的分类。例如,AlexNet 在 2012 年的 ImageNet 大规模视觉识别挑战赛(ILSVRC)中取得了优异成绩,显著降低了图像分类的错误率,开启了深度学习在计算机视觉领域的广泛应用。
技术突破与影响:深度神经网络在图像分类上的成功,得益于其能够自动学习到图像的层次化特征表示。同时,GPU(图形处理器)技术的发展为大规模神经网络的训练提供了强大的计算支持,使得训练深度神经网络变得更加高效。深度神经网络的成功不仅推动了计算机视觉领域的快速发展,也在其他领域如语音识别、自然语言处理等引发了深度学习的热潮,改变了人工智能的发展格局。

大模型 / 基础模型(2020 年左右)

定义与特点:大模型(Large Model)或基础模型(Foundation Model)是指具有海量参数,在大规模数据上进行预训练的模型,大约在 2020 年左右开始受到广泛关注。这些模型通常基于 Transformer 架构,具有强大的泛化能力和多任务处理能力。例如,GPT - 3 在 2020 年发布,拥有 1750 亿参数,在多种自然语言处理任务上表现出色。大模型的特点包括参数规模巨大、数据依赖性强、具备涌现能力等。
通用人工智能愿景:大模型被视为通向通用人工智能(AGI, Artificial General Intelligence)的重要一步。通用人工智能旨在使机器能够像人类一样具备广泛的智能能力,能够理解、学习和解决各种不同类型的问题。大模型通过在海量数据上进行预训练,学习到丰富的知识和语言模式,能够在多种下游任务上进行微调或直接应用,展现出一定的通用性。例如,一个预训练的语言大模型可以用于文本生成、问答系统、机器翻译等多种任务,而不需要为每个任务单独设计模型。
应用与挑战:大模型在自然语言处理、计算机视觉、语音处理等众多领域都有广泛应用,推动了智能客服、内容创作、图像生成、智能驾驶等应用的发展。然而,大模型也面临一些挑战,如训练成本高昂、计算资源需求巨大、存在隐私和安全问题、可能产生偏见性输出等。解决这些问题对于大模型的可持续发展和广泛应用至关重要。

CNN和RNN

卷积神经网络(CNN,Convolutional Neural Network)和循环神经网络(RNN,Recurrent Neural Network)是深度学习中两种重要的神经网络架构,它们在不同类型的数据处理任务中发挥着关键作用。

卷积神经网络(CNN)

架构特点

局部连接:CNN 的核心特点之一是局部连接。在传统的全连接神经网络中,每个神经元都与上一层的所有神经元相连,这会导致参数数量巨大,容易出现过拟合。而在 CNN 中,卷积层的神经元只与输入数据的一个局部区域相连,通过滑动卷积核在输入数据上进行卷积操作,提取局部特征。例如,在处理图像时,一个小的卷积核(如 3x3 或 5x5)可以捕捉图像中的局部边缘、纹理等特征。
权值共享:卷积核在滑动过程中,其权重是固定不变的,即权值共享。这大大减少了模型的参数数量,降低了计算量和过拟合的风险。例如,一个用于边缘检测的卷积核,无论在图像的哪个位置进行卷积操作,其权重都是相同的,从而提高了模型的泛化能力。
池化操作:CNN 中常使用池化操作,如最大池化或平均池化。池化层通过对局部区域的特征进行压缩,减少数据的维度,同时保留主要特征。例如,最大池化会选择局部区域中的最大值作为输出,平均池化则计算局部区域的平均值作为输出。池化操作不仅降低了计算量,还能增强模型对数据平移、旋转等变换的鲁棒性。

工作原理

卷积层:通过卷积核与输入数据进行卷积运算,将卷积核的权重与输入数据的局部区域相乘并求和,得到卷积结果。这个过程可以提取输入数据的各种特征,不同的卷积核可以捕捉不同类型的特征,如垂直边缘、水平边缘等。
激活层:在卷积层之后通常会添加激活层,如 ReLU(Rectified Linear Unit)激活函数。激活函数为模型引入非线性因素,使得模型能够学习到复杂的非线性关系,提高模型的表达能力。
池化层:对卷积层输出的数据进行池化操作,压缩数据维度。池化后的结果再传递到下一层,重复卷积、激活、池化的过程,直到最后通过全连接层将特征映射到具体的类别或数值。

应用领域

计算机视觉:在图像分类、目标检测、语义分割等任务中取得了巨大成功。例如,在图像分类任务中,CNN 可以学习到图像中不同物体的特征,从而准确判断图像中物体的类别;在目标检测中,不仅能识别图像中的物体,还能定位物体的位置。
语音处理:用于语音识别、语音合成等任务。CNN 可以提取语音信号中的特征,如频率特征、时域特征等,帮助模型理解和生成语音。
自然语言处理:在文本分类、情感分析等任务中也有应用。将文本看作是一维的序列数据,利用 CNN 的局部连接和权值共享特性提取文本中的局部特征,进行文本的分类和情感判断。

循环神经网络(RNN)

架构特点

序列依赖性:RNN 主要用于处理序列数据,如时间序列数据或自然语言文本。它的核心特点是能够捕捉序列中的时间依赖关系,通过在不同时间步之间传递隐藏状态,使得模型可以利用之前时间步的信息来处理当前时间步的数据。例如,在处理一段语音时,当前时刻的语音识别结果可能依赖于之前时刻的语音信息。
循环结构:RNN 具有循环结构,即神经元的输出可以反馈到自身作为下一个时间步的输入。这种结构使得 RNN 能够对序列中的每个元素进行处理,并保持对之前元素的记忆。然而,传统 RNN 在处理长序列时会遇到梯度消失或梯度爆炸的问题,限制了其对长距离依赖关系的捕捉能力。

工作原理

在每个时间步t,RNN 接收输入xt​和上一个时间步的隐藏状态ht−1​,通过一个非线性函数f计算当前时间步的隐藏状态ht​,即ht​=f(Wxh​xt​+Whh​ht−1​+b),其中Wxh​和Whh​是权重矩阵,b是偏置项。隐藏状态ht​可以看作是到当前时间步为止序列信息的一种总结。
根据任务需求,最终的输出yt​可以通过对隐藏状态ht​进行线性变换得到,例如yt​=Why​ht​+c,其中Why​是权重矩阵,c是偏置项。

改进与变体

长短期记忆网络(LSTM):为了解决传统 RNN 的梯度消失和梯度爆炸问题,LSTM 引入了门控机制。LSTM 包含输入门、遗忘门和输出门,通过这些门来控制信息的流入、流出和记忆,从而有效地捕捉长序列中的依赖关系。例如,遗忘门可以决定是否保留上一个时间步的记忆信息,输入门可以控制新信息的输入,输出门可以决定输出哪些信息。
门控循环单元(GRU):GRU 是 LSTM 的一种简化变体,它将输入门和遗忘门合并为更新门,并去掉了输出门。GRU 在保持与 LSTM 相似性能的同时,简化了结构,减少了计算量,提高了训练效率。

应用领域

自然语言处理:在机器翻译、文本生成、情感分析、命名实体识别等任务中广泛应用。例如,在机器翻译中,RNN 可以根据源语言句子的序列信息生成目标语言的翻译;在文本生成中,能够根据给定的上下文生成连贯的文本。
时间序列预测:如股票价格预测、天气预报等。RNN 可以学习时间序列数据中的趋势和模式,利用历史数据预测未来的值。
语音识别:通过捕捉语音信号中的时间序列信息,将语音转换为文本。RNN 能够处理语音信号中的动态变化,提高语音识别的准确率。

大模型大事件

Transformer

Transformer:2017 年,谷歌大脑团队在论文《Attention Is All You Need》中提出 Transformer 模型架构。它基于自注意力机制,使用 Self-Attention 结构取代了 NLP 任务中常用的 RNN 网络结构,可并行计算,能更好地学习序列数据中的上下文关系。Transformer 由编码组件和解码组件组成,广泛应用于自然语言处理、计算机视觉等领域,是当今众多大模型的基础架构。

谷歌 BERT

谷歌 BERT:2018 年谷歌 AI 推出 BERT(Bidirectional Encoder Representations from Transformers)。它基于 Transformer 架构,采用双向训练方式,能同时考虑句子中单词的前后语境,更有效地捕捉词义。BERT 通过在大规模文本语料上进行预训练,然后针对问答、情感分析等特定任务微调,在众多自然语言处理任务上取得了优异成绩,开创了预训练模型的先河,推动了 NLP 领域的发展。

GPT-3

GPT-3:2020 年 OpenAI 发布 GPT-3,它是基于 Transformer 的解码器架构的大型语言模型,拥有 1750 亿参数,具有强大的 “零样本” 和 “少样本” 学习能力。GPT-3 展示了大模型在语言生成等方面的强大能力,引发了广泛关注和应用,推动了大语言模型的发展浪潮,许多自然语言处理应用基于其 API 展开。

ChatGPT

ChatGPT:2022 年 11 月 30 日 OpenAI 推出 ChatGPT,它是 InstructGPT 的兄弟模型,在 GPT-3.5 系列模型基础上微调而成。ChatGPT 通过对话方式交互,能回答后续问题、承认错误等,采用人类反馈强化学习(RLHF)训练,可免费使用,一经推出便迅速走红,极大地提高了公众对人工智能的关注度和认知度,在文本生成、问答系统等众多领域有广泛应用。

为什么大模型爆火

技术突破:大模型具有超大规模参数,如 GPT-3 达 1750 亿,参数越多,模型的知识存储等能力就越强,还会出现涌现能力。其训练数据覆盖全域信息,让模型具备泛化能力,能快速适配新场景。此外,Transformer 架构以自注意力机制为核心,解决了长序列理解难题,自监督学习则降低了 AI 研发门槛,无需大量人工标注数据。

算力成熟:大模型训练需要强大的算力支持,近年来,英伟达 A100、H100 等高性能芯片量产,云计算、分布式训练等技术成熟,让大规模模型训练得以实现。同时,模型量化等技术突破,降低了推理成本,使大模型能从云端走向端侧,实现普惠应用。

商业价值高:在 To C 端,大模型满足了人们对 “智能助手” 的需求,如学生用其辅导作业,职场人用其写方案等,ChatGPT 等产品快速渗透大众生活。在 To B 端,大模型可应用于金融、制造等行业,提升效率、降低成本,如某银行引入 AI 客服系统后响应时间缩短,成本降低。

社会需求大:随着社会发展,各行业对智能化升级需求迫切,大模型的通用理解与生成能力、多模态融合能力等,能为医疗、教育、工业等众多领域提供解决方案,助力行业发展,满足社会整体发展需求。

政策支持:许多国家和地区将人工智能提升至国家战略层面,出台相关政策支持大模型研发与应用,为其发展创造了良好的政策环境,吸引了更多资源投入,推动大模型快速发展。

Logo

汇聚全球AI编程工具,助力开发者即刻编程。

更多推荐