从感知机到Transformer，一文概述深度学习简史（1）-阿里云开发者社区

这篇文章从感知机开始，按照时间顺序回顾了深度学习的历史。

1958 年：感知机的兴起

1958 年，弗兰克 · 罗森布拉特发明了感知机，这是一种非常简单的机器模型，后来成为当今智能机器的核心和起源。

感知机是一个非常简单的二元分类器，可以确定给定的输入图像是否属于给定的类。为了实现这一点，它使用了单位阶跃激活函数。使用单位阶跃激活函数，如果输入大于 0，则输出为 1，否则为 0。

下图是感知机的算法。

感知机

Frank 的意图不是将感知机构建为算法，而是构建成一种机器。感知机是在名为 Mark I 感知机的硬件中实现的。Mark I 感知机是一台纯电动机器。它有 400 个光电管（或光电探测器），其权重被编码到电位器中，权重更新（发生在反向传播中）由电动机执行。下图是 Mark I 感知机。

Mark I 感知机。图片来自美国国家历史博物馆

就像你今天在新闻中看到的关于神经网络的内容一样，感知机也是当时的头条新闻。《纽约时报》报道说，“[海军] 期望电子计算机的初步模型能够行走、说话、观察、书写、自我复制并意识到它的存在”。今天，我们都知道机器仍然难以行走、说话、观察、书写、复制自己，而意识则是另一回事。

Mark I 感知机的目标仅仅是识别图像，而当时它只能识别两个类别。人们花了一些时间才知道添加更多层（感知机是单层神经网络）可以使网络具有学习复杂功能的能力。这进一步产生了多层感知机 (MLP)。

1982~1986 : 循环神经网络 (RNN)

在多层感知机显示出解决图像识别问题的潜力之后，人们开始思考如何对文本等序列数据进行建模。

循环神经网络是一类旨在处理序列的神经网络。与多层感知机 (MLP) 等前馈网络不同，RNN 有一个内部反馈回路，负责记住每个时间步的信息状态。

前馈网络与循环神经网络

第一种 RNN 单元在 1982 年到 1986 年之间被发现，但它并没有引起人们的注意，因为简单的 RNN 单元在用于长序列时会受到很大影响，主要是由于记忆力短和梯度不稳定的问题。

1998：LeNet-5：第一个卷积神经网络架构

LeNet-5 是最早的卷积网络架构之一，于 1998 年用于文档识别。LeNet-5 由 3 个部分组成：2 个卷积层、2 个子采样或池化层和 3 个全连接层。卷积层中没有激活函数。

正如论文所说，LeNet-5 已进行商业化部署，每天读取数百万张支票。下面是 LeNet-5 的架构。该图像取自其原始论文。

LeNet-5 在当时确实是一个有影响力的东西，但它（常规的卷积网络）直到 20 年后才受到关注！ LeNet-5 建立在早期工作的基础上，例如福岛邦彦提出的第一个卷积神经网络、反向传播（Hinton 等人，1986 年）和应用于手写邮政编码识别的反向传播（LeCun 等人，1989 年）。

1998：长短期记忆（LSTM）

由于梯度不稳定的问题，简单 RNN 单元无法处理长序列问题。LSTM 是可用于处理长序列的 RNN 版本。LSTM 基本上是 RNN 单元的极端情况。

LSTM 单元的一个特殊设计差异是它有一个门机制，这是它可以控制多个时间步长的信息流的基础。

简而言之，LSTM 使用门来控制从当前时间步到下一个时间步的信息流，有以下 4 种方式：

输入门识别输入序列。

遗忘门去掉输入序列中包含的所有不相关信息，并将相关信息存储在长期记忆中。

LTSM 单元更新更新单元的状态值。

输出门控制必须发送到下一个时间步的信息。

LSTM 架构。图片取自 MIT 的课程《6.S191 Introduction to Deep Learning》

LSTM 处理长序列的能力使其成为适合各种序列任务的神经网络架构，例如文本分类、情感分析、语音识别、图像标题生成和机器翻译。

LSTM 是一种强大的架构，但它的计算成本很高。2014 年推出的 GRU（Gated Recurrent Unit）可以解决这个问题。与 LSTM 相比，它的参数更少，而且效果也很好。