添加链接
link之家
链接快照平台
  • 输入网页链接,自动生成快照
  • 标签化管理网页链接
相关文章推荐
卖萌的葡萄酒  ·  android - ...·  1 年前    · 
豪气的荒野  ·  How can I fix a ...·  1 年前    · 
+关注继续查看
这篇文章从感知机开始,按照时间顺序回顾了深度学习的历史。


image


1958 年:感知机的兴起

1958 年,弗兰克 · 罗森布拉特发明了感知机,这是一种非常简单的机器模型,后来成为当今智能机器的核心和起源。

感知机是一个非常简单的二元分类器,可以确定给定的输入图像是否属于给定的类。为了实现这一点,它使用了单位阶跃激活函数。使用单位阶跃激活函数,如果输入大于 0,则输出为 1,否则为 0。

下图是感知机的算法。

image

感知机


Frank 的意图不是将感知机构建为算法,而是构建成一种机器。感知机是在名为 Mark I 感知机的硬件中实现的。Mark I 感知机是一台纯电动机器。它有 400 个光电管(或光电探测器),其权重被编码到电位器中,权重更新(发生在反向传播中)由电动机执行。下图是 Mark I 感知机。

image

Mark I 感知机。图片来自美国国家历史博物馆


就像你今天在新闻中看到的关于神经网络的内容一样,感知机也是当时的头条新闻。《纽约时报》报道说,“[海军] 期望电子计算机的初步模型能够行走、说话、观察、书写、自我复制并意识到它的存在”。今天,我们都知道机器仍然难以行走、说话、观察、书写、复制自己,而意识则是另一回事。

Mark I 感知机的目标仅仅是识别图像,而当时它只能识别两个类别。人们花了一些时间才知道添加更多层(感知机是单层神经网络)可以使网络具有学习复杂功能的能力。这进一步产生了多层感知机 (MLP)。

1982~1986 : 循环神经网络 (RNN)

在多层感知机显示出解决图像识别问题的潜力之后,人们开始思考如何对文本等序列数据进行建模。

循环神经网络是一类旨在处理序列的神经网络。与多层感知机 (MLP) 等前馈网络不同,RNN 有一个内部反馈回路,负责记住每个时间步的信息状态。

image

前馈网络与循环神经网络


第一种 RNN 单元在 1982 年到 1986 年之间被发现,但它并没有引起人们的注意,因为简单的 RNN 单元在用于长序列时会受到很大影响,主要是由于记忆力短和梯度不稳定的问题。

1998:LeNet-5:第一个卷积神经网络架构

LeNet-5 是最早的卷积网络架构之一,于 1998 年用于文档识别。LeNet-5 由 3 个部分组成:2 个卷积层、2 个子采样或池化层和 3 个全连接层。卷积层中没有激活函数。

正如论文所说,LeNet-5 已进行商业化部署,每天读取数百万张支票。下面是 LeNet-5 的架构。该图像取自其原始论文。

image


LeNet-5 在当时确实是一个有影响力的东西,但它(常规的卷积网络)直到 20 年后才受到关注! LeNet-5 建立在早期工作的基础上,例如福岛邦彦提出的第一个卷积神经网络、反向传播(Hinton 等人,1986 年)和应用于手写邮政编码识别的反向传播(LeCun 等人,1989 年)。


1998:长短期记忆(LSTM)

由于梯度不稳定的问题,简单 RNN 单元无法处理长序列问题。LSTM 是可用于处理长序列的 RNN 版本。LSTM 基本上是 RNN 单元的极端情况。

LSTM 单元的一个特殊设计差异是它有一个门机制,这是它可以控制多个时间步长的信息流的基础。

简而言之,LSTM 使用门来控制从当前时间步到下一个时间步的信息流,有以下 4 种方式:

输入门识别输入序列。

遗忘门去掉输入序列中包含的所有不相关信息,并将相关信息存储在长期记忆中。

LTSM 单元更新更新单元的状态值。

输出门控制必须发送到下一个时间步的信息。


image

LSTM 架构。图片取自 MIT 的课程《6.S191 Introduction to Deep Learning》


LSTM 处理长序列的能力使其成为适合各种序列任务的神经网络架构,例如文本分类、情感分析、语音识别、图像标题生成和机器翻译。


LSTM 是一种强大的架构,但它的计算成本很高。2014 年推出的 GRU(Gated Recurrent Unit)可以解决这个问题。与 LSTM 相比,它的参数更少,而且效果也很好。


深度学习进阶篇-预训练模型[3]:XLNet、BERT、GPT,ELMO的区别优缺点,模型框架、一些Trick、Transformer Encoder等原理详解
深度学习进阶篇-预训练模型[3]:XLNet、BERT、GPT,ELMO的区别优缺点,模型框架、一些Trick、Transformer Encoder等原理详解
深度学习进阶篇-预训练模型1:预训练分词Subword、ELMo、Transformer模型原理;结构;技巧以及应用详解
深度学习进阶篇-预训练模型1:预训练分词Subword、ELMo、Transformer模型原理;结构;技巧以及应用详解
一个基于Transformer的深度学习架构,在基因调控中组蛋白代码的定量破译方面性能超群
一个基于Transformer的深度学习架构,在基因调控中组蛋白代码的定量破译方面性能超群
NLP:LSTM之父眼中的深度学习十年简史《The 2010s: Our Decade of Deep Learning / Outlook on the 2020s》的参考文献
NLP:LSTM之父眼中的深度学习十年简史《The 2010s: Our Decade of Deep Learning / Outlook on the 2020s》的参考文献
Paper:LSTM之父眼中的深度学习十年简史《The 2010s: Our Decade of Deep Learning / Outlook on the 2020s》的解读
Paper:LSTM之父眼中的深度学习十年简史《The 2010s: Our Decade of Deep Learning / Outlook on the 2020s》的解读