人工智能“理解”话语了吗 ——《我们赖以生存的意义》读书笔记（下）

link之家

链接快照平台

输入网页链接，自动生成快照
标签化管理网页链接

六、小结模拟，还原真相

在上一节中我们知道，单词和语法结构是组成话语的积木，理解句子的意义需要具备辨认积木并加以组合的能力。那么，实际运用这些积木的流程是什么样的？

人类语言有一个特点，是线性呈现。无论是看还是听，都是一个字词一个字词、一个音节一个音节获知的，无法在同一时间接收到整个句子。那么具身模拟是从什么时候开始的？是等得到全部信息再理解意思，还是一边接收一边处理？

举一个经典的例子，来看看这句话：

Time fly like arrow, fruit fly like banana.

前半句很好理解，时光飞逝如箭。于是直到读到后半句的“like”，脑海里可能已经有了水果将以某种样子飞在空中的形象。结果读到“banana”才终于明白过来，这是在说果蝇喜欢香蕉啊！

事实上，我们一旦听到了那些限制句子接下来可能会出现的合理词汇时，就会对句子还有哪些后续内容进行预测，并开始以递进的方式粗略地搭建出自己对这个句子的理解。也就是说，一旦得到足以用于模拟的信息就会启动具身模拟。比起阅读时一个字一个字的处理，在听的时候反应更加细微，可能在听到字的前一个音节的时候就已经开始对后续预测。

然而，一边接收一边预测的结果不一定是正确的，正如在读到“fruit fly like banana”中途产生的误会，在这样的情况下还需要读后反刍，在信息接收完全后重新做一次模拟以修正理解。

前面提及的都是对于肯定句式的理解，那么对于否定句而言呢？

比如，“你的生日礼物不在冰箱上”，心理模拟也是随时间分为两个步骤：首先你看到一个冰箱顶上的礼物盒，然后理解到它在别处。先模拟肯定形式然后修正。

这样的“激活不符合事实的场景再修正”的理解过程只有在否定时会出现，对于反义词则没有这样的效果。例如这组句子：

这把刀是尖的（肯定）
这把刀是钝的（反义）
这把刀不是尖的（否定）

前两条句子的具身模拟都显而易见。神奇的是在理解否定句时，并不是激活符合句子描述的事实场景，而是源于不符合事实的场景被激活。对于第三条否定句，模拟的依然是“尖锐的刀”这样的想象。

除了否定句，对过去式部分的语气强调、以及夸张等修辞也有类似的“模拟不符的事实再修正”的过程。比如：“我姐姐曾是长跑明星”、“我饿得能吃下一只山羊”。

总而言之，我们理解的过程是分阶段的：

第一阶段，对已经听到或看到的句子片段构建递进式模拟。

第二阶段，读完之后对认为关键的部分再做一次模拟。

这种模拟方式也被称为“小结模拟”。

七、经历和认知偏好

到目前为止所说的都是我们普遍所做具身模拟中那些一致的信息，但实际情况远比这个来得丰富和复杂。每个人做的模拟不仅内容不尽相同、方式可能也不一样。

其中一个原因是，每个人的经历和文化习俗不同，即使是对寻常的事物也会有各不相同的体验。比如提到冰球，专业选手和非专业但喜欢看球的、没怎么听说过冰球这项运动的几种人群感知的具象都显然不尽相同。但凡对某种事物的了解更多，在说话时就越会用一些独特的表达方式，这可能会让不了解情况的其他人感到一头雾水，或者最起码无法与你产生相同的理解。每个人独特的经历会对我们的认知系统和语言理解方式产生影响。

另一个原因是，人各有所长，每个人的认知能力和认知风格不尽相同。有些人倾向于借助语言而非视觉模拟来进行认知，这种被称为“言语型读者”，与之相对的是“视觉型读者”。其中言语型又分外显言语型和隐蔽言语型，外显型偏好朗读出来，而隐蔽型倾向于默记。视觉型又分有物体视觉型和空间视觉型，分别对于物体的颜色形状、和处于哪个方位的认知更敏锐。

这是一个测验，尝试记住以下这串珠子：

你更倾向于言语型还是视觉型？

回想一下，你是如何应对这个记忆任务的？言语型读者会记住一连串描述颜色特征的词，像是“灰灰白黑白灰...”以备日后检索；而视觉型读者会把这个图片转化为视觉记忆，以便之后通过模拟把这个图片回想起来。

事实上，言语化和视觉化两种方式也是相互影响的，在感知事物时所做的具身模拟和用来表征的词语并不是相互独立的，这两个处理过程可能同时存在你的记忆中，只不过强度不同。

八、失落于翻译

All afternoon, I was waiting for my brother on the corner.

这句英文的意思似乎很好理解：我一整个下午都在墙角那里等我的兄弟。这时作为一个中文读者，我的想象是这个人在那儿站着等着。

但事实上，说这句话的人所在的国家可能并不会把站和坐列为默认的等待状态，他想表达的画面可能是，他蹲在地面上、蹲在道路旁，甚至蹲在长凳上，而不是坐在那上面。这样的认知误区同样适用于许多其他类型的表达。

这令人不仅思索，不同文化和语言之间是否存在完全对等的词语？如何确保这些词对两种语言的使用者具有相同的影响？

事实上，一种语言是一种“分割世界”的方式。不同文化的人们通过语言对客观事物进行分类，这导致了不同思维方式。比如，不同语言将事物在空间中进行定位的方式不同，有“自我中心”倾向于将方向描述为“你的左边、你的右边”这种，也有的语言使用“地球中心”会描述为东南西北、上坡下坡，这就要求你必须经常留意并记住方位，在说话时能不假思索飞快地检索出来，这和惯用自我中心框架的英语思考的关注点大不相同。再比如，对于色彩感知，英语中red（红色）、pink（粉红）完全是两种类别的颜色，不会把pink视为red的一种。在俄语里，goluboy（浅蓝）、siniy（深蓝）也是截然不同两种颜色，而在英文和中文里一般都只会说“蓝色”。因此俄罗斯人会比不区分“深蓝”和“浅蓝”语言的国家的人更擅长分辨蓝色色彩的深浅度。

语言相对论 认为，你使用的语言会影响你的思考方式。也就是说，以一种语言作为母语的人，也会以这种语言思考，语言会影响你的思考和关注的内容以及如何对世界的事物做分类。但语言是在何时以及是如何影响非语言思维的，仍未有定论。

之所以两种不同语言的人沟通很困难，是由于经历由文化背景主导，影响了着我们的思维方式。因为对事物理解的倾向不同，同样的话语在对方听来都会在各自的脑海中引发不同的具身模拟。语言说到底只是给不同的人群提供了一个非常狭窄的“缝隙”，使人得以通过这个缝隙交流想法。

学习外语的困难的原因就在这里，我们从小就信奉一种特定的剖析世界的方式，之后就很难意识到这只不过是许多种可信奉的方式之一。学会一门语言，就是要学会用一种特定的方式谈论这个世界，把世界分割成富有意义的片段，然后用特定的语言进行编码。

外语学习者在进入较高阶段后，会感到自己仿佛进入了一个平行宇宙。语言单词的不同并不是导致问题的主要因素，而是整个世界都变成了不同的模样。如果说世界是一片片词汇拼图拼起来的场景画面，换了一种语言不只是每一块拼图有了不同的名字，而是整个场景变成了由另外一套拼图构成的，这些新的拼图又和最熟悉的母语版本的拼图存在着许多边界上的相切与重叠。

“我们所说的，决定了我们是谁。”

这让我想起电影《Arrival》里的圆圈状外星语言。与线性呈现的人类语言不同，它的表达方式是一句话从头到尾同时出现。在女主破解掌握了外星语言后，开始发现自己在用这门语言思考时，竟然能够同时看到过去和未来的画面……

九、如何理解抽象概念

前面所提及的具象模拟，都只涉及到描述具体的、真实存在的事物的那些话语。但类似于“真相、爱、价值、社会……”这样抽象的表达，我们是如何理解的呢？

比如这些关于“社会”的句子：

日本长久以来一直是一个封闭社会，尽管它庞大的对外经济一直在扩张。
退伍老兵在努力回归社会。

这里的“社会”给人感觉像某种容器。

农民是社会的脊梁。
经济萧条，社会瘫痪。
一个健全的社会需要在信仰与理性之间维持对话。

在这几句里的“社会”又仿佛像是一种有机体。

事实上，这都是隐喻性的概念，因为社会实际上既不是容器也不是有机体。又比如："Search for happiness"、"I'm filled with joy"，这里的"happiness"好像是一种能被寻找的物品，而"joy"更像是能被容纳的液体。

隐喻模拟假说 认为，我们会借用实物去描述、理解抽象概念。这揭示了我们在理解抽象概念是如何使用具身模拟的，也就是通过使用隐喻，借用实物来对抽象概念进行描述和理解。这一过程也要用到负责感知与运动的系统，只是模拟的细致程度低于为描述具体事物的语言构建的具身模拟。

用具体事物表述抽象概念非常常见，来看下面的例子：

春节还远着呢、两个小时太短了
温暖的微笑、冰冷的凝视
道德污点、纯洁无瑕

我们会从空间角度谈论时间（于是距离的长短会影响我们对时长的认知），会用冷热谈论情感（认为宽容快乐是温暖的、孤独排斥是冰冷的），也会用洁净度谈论道德。

隐喻性的习惯用语无处不在，而越常见的隐喻越不容易进入具身模拟，比如：

走漏风声、忍气吞声、价格跌了

这事儿可就大了、比我们之前想的要深很多
我们在阅读的时候，很可能并不会模拟出风声、吞咽动作以及大和深的具象，因为这些话语既定俗称又习以为常。

然而，我们是如何确保能够理解隐喻性语言而不是被所描述的模拟迷惑？虽然能够猜想我们对抽象概念的认知不会和对具体概念的一样，但对抽象概念的认知过程究竟为何依然悬而未决。

十、具身模拟的功能总结

**• 识别单词 **“有只疯猴子在我给它喂食的时候咬了我的sh...”在对方还没说完时就能凭借具身模拟猜到下一个词应该是“手”。

• 识别语义 "The boxer slipped on his way into the ring." 和 "The boxer put on his coat and slipped on his ring." 两句中的ring含义截然不同，能通过具身模拟区别出前者说的是拳击场，后者说的是戒指。

• 表征意义 具身模拟能激活关于语言所描述的内容的内在心理表征。

• 创造理解 具身模拟能根据主观经历模拟体验，从而理解有可能并不存在的语言描述，比如“一头会飞的猪”。

• 进行推理 当小孩放学回来鼻青脸肿地说“你该看看另一个家伙”，通过具身模拟能推断出大概是打架了。

• 准备行动 在帮朋友搬家具时他说“这东西得放到楼上的卧室”，能用具身模拟想象到自己一个人可能搞不定或者需要再找个人帮忙。

语言是如此神奇又具有力量的一件事物，它和思维息息相关。回到在读书笔记（上）的开篇中提及的，凭借现有的认知，我认为目前的人工智能还远不能称作“理解了语言”。在如今认知科学和脑科学都还有太多问题悬而未决时，想创造一个能真实理解语言的具有思维的机器并不太现实。

也许正如李航老师在序言中提到的，AI和NLP的终极目标不应该是模仿人类，而应该是为人类提供有用的工具。从这个意义上来说，我们没有必要完全复制人类的语言理解过程，实际上，参考人类的处理过程，实现接近人类的语言处理能力应该就足以。