来源 |
机器之心
本文提出了统一解释 14 种输入单元重要性归因算法的内在机理,并提出评价归因算法可靠性的三大准则。
尽管 DNN 在各种实际应用中取得了广泛的成功,但其过程通常被视为黑盒子,因为我们很难解释 DNN 如何做出决定。缺乏可解释性损害了 DNN 的可靠性,从而阻碍了它们在高风险任务中的广泛应用,例如自动驾驶和 AI 医疗。因此,可解释 DNN 引起了越来越多的关注。
作为解释 DNN 的典型视角,归因方法旨在计算每个输入变量对网络输出的归因 / 重要性 / 贡献分数。例如,给定一个用于图像分类的预训练 DNN 和一个输入图像,每个输入变量的属性得分是指每个像素对分类置信度得分的数值影响。
尽管近年来研究者提出了许多归因方法,但其中大多数都建立在不同的启发式方法之上。目前还缺乏统一的理论视角来检验这些归因方法的正确性,或者至少在数学上阐明其核心机制。
研究人员曾试图统一不同的归因方法,但这些研究只涵盖了几种方法。
本文中,我们提出了「统一解释 14 种输入单元重要性归因算法的内在机理」。
论文链接:
https://arxiv.org/pdf/2303.01506.pdf
其实无论是「12 种提升对抗迁移性的算法」,还是「14 种输入单元重要性归因算法」,都是工程性算法的重灾区。在这两大领域内,大部分算法都是经验性的,人们根据实验经验或直觉认识,设计出一些似是而非的工程性算法。大部分研究没有对 “究竟什么是输入单元重要性” 做出严谨定义和理论论证,少数研究有一定的论证,但往往也很不完善。当然,“缺少严谨的定义和论证” 的问题充满了整个人工智能领域,只是在这两个方向上格外突出。
第一,在众多经验性归因算法充斥可解释机器学习领域的环境下,我们希望证明 “所有 14 种归因算法(解释神经网络输入单元重要性的算法)的内在机理,都可以表示为对神经网络所建模的交互效用的一种分配,不同归因算法对应不同的交互效用分配比例”。
这样,虽然不同算法有着完全不同的设计着眼点(比如有些算法有提纲挈领的目标函数,有些算法则是纯粹的 pipeline),但是我们发现在数学上,这些算法都可以被我们纳入到 “对交互效用的分配” 的叙事逻辑中来。
基于上面的交互效用分配框架,我们可以进一步为神经网络输入单元重要性归因算法提出三条评估准则,来衡量归因算法所预测的输入单元重要性值是否合理。
当然,我们的理论分析不只适用于 14 种归因算法,理论上可以统一更多的类似研究。因为人力有限,这篇论文里我们仅仅讨论 14 种算法。
研究的真正难点在于,不同的经验性归因算法往往都是搭建在不同的直觉之上的,每篇论文都仅仅努力从各自的角度「自圆其说」,分别基于不同的直觉或角度来设计归因算法,而缺少一套规范的数学语言来统一描述各种算法的本质。
在讲数学以前,本文先从直觉层面简单回顾之前的算法。
1. 基于梯度的归因算法。
这一类算法普遍认为,神经网络的输出对每个输入单元的梯度可以反映输入单元的重要性。例如,Gradient*Input 算法将输入单元的重要性建模为梯度与输入单元值的逐元素乘积。
考虑到梯度仅能反映输入单元的局部重要性,Smooth Gradients 和 Integrated Gradients 算法将重要性建模为平均梯度与输入单元值的逐元素乘积,其中这两种方法中的平均梯度分别指输入样本邻域内梯度的平均值或输入样本到基准点(baseline point)间线性插值点的梯度平均值。
类似地,Grad-CAM 算法采用网络输出对每个 channel 中所有特征梯度的平均值,来计算重要性分数。进一步,Expected Gradients 算法认为,选择单个基准点往往会导致有偏的归因结果,从而提出将重要性建模为不同基准点下 Integrated Gradients 归因结果的期望。
2. 基于逐层反向传播的归因算法。
深度神经网络往往极为复杂,而每一层神经网络的结构相对简单(比如深层特征通常是浅层特征的线性加和 + 非线性激活函数),便于分析浅层特征对深层特征的重要性。
因此,这类算法通过估计中层特征的重要性,并将这些重要性逐层传播直至输入层,得到输入单元的重要性。这一类算法包括 LRP-\epsilon, LRP-\alpha\beta, Deep Taylor, DeepLIFT Rescale, DeepLIFT RevealCancel, DeepShap 等。不同反向传播算法间的根本区别在于,他们采用了不同的重要性逐层传播规则。
3. 基于遮挡的归因算法。
这类算法根据遮挡某一输入单元对模型输出的影响,来推断该输入单元的重要性。例如,Occlusion-1(Occlusion-patch)算法将第 i 个像素(像素块)的重要性建模为其它像素未被遮挡时,像素 i 未遮挡和遮挡两种情况下的输出改变量。Shapley value 算法则综合考虑了其它像素的所有可能遮挡情况,并将重要性建模为不同遮挡情况下像素 i 对应输出改变量的平均值。
研究已证明,Shapley value 是唯一满足 linearity, dummy, symmetry, efficiency 公理的归因算法。
统一14种经验性归因算法的内在机理
在深入研究多种经验性归因算法后,我们不禁思考一个问题:在数学层面上,神经网络的归因究竟在解决什么问题?在众多经验性归因算法的背后,是否蕴含着某种统一的数学建模与范式?
为此,我们尝试从归因的定义出发,着眼考虑上述问题。归因,是指每一个输入单元对神经网络输出的重要性分数 / 贡献。那么,解决上述问题的关键在于:1)在数学层面上建模「输入单元对网络输出的影响机制」;2)解释众多经验性归因算法是如何利用该影响机制,来设计重要性归因公式。
针对第一个关键点,我们研究发现:每一个输入单元往往通过两种方式影响神经网络的输出。一方面,某一个输入单元无需依赖其他输入单元,可独立作用并影响网络输出,这类影响称为 “独立效应”。另一方面,一个输入单元需要通过与其他输入单元共同协作,形成某种模式,进而对网络输出产生影响,这类影响称为 “交互效应”。我们理论证明了,神经网络的输出可以严谨解构为不同输入变量的独立效应,以及不同集合内输入变量间的交互效应。
其中,
表示第 i 个输入单元的独立效应,
表示集合 S 内多个输入单元间的交互效应。
针对第二个关键点,我们探究发现,所有 14 种现有经验性归因算法的内在机理,都可以表示对上述独立效用和交互效用的一种分配,而不同归因算法按不同的比例来分配神经网络输入单元的独立效用和交互效用。具体地,令
表示第 i 个输入单元的归因分数。我们严格证明了,所有 14 种经验性归因算法得到的
,都可以统一表示为下列数学范式(即独立效用和交互效用的加权和):
其中,
反映了将第 j 个输入单元的独立效应分配给第 i 个输入单元的比例,
表示将集合 S 内多个输入单元间的交互效应分配给第 i 个输入单元的比例。众多归因算法的 “根本区别” 在于,不同归因算法对应着不同的分配比例
。
表 1 展示了十四种不同的归因算法分别是如何对独立效应与交互效应进行分配。
▲ 图表1. 十四种归因算法均可以写成独立效应与交互效应加权和的数学范式。其中 和 分别表示泰勒独立效应和泰勒交互效应,满足 及 J(S) ,是对独立效应 和 交互效 的细化。
评价归因算法可靠性的三大准则
在归因解释研究中,由于无从获得 / 标注神经网络归因解释的真实值,人们无法从实证角度评价某一个归因解释算法的可靠性。“缺乏对归因解释算法可靠性的客观评价标准” 这一根本缺陷,引发了学界对归因解释研究领域的广泛批评与质疑。
而本研究中对归因算法公共机理的揭示,使我们能在同一理论框架下,公平地评价和比较不同归因算法的可靠性。具体地,我们提出了以下三条评估准则,以评价某一个归因算法是否公平合理地分配独立效应和交互效应。
1.
准则一:分配过程中涵盖所有独立效应和交互效应
。当我们将神经网络输出解构为独立效应与交互效应后,可靠的归因算法在分配过程中应尽可能涵盖所有的独立效应和交互效应。例如,对 I’m not happy 句子的归因中,应涵盖三个单词 I’m, not, happy 的所有独立效应,同时涵盖 J (I’m, not), J (I’m, happy), J (not, happy), J (I’m, not, happy) 等所有可能的交互效应。
2.
准则二:避免将独立效应和交互分配给无关的输入单元
。第 i 个输入单元的独立效应,只应分配给第 i 个输入单元,而不应分配给其它输入单元。类似地,集合 S 内输入单元间的交互效应,只应分配给集合 S 内的输入单元,而不应分配给集合 S 以外的输入单元(未参与交互)。例如,not 和 happy 之间的交互效应,不应分配给单词 I’m。
3. 准则三:完全分配。
每个独立效应(交互效应)应当完全分配给对应的输入单元。换句话说,某一个独立效应(交互效应)分配给所有对应输入单元的归因值,加起来应当恰好等于该独立效应(交互效应)的值。例如,交互效应 J (not, happy) 会分配一部分效应
(not, happy) 给单词 not,同时分配一部分效应
(not, happy) 给单词 happy。那么,分配比例应满足
。
接着,我们采用这三条评估准则,评估了上述 14 种不同归因算法(如表 2 所示)。我们发现,Integrated Gradients, Expected Gradients, Shapley value, Deep Shap, DeepLIFT Rescale, DeepLIFT RevealCancel 这些算法满足所有的可靠性准则。
▲ 表2. 总结 14 种不同归因算法是否满足三条可靠性评估准则
About The Author
本文作者邓辉琦,是中山大学应用数学专业的博士,博士期间曾在香港浸会大学和德州农工大学计算机系访问学习,现于张拳石老师团队进行博士后研究。研究方向主要为可信 / 可解释机器学习,包括解释深度神经网络的归因重要性、解释神经网络的表达能力等。
邓辉琦前期做了很多工作。张老师只是在初期工作结束以后,帮她重新梳理了一遍理论,让证明方式和体系更顺畅一些。邓辉琦毕业前论文不是很多,21 年末来张老师这边以后,在博弈交互的体系下,一年多做了三个工作,包括 1)发现并理论解释了神经网络普遍存在的表征瓶颈,即证明神经网络更不善于建模中等复杂度的交互表征。这一工作有幸被选为 ICLR 2022 oral 论文,审稿得分排名前五(得分 8 8 8 10);2)理论证明了贝叶斯网络的概念表征趋势,为解释贝叶斯网络的分类性能、泛化能力和对抗鲁棒性提供了新的视角;3)从理论层面上解释了神经网络在训练过程中对不同复杂度交互概念的学习能力。
扩展阅读,「统一 12 种提升对抗迁移性的算法」:
https://zhuanlan.zhihu.com/p/546433296
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?
答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是
最新论文解读
,也可以是
学术热点剖析
、
科研心得
或
竞赛经验讲解
等。我们的目的只有一个,让知识真正流动起来。
📝
稿件基本要求:
• 文章确系个人
原创作品
,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以
markdown
格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供
业内具有竞争力稿酬
,具体依据文章阅读量和文章质量阶梯制结算
📬
投稿通道:
• 投稿邮箱:hr@paperweekly.site
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(
pwbot02
)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
现在,在
「知乎」
也能找到我们了
进入知乎首页搜索
「PaperWeekly」
点击
「关注」
订阅我们的专栏吧
©作者 |机器之心编辑部来源|机器之心本文提出了统一解释 14 种输入单元重要性归因算法的内在机理,并提出评价归因算法可靠性的三大准则。尽管 DNN 在各种实际应用中取得了广泛的成功,但其过程通常被视为黑盒子,因为我们很难解释 DNN 如何做出决定。缺乏可解释性损害了 DNN 的可靠性,从而阻碍了它们在高风险任务中的广泛应用,例如自动驾驶和 AI 医疗。因此,可解释 DNN 引起了越来越多的...
模型的可
解释
性
是机器学习领域的重要研究课题,主要关注两个方向,一个是提升模型本身的可
解释
性
,如引入注意力机制、解耦表示学习等技术;另一个是对黑盒模型的事后
解释
,如特征掩码技术、可视化技术等。图结构提供了额外的拓扑信息,也对可
解释
技术提出了更高的要求。
第一个工作是Research Track的《XGNN: Towards Model-Level Explanations of Graph Neural Networks》,关注黑盒模型的事后
解释
,提出了一种基于输入优化的图
神经网络
事后
解释
方法。
神经网络
的可
解释
性
——Network Dissection: Quantifying Interpretability of Deep Visual Representations
加
性
特征
归因
方法是指通过对模型输入特征进行分析,量化每个特征对输出结果的影响程度的一种方法。在许多机器学习模型中,了解每个特征对最终预测结果的贡献是很重要的,这可以帮助我们
理解
模型的行为以及特征之间的交互作用。
加
性
特征
归因
方法基于模型的可
解释
性
,通过观察模型的输出结果与特征的变化之间的关系来进行
归因
。这些方法基于假设,即模型的输出可以通过特征之间的加权和来近似表示。在这种方法中,首先计算模型在所有特征取值的基准预测结果,然后逐个特征地将特征值变化为它们的预期取值,观察输出结果的变化情况。
一种常见的加
性
特征
归因
方法是局部特征重要
性
方法。这种方法通过比较模型在某个特征被改变前后的输出差异,来评估该特征对输出结果的重要
性
。如果在改变某个特征的取值后,输出结果发生了较大的变化,则可以认为该特征对输出结果有重要影响。
加
性
特征
归因
方法能够提供对模型的
解释
性
,帮助分析人员
理解
复杂的机器学习模型,并确定哪些特征对输出结果
具有
重要影响。它可以帮助发现模型中的潜在问题、确定特征的重要
性
以及发现特征之间的相互作用。因此,加
性
特征
归因
方法在机器学习模型的
解释
和可
解释
性
方面
具有
重要作用。