【NLP】探索NLP模型可解释性的7种姿势

link之家

链接快照平台

输入网页链接，自动生成快照
标签化管理网页链接

Training-based

Influence Functions

这类方法主要 通过一个函数，来衡量训练样本 z 对于测试样本 x 的影响 。最naive的方法就是去掉 z 再训练一个模型，但这样测完的时候就可以领盒饭走人了。不过我们有数学呀！于是在计算训练loss的时候，我们可以给样本 z 的loss加一个扰动，然后就能计算出 z 对于模型权重的影响，再把 x 输入进去，就能计算出每个 z 对每个 x 的影响情况。

由于公式太复杂，我就不列出来杀大家的脑细胞了。其中有个问题是Hessian矩阵比较难算，对于深度模型简直是灾难。于是又有学者提出了更简单的方法： Turn over dropout 。

该方法的核心思想是，在训练完模型后，得到每个样本的一个mask矩阵 m(z) ，应用mask之后可以分离出那些不受样本 z 影响的神经元。于是我们可以应用矩阵得到两个子网络，再输入 x 后预测，就能计算出预测的diff。

KNNs Based Interpretation

基于KNN的方法旨在通过 测试样本的隐层表示找到相近的训练样本 。

这个方法理解起来就容易多了， 而且很实用 。比如我们在做分类任务时，有的测试样本置信度没那么高，这时就可以通过KNN的方法去找相近的TopK个训练样本，根据它们的label分布来帮助预测：

Kernel based Interpretation

这类方法比较老了，参考文献都是18、19年的。具体做法是，先用核函数对预测样本 x 和多个训练样本 l 计算相似度 K(x,l) ，之后把相似度矩阵投影成更高维的表示，再输入神经网络进行预测。之后再利用LRP（Layerwise Relevance Propagation）反向计算每层、每个神经元的相关性分数，传导回训练样本那一层就能知道每个样本对测试数据的影响了。

在训练时，Kernel和投影层都是一起训练的，所以这种方法既需要在训练时加入，又需要训练后的计算。

Test-based

Saliency-based Interpretation

这种方法的核心思想是 利用一些metric计算测试样本中token、spen的重要程度 。作者列出了很多种可以用的metirc：

Attention-based Interpretation

这个相信大家都熟悉了，就是 通过观察attention矩阵来分析token的重要程度 。

但有意思的事，作者也在参考文献中发现了一些质疑的声音： Attention确实能给可解释性提供帮助吗？

在一篇19年的工作《Attention is not explanation》中，该作者提到， 如果注意力权重真的能提供可解释性，那它应该具备两个性质 ：

注意力权重应该和基于特征的Saliency-based方法有很高的相关性
改变注意力权重会影响预测结果

但是之后，该作者通过一系列的实验，证实attention不具备上述两个性质。所以直到现在（2021年11月），注意力机制是否能提供可解释性这个问题还处于争论之中。

不过该工作的实验是基于BiLSTM+Attention的，仍然有很多基于BERT的实验表明，注意力机制确实学到了不少的语言知识。

Explanation Generation

这个方法就有意思了，上述我们介绍的可解释性方法，对于人类来说可读性都比较弱。而这类方法就要求输出对人类更友好的「解释」。比如：

Extractive/Abstractive Rationale：通过抽取或者生成的方式，把样本中对结果影响大的部分输出出来
Concept-based：将预测样本联系到一些抽象概念上，比如在对餐厅的评价中，哪些词语是形容口味的、环境的等等，相当于给出了推理过程
Hierarchical：自底向上分别给句子的每个token、span打分，哪个片段是正向、哪个是负向，也相当于给出了推理过程

可解释性算是一个没那么热的方向，首先是深度模型确实太复杂了、太随机了，有时候自己想的一堆idea都没用，一个bug反而有提升。到了解释的时候全靠猜，可能是哪里分布不一致？或者是模型已经足够强了，我加的输入知识它不需要？其次是大部分人都是结果导向，有时间研究不确定的可解释性，不如花心思在指标提升上。

要说可解释性重不重要，那肯定是重要的。如果对模型的了解更深入，就可以避免一些高风险的badcase。比如风控领域，一个反动内容可能会灭了一家公司，再比如医疗领域，一个错误的预测可能影响患者的生命。

论文的结尾，作者列出了很多的开放问题等待大家探索：

到底怎样才算可解释？
如何评估这些探究可解释性的方法？
是为算法工程师提供解释，还是为看到结果的用户提供解释？
目前的可解释性方法大多研究分类任务，而其他任务呢？
很多可解释性方法提供的结果不一致
是否要牺牲性能获取更高的可解释性？
可解释性方法如何应用？它的价值有多少？

那么最后，深度模型是否真的可解释？这个问题我也没有想清楚，世上无法解释的东西太多了 。

适合初学者入门人工智能的路线及资料下载机器学习及深度学习笔记等资料打印机器学习在线手册深度学习笔记专辑《统计学习方法》的代码复现专辑 AI基础下载黄海广老师《机器学习课程》视频课黄海广老师《机器学习课程》711页完整版课件

本站qq群554839127，加入微信群请扫码：

每次看badcase时，都会怀疑自己的能力，是我哪里做的不对吗？这都学不会？幸运的话，会找到一批有共性的问题，再有针对性地加入训练数据或者改动模型解决。而不幸的话，就是这儿错一个那儿错一个... Github:Pytorch-transformers 该工具追求着这样的一个目标，几行代码调用最先进的模型，加载训练好的模型参数，来完成自然语言项目，比如机器翻译、文本摘要、问答系统等。Transformers 同时支持 PyTorch 和TensorFlow2.0，用户可以将这些工具放在一起使用。安装PyTorch-Transformers pip install pytorch-t...

NLP data处理pytorch datasettorchtextiterator加载词向量主要总结一下， NLP 数据的处理过程 NLP 数据的处理主要有分词，然后记录每个词出现的次数，每个词对应的id，word2id,id2word。python有很多库如from collections import Counter，scipy，jieba等配合使用 pytorch dataset file = open('train.txt','r') i = 0 data,tag,sentence_lst = []

贴一下汇总贴：论文阅读记录论文链接：《Quantifying Explainability in NLP and Analyzing Algorithms for Performance-Explainability Tradeoff》医疗保健领域是 机器学习 最令人兴奋的应用领域之一，但缺乏模型透明度导致行业内采用滞后。在这项工作中，我们使用 MIMIC-III 临床笔记中的死亡率预测任务，探索了临床文本分类案例研究中当前的可 解释性 和可 解释性 艺术。我们展示了用于完全可解释的方法以及与模型无关的事

From SJTU, MSRA and PKU. Authors: Chaoyu Guan, Xiting Wang, Quanshi Zhang, Runjin Chen, Di He, Xing Xie. Title: Towards a Deep and Unified Understanding of Deep Neural Models in NLP In: ICML 2019. Co...

文章目录核方法线性回归回顾岭回归回顾内核定义的非线性映射 (Kernel-defined nonlinear mapping)例子岭回归的核将给定的数据嵌入到一个空间中，在该空间中可以将模式发现为线性关系。两个步骤: 映射由所谓的核函数 (kernel function) 隐式定义 (取决于有关数据源模式的领域知识 domain knowledge regarding pattern in data source)。使用健壮的通用算法。算法高效，且需要在数据项的大小和数量上是多项式

论文标题：Interpretable Rationale Augmented Charge Prediction System 论文来源：COLING 2018 论文链接：https://www.aclweb.org/anthology/C18-2032/ 罪名预测（Charge prediction）是智能司法领域最热门的任务之一... for i in range(k): indices = np.where(idx == i) centroids[i, :] = (np.sum(X[indices, :], axis=1) / len(indices[0])).ravel() return centroids 这里为什么是axis=1，对每个特征求均值不应该是axis=0吗？ Python业务分析实战｜共享单车数据挖掘 ♛幽幽♛: 你好，我想问一下你的数据集是用的哪个啊

【机器学习】数据挖掘实战：个人信贷违约预测 37.2℃197: 请问训练数据如何获取【深度学习】CVPR'24｜Transformer+稀疏卷积，Adobe提出人像抠图新网络MaGGIe wzs.: 二进制掩码和 trimaps 是两种在图像处理中用于表示图像区域的方式，它们的主要区别在于对前景和背景的定义方式。二进制掩码是一种只有两个值（通常为 0 和 1）的掩码图像，其中 1 表示前景区域，0 表示背景区域。它将图像分为明确的前景和背景两部分，没有中间过渡区域。 Trimaps 则是一种包含三个值（通常为 0、1 和 2）的掩码图像。其中 0 表示明确的背景区域，1 表示明确的前景区域，2 表示不确定或过渡区域。Trimaps 提供了一种更灵活的方式来表示前景和背景之间的过渡，适用于一些复杂的图像或需要更精确分割的情况。