添加链接
link之家
链接快照平台
  • 输入网页链接,自动生成快照
  • 标签化管理网页链接

本次报告中,杨耀青博士介绍了他和团队在神经网络泛化性,神经网络权重测量,以及网络优化损失函数图景方面的最新进展。

本次报告主要分为两部分。在第一部分,杨耀青博士主要介绍了”相图”的概念,讨论了如何通过损失函数的全局形态来预测机器学习模型问题并提高泛化性能;在第二部分,则主要介绍了如何在不接触训练与测试数据的情形下,直接从模型参数中预测预训练模型(如Huggingface Transformers)的泛化表现。在报告的最后,杨博士与同学们就报告中的内容展开了热烈的讨论。 1A9E9 18F21

杨耀青博士首先介绍了泛化性研究的背景。神经网络在测试数据上的泛化性是机器学习技术得以应用的基础。研究神经网路泛化性的一种常用方法是衡量损失函数(loss)的局部形态(local landscape)。许多过去的研究认为模型收敛于平坦的局部极小(flat local minima)可以达到更好的泛化效果。然而,也有许多研究认为这收敛位置的 flat or sharp 并不是取得好的泛化效果的关键。

杨耀青博士及其团队在 NeurIPS2021 的一篇工作 “Taxonomizing local versus global structure in neural network loss landscapes” 中指出,损失函数形态与模型泛化性之间呈现的关系与模型训练超参所处的 ”相” (Phase)有关,而“相”对应的模型性能则可以通过 ”相图” 来刻画。相图的横轴对应于模型的 ”尺寸”,可以是隐藏层的大小、训练数据的数量或质量等;而纵轴则对应于训练的”温度”,表示模型在训练过程中的噪声程度,可以是 batch 的大小、学习率等。而图中的色温则代表模型的性能,如准确率。这种关于相图的研究在机器学习的统计物理方法(statistical mechanics of machine learning)中有着广泛应用。

“相“可以由两种依据进行划分。(一)极小值的局部形态(local landscape),也就是在收敛点附则极小值随扰动的变化率,可以使用损失函数 Hessian 矩阵的特征值进行定量刻画。特征值高或者Hessian的迹(Trace)大则表示变化较为剧烈。(二)极小值之间的全局特征,可以使用模式之间的连通性(mode connectivity)来衡量。直观来说,也就是收敛点到其附近的其他极小值的路径上是否会存在较大的 loss。由此,我们可以从损失函数的局部和全局形态两个角度,将训练的超参数划分为 4 个相。而对于较为理想的 Phase-IV,其又可以进一步按照模型之间的距离远近分为 IV-A 和 IV-B。研究发现,收敛点附近损失函数平坦,模型连通性良好且距离较近的相位(IV-B),容易表现出更加优良的泛化性。

对指标与性能的相关性分析表明,许多曾经用于预测模型性能的指标(图中砖红色),事实上是对泛化差异的反映,而形状指标则能更好地预测模型的质量。

在报告的最后,杨耀青博士与同学们就报告中所涉及的内容进行了热烈的讨论,并就同学们提出的问题,如泛化性指标的实现细节,泛化性度量指标在优化算法中的应用,半监督学习与模型相似性之间的关系,机器学习中的”相”与统计物理中相关概念的联系等等进行了详细的解答。

文稿撰写 / 刘明道

排版编辑 / 蒲睿熙

校对责编 / 黄   妍

AIR学术|西湖大学修宇亮:利用个人相册进行低成本数字人重建

9月12日早,由DISCOVER实验室主办的第三十五期AIR DISCOVER青年科学家论坛如期举行。本活动有幸邀请到西湖大学工学院助理教授修宇亮,为AIR的老师和同学们做了题为《Democratizing Human Digitization From Causal Photos》的精彩报告。讲者介绍修宇亮,将于2025年春季入职西湖大学工学院,担任助理教授、博士生导师,以及远兮实验室(Endless AI Lab, http://endless.do)负责人。个人主页链接:xiuyuliang.cn。拟于2024年底于...

2024/09/18

AIR学术|港中文深圳韩晓光:如何为三维生成模型准备数据

8月22日,由DISCOVER实验室主办的第三十三期AIR DISCOVER青年科学家论坛如期举行。本期讲座有幸邀请到香港中文大学(深圳)理工学院助理教授、博导韩晓光,为AIR的老师和同学们带来题为《How to Prepare Data for 3D Generative Foundation Models》的精彩报告。 讲者介绍韩晓光博士,现任香港中文大学(深圳)理工学院和未来智联网络研究院助理教授,校长青年学者,目前担任未来智联网络研究院助理院长。他于2017年获得香港大...

2024/08/27

AIR学术|匹兹堡大学高伟:On-Device AI with Full Runtime Adaptability

7月2日上午,第39期AIR学术沙龙如期举行。本期活动荣幸第邀请到了匹兹堡大学电气与计算机工程系副教授高伟,为我们作题为On-Device AI with Full Runtime Adaptability的报告。本次活动由清华大学智能产业研究院(AIR)国强教授刘云新主持。讲者简介Wei Gao is currently an Associate Professor in the Department of Electrical and Computer Engineering, University of Pittsburgh. His research interests lie in the inte...

2024/07/23