报告人:熊世峰
报告地点:腾讯会议ID:571-223-578
报告时间:2022年10月08日星期六08:30-11:30
报告摘要:
函数的近似与估计是统计学、机器学习和计算数学等学科中的核心问题之一。插值是数学中重要的函数逼近方法,用在基于无观测误差数据的函数估计。之前插值并没有被用于有观测误差的函数估计问题。我们注意到对于光滑函数,一个合理插值器收敛到所逼近函数的速度远远快于统计的最优收敛速度。因此,在有观测误差时,待估函数与它的插值之间在统计误差的意义下是不可区分的。由此我们提出了重构参数化方法,即参数化待估函数为插值器的形式,待估的参数只剩下在选定有限个节点处的函数值。通过构建损失函数估计这些函数值即可重构整个函数的估计。重构方法可以用于非参数回归、分类、密度估计等各类问题。它是一种参数化方法。目前的参数化方法(包括深度学习中的神经网络方法)中都面临参数可解释性差的问题,而重构方法中的参数即待估函数在节点处的函数值,含义清晰明了。我们给出了一个重构表示定理,该定理表明机器学习中常用的核方法(包括核岭回归、核支持向量机等)均可看作重构方法的特殊情况。另一方面,由于插值器的收敛速度远快于统计收敛速度,我们可以选取远小于样本量的节点数,从而把一些常用方法中的计算复杂度从 O(n^3) 降到 O(nm^2),其中 m<<n。这使得重构方法适用于大数据分析。数值实验和实例分析阐明了重构方法在预测精度和计算效率上的优点。我们也将讨论该方法在更多问题上的应用前景。
主讲人简介:
熊世峰,中国科学院数学与系统科学研究院研究员,实验设计与不确定性量化研究中心主任。研究方向包括计算机实验与不确定性量化、高维数据分析、统计推断、机器学习等。统计应用方面的研究主要是数字孪生、交通大数据分析、质量与可靠性等。在Biometrika, Technometrics, IISE Transactions等统计学、工业工程期刊发表论文 60 余篇。在质量特性统计建模与分析方面的工作曾获国防科技进步二等奖。