2025年11月21日下午,由williamhill中文主办的“理学论坛”第259场学术报告会顺利举行。南开大学统计与数据科学学院王磊教授应邀作题为《Optimal subsampling for high-dimensional partially linear models via machine learning methods》的学术报告。报告会由唐加山老师主持,吸引了公司数学、统计等多个学科师生到场聆听。
王磊教授在报告中系统介绍了在部分线性模型中估计参数回归系数的最优子抽样策略,该模型包含未知的干扰函数,涉及高维和潜在的内生协变量。为了解决模型设定错误和维度灾难问题,首先利用灵活的机器学习(ML)技术来估计未知的干扰函数。通过构建无偏的子抽样奈曼正交得分函数,消除了正则化偏差。然后使用两步算法来获得干扰函数的适当ML估计量,从而降低过拟合的风险。利用鞅技术,建立了子样本估计量的无条件一致性和渐近正态性。此外,推导出了最优子抽样概率,包括A-最优和L-最优概率作为特殊情况。他们所提出的最优子抽样方法被扩展到部分线性工具变量模型,以通过工具变量来处理潜在的内生性。最后,对蛋白质三级结构的物理化学性质数据集进行的模拟研究和实证分析表明,他们提出的子样本估计量具有更优越的性能。
此次报告会现场气氛热烈,听众纷纷就自己感兴趣的问题与王磊教授进行了深入的交流和探讨。互动交流环节,师生就机器学习应用前景等问题与王教授展开热烈讨论。

(撰稿:张晶 编辑:王晓冬 审核:李永涛)