2019年11月22日上午9点10分在南湖校区新图书馆6楼5608室,北京大学艾明要教授莅临我院做学术报告,会议由学院院长王纯杰主持,校教学指导委员会主任委员董小刚、校研究生学院副院长秦喜文、学院部分老师、研究生、及本科生和其他学院师生参加了本次学术报告会。
报告题目:Optimal Subsampling Algorithm for Big Data Regression
大数据分析中的最优抽样技术
摘要:To fast approximate the MLE with massive data, this paper studies the optimal subsampling method under the A-optimality criterion for generalized linear models (GLM). The consistency and asymptotic normality of the estimator from a general subsampling algorithm are established, and optimal subsampling probabilities under the A- and L-optimality criteria are derived. Furthermore, using Frobenius norm matrix concentration inequality, finite sample properties of the subsample estimator based on optimal subsampling probabilities are also derived. Since the optimal subsampling probabilities depend on the full data estimate, an adaptive two-step algorithm is developed. Asymptotic normality and optimality of the estimator from this adaptive algorithm are established. The proposed methods are illustrated and evaluated through numerical experiments on simulated and real datasets.
艾明要简介:北京大学数学科学学院统计学教研室主任、教授、博士生导师。兼任中国数学会概率统计学会秘书长,中国现场统计研究会常务理事,试验设计分会理事长,高维数据统计分会副理事长等。国际重要统计期刊《Statistica Sinica》、《Journal of StatisticalPlanning and Inference》、《Statistics and ProbabilityLetters》、《STAT》副主编,国内核心期刊 《系统科学与数学》编委,科学出版社《统计与数据科学系列丛书》编委。
主要从事试验设计与分析、计算机试验、大数据分析和应用统计的教学和研究工作,在Ann Statist、JASA、Biometrika、Technometrics、Statist Sinica等国内外顶尖期刊发表学术论文六十余篇,主持完成多项国家自然科学基金面上项目和重点项目子课题,参与完成国家科技部973课题2项。
在报告中,艾教授首先基于大数据集的计算、储存及可视化问题,介绍了最优抽样技术的背景,简要回顾了广义线性模型的基本知识,并总结了前人就这一问题提出的最优抽样方案。艾教授考虑广义线性模型,使用Newton-Raphson方法获取出最大似然估计,还基于最佳子采样概率推导了子样本估计量的有限样本属性。由于最佳子采样概率取决于完整的数据估计,因此开发了自适应两步算法。利用该自适应算法建立了估计量的渐近正态性和最优性。最后,艾教授展示了不同模型设置下的模拟结果,与已有的方法相比,新方法的均方误差更小,且抽样用时更短。最后艾教授展示了两个实际数据的分析结果,也说明新方法的表现更好。
本次报告极大地提高了学生们的学习动力与学习积极性,也启发了师生们将统计学、数学与大数据发展紧密结合,得到了更加深刻的认识。同时,开拓了师生们的视野,使师生们对大数据领域有了更深刻的领悟与感受。
数学与统计学院
2019年11月22日