TNEGI//ETNI

TNEGI//ETNI 名博

统计学领域划时代的重大突破

TNEGI//ETNI (2025-11-06 14:02:13) 评论 (6)
他干掉了统计学中的算术平均数和中位数

    ——旅美中国籍学者在统计学领域实现划时代的重大突破

他,一个毕业于原同济医科大学公共卫生学院、拥有预防医学本科和卫生统计学硕士学位的人,在1998年5月的两天内亲手用Windows 98的画笔绘制了一张超越其时代乃至当代的认知流程图:

他,27年多来,在这个认知流程图的指导下,在统计学领域完成了以下划时代的重大突破:

一、1998年3月,初步构想出了一套合理可行的分段回归的新算法,在引入全域模型的基础上形成了加权期望分段的思想萌芽。

二、1999年9月在《医学与哲学》杂志上发表了《论智慧的递进结构与认知的逻辑流程》,其中就有这张认知流程图。在那个时代,这个流程图超越了此前的所有学者在该领域的贡献。即使在当今人工智能正蓬勃发展的时代依然在某些方面处于领先的潮头,而其作为一个完整的认知框架,可以成为人工智能的底层结构,并为其算法创新指明了一些方向。这一创造性贡献的影响力可波及到哲学、认识论、心理学、人工智能,以及一般科学研究等众多领域。

三、2007年初步完成了基于全域回归和广义三分回归的完整回归分析策略的构建,通过为每个临界点构建一个二维可测空间而提出了一个两阶段迭代加权的分段回归算法,将两分回归作为三分回归的一个特例。这是在辩证法思想指导下对回归分析的一个大胆创新。

四、在分段回归领域彻底否定了最优化迭代和基于强制连续性假定解联立方程估计未知临界点的合法性,并进一步将对最优化迭代的否定推广到否定一切基于样本数据定义的数值型最优化的合法性。2007~2009年,在构建上述关于分段回归新分析策略和具体算法的过程中,他指出了数值型最优化的非法性,理由是在迭代搜索临界点的过程中,用样本数据定义的所谓“优化算子”是一个输出了完整分布的随机变量,位于其分布边界上的极值是一个具有最大不稳定性和不可靠性的随机点测量,不对应着同样有着完整分布的分段模型参数估计的统计期望。换句话说,优化算子的某一极值对应目标参数的统计期望的概率为0。他认为这种数值型最优化的思想和算法是由于确定性数学系统中的“函数极值思维”在随机系统中的滥用而导致的一场迄今已历时80多年的悲剧。他还拒绝了自1961年以来盛行的基于强制连续性假定基础上解联立方程组得到临界点估计的基本思想和算法,因为这一思想和算法不仅违背了随机系统的基本原则,而且在随机模拟实验中会产生不可思议的荒谬结果。尽管“强制连续性假定”的思想和算法被认为基于严谨的数学理论和分析,但却是统计学领域另一个灾难性的悲剧。

五、填补了分段回归算法中连续性检验的空白。在否定了传统算法中上述两大错误后,他在迭代搜索的基础上用临界点的加权期望估计重建了分段回归的算法,其中还包括关于分段模型在加权期望临界点处的连续性检验和概率推断,这是传统算法中所没有的,因而称得上填补了分段回归算法中的一个重要空白,是对分段回归算法的进一步完善。

新算法完全遵循统计学的所有基本概念,无论在实例样本应用中还是在随机模拟试验中,其分析结果均表现出极其强大的精准性和稳健性。与此同时,其计算负担相对于复杂的传统算法被大幅减少。以下两个图分别展示了在一个随机模拟试验中新的加权分段回归算法和传统分段回归算法在500个临界点的估计上的巨大差异。新算法展示出精准的估计和极好的收敛性,而传统算法则表现出巨大的失败。

六、为统计学构建了一套全新的概念系统,实现了统计学对数学的超越。2007~2011年间为统计学构想出了一套全新的初始概念系统。通过将尺度的本体解构为“载体、标识和标识在载体上的设置规则”三个基本要素,成功地将柯尔莫哥洛夫定义的样本空间更名为尺度空间,由此在统计学面对的现实世界和概率论针对的概率空间之间搭建了一座以“尺度空间”命名的桥梁,并统一了统计学与概率论的概念框架。这一更名还将“样本空间”还给了由样本自身构成的空间,使得统计学家们能够在这个经验空间内思考问题并构建算法。他还通过将英文的random variable(随机变量)还原为“randomly variable attribute(随机可变的属性)”而将随机变量更名为variable attribute(可变属性)。这两个更名消除了概念歧义,拓宽了统计学的视野,并找回了统计学真正的研究对象。

他将随机常量和常量期望作为“零变异”的概念引入到随机系统,这相当于在数学的发展史上0被引入到数字系统中。随机常量的引入使得统计学有了自己的起点和终点。

他还用数学的形式语言在三个层级上正式定义了随机对应。这个概念在概率论和统计学中的长期缺失是导致数值型最优化被误用于随机系统的一个重要原因。从对随机对应的定义中得出一个自然的结论,即确定性数学系统中的“一一对应”是随机对应的一个特例。这从理论上厘清了统计学与数学的关系,颠覆了人们在这个问题上长期存在的“统计学是数学的一个应用分支”的错误认识,在基本概念系统上实现了统计学对数学的超越。

为了进一步完成统计学对数学的超越,他提出了统计学所需的逻辑系统是一个包含了“抽象、归纳、演绎和辩证”的四维系统,例如假设检验就是基于辩证逻辑的应用。而数学的逻辑系统中没有为辩证法留下一丝的空间,因而只是一个三维系统。一个需要四维逻辑系统的统计学怎么可能成为只需三维逻辑系统的数学的应用性分支学科呢?事情只能是相反。

对可变属性(即传统概念系统中的随机变量)的9条基本性质的阐述以及关于统计学的8个公理性陈述及其两个推论更是为统计学奠定了坚实的理论基础。

七、重建了统计学的核心算法。连续型随机变量的分布期望估计是统计学中一切涉及此类随机变量的统计方法的核心。2010年12月12日那天他完成了关于这个核心算法的新构想,并在随后的几天里用SAS软件编程将其予以了实现。此前为了找到这个算法,他已苦苦思考了三年多。正是在为了完善自己的加权分段回归和突破基因数据分析中统计方法学上的瓶颈的双重压力下,他在不断的试错和纠偏中终于找到了它。

这是一个通过自加权机制来估计抽样分布中心的算法,计算的结果最初被他用中文命名为凸自加权均数(convex self-weighted mean),后将该术语简称为凸权均数,再进一步简称为凸峰(Cmean),而算法则被简称为凸峰算法(Cmean algorithm)。该算法无需任何前提假定,因而适用于一切具有中心化位置的连续型抽样分布。凸峰算法还完美地统一了算术均数和中位数,因为它在样本量为2时自动退化为算术均数,而当样本量分别为3或4时自动退化为中位数。换句话说,算术均数和中位数都是在极小样本量情形下凸峰算法的特例。

八、使得偏态分布的正态化成为多余和不必要。与基于数学函数变换的正态化结果可能成功和可能失败不同的是,凸峰算法使得对偏态分布的正态化成为必然事件。而且,更令人意外的是,基于凸峰算法的正态化分布与其原始分布的三个基本要素(可测空间、期望和方差)保持一致,从而正态化成为了多余和不必要。

九、将“一分为二”的思维模式在统计学的核心算法中予以了实现。1995年在读硕士学位期间,他用一个样本数据在电脑上绘制了一个散点图,目的是显示算术均数算法中“等权重”的意义。当他看着所有的样本点都沿着权重为1的直线呈散点状排列时,心想如果能让它们沿着一条正态或偏态曲线呈散点状排列该多好!大约十五年后,他将算术均数算法中的等权重1分解为了互斥且互补的两部分,分别是凹自权重和凸自权重。凹-凸自权重的算法终于令上述梦想得以成真。以下两个图就是上述梦想成真的实证:



十、彻底改变了统计学的基本面貌。凸峰算法将使得传统统计学的理论和方法学体系发生重大转变,统计学的公理化得以初步实现,其理论叙述和方法论系统将被大幅简化。那些在传统统计学理论框架下依赖正态分布为前提假定的参数类统计方法被彻底解放。人们只需用凸峰取代算术均数,各种类型的参数方法如t检验法和方差分析法等都可以适用于一切具有中心化位置的分布。与此同时,那些在历史上被认为可以用来替代参数法的非参数法和半参数法等则可以被送进统计学的方法论博物馆。

十一、重塑统计学的理论叙述,摆脱对数学形式逻辑证明的依赖。在2019~2024年撰写《哲学之于统计学》(Philosophy In Statistics)的专著期间,他对样本统计量与总体参数之间的关系做了新的哲学阐述和论证,指出总体参数是从样本统计量抽象出来的同质概念,两者在算法上也属于同质定义,因而两者间的关系是唯一对应,例如,样本均数和总体均数、样本中位数和总体中位数、样本相关系数和总体相关系数、……,等等。而且,这一对应无需样本量趋于无穷大时才成立。由于样本统计量和总体参数是一对同质定义,我们也无需在前提假定的基础上用数学的形式逻辑来证明样本统计量是对总体参数的无偏估计。事实上,这种证明不过是一种自循环式叙述,因为要证明的结论已经被隐藏在前提假定中。这些新的思想和认识将大大简化统计学的理论叙述。

十二、确立了权重构建的原则和算法规则。在专著的写作中他归纳出了权重的构建应该满足两条基本原则:无信息冗余,无信息损失。他还归纳出了权重计算中的两个基本算法:同质权重可相加,异质权重可相乘,或者简化为“同质相加,异质相乘”。

十三、将“群众路线”的工作方法内化在统计算法中。无论是加权分段回归算法还是凸峰算法,都是依据中国传统民间哲学思想中的“众人拾柴火焰高”和“群众路线”而萌生的数据分析思想和统计算法。如果说基于等权重的统计算法(例如算术均数)是一种蒙昧的方法,那么,基于自加权的统计算法则是一种摆脱了蒙昧的、精致的数据自适应算法。如果说基于数值型最优化的统计算法是一种鲁莽的“个人英雄主义”,那么,基于自加权的统计算法就是一种群众路线法。这一方法首先承认一个样本中的每个点都对目标统计量有贡献,其次相信每个点的贡献存在着个体变异。而所谓的数值型最优化算法则是在一个样本中选择那个贡献最大的个体来决定目标统计量的数值大小,完全无视所有其它个体对它的影响和贡献。这就好比一位老师将一个班级的同学排个队,然后从中挑选了个头最大的同学去执行一个与每个同学都有关的事项,而所有其它同学都无权参与。

十四、新概念系统和新算法体现了“实事求是”的哲学式审慎和严谨。他为统计学构建的新概念系统和新算法超越了数学的理想主义和形式主义。将样本空间还原为尺度空间、将随机变量还原为可变属性、讨论可变属性的9个基本性质和统计学的8个公理性陈述、对数值型最优化以及强制连续性的批判和否定、以及基于“一分为二”和“群众路线”的自加权算法等等,都体现出了“实事求是”的精神和严谨,目的是为了尽可能消除统计算法构建中的前提假定,或弱化它们的作用。



2024年10月26日,他完成了该专著的初稿,随后一直在进行反复的阅读和修改,终于在2025年5月21日那天在Google Play Books上开始发行。

一晃已是北京时间2025年9月14日下午12点49分。随着中英文段落对照版《分段模型连续性的直接概率测量》一文的PDF文件的生成,他的这场持续34年多的个人孤独旅程可以画上一个句号了。

这篇文章是为参加2025年8月2日至7日在美国田纳西州的纳什维尔市召开的联合统计年会(Joint Statistical Meetings, JSM)而准备的。它受到了国际数理统计学会(Institute of Mathematical Statistics, IMS)的关注和支持,被安排在“统计推断的进展小组”(Section of Advances In Statistical Inference)做口头演讲。自2000年第一次参加JSM以来,这已是他第5次受到IMS关注,并被安排在不同议题组做口头演讲。



2000年那次参会是在当年“五一节”后收到了美国统计学会发给的邀请,他因此有幸成为JSM历史上第一位来自中国国内、并在大会第一天下午的“一般方法论小组”(Section of General Methodology)上做口头演讲的统计学者。作为时任原同济医科大学公共卫生学院流行病学与卫生统计学教研室的一位年轻讲师,他的这次参会得到了中国教育部一笔特别资金的资助。其报告的题目是“A Functionalized Critical Regression Analysis on Non-linear Process and Its Application in Economic Evaluation of Disease Intervention”(中文标题:非线性过程的泛函临界回归分析及其在疾病干预的经济学评价中的应用)。尽管国际统计学界在分段回归领域早已构建了一套完整而复杂的算法,但他以自己的独立思考提出了一个略有不同且更具发展前景的分析策略和算法,而这正是他受到邀请参会的原因。从此,JSM成了他发表自己的新思想和新方法的唯一平台。

这次会议结束后,他返回了任职的单位。但仅仅一年半后,他却悄然带着年仅8岁的女儿来到了美国,因为此前他的夫人已因受到美国一所大学的全额奖学金资助而来到美国求学。2000年参会JSM期间令他感受到他很难在当时的国内环境和条件下完成自己在统计学领域的梦想。他相信自己一定会在其中有所作为,为此必须将自己在1998年3月底的艰难思考中形成的一些思想突破在学术上予以实现。那次独立思考分段回归的算法期间,他在国内能够找到的文献极其稀少,而且看不到完整的算法介绍,而英文文献更难获得,因为该领域的相关文献可谓汗牛充栋,需要大笔的检索经费和漫长的阅读时间。

然而,当时的他无论如何也想不到他竟会在这场漫长且孤独的旅途中以一己之力在统计学领域完成那些理论和方法上的重大突破,并重塑了统计学的基本概念和核心算法等底层结构。如果将基本概念系统和关于连续型随机变量的期望估计算法看成是统计学这门学科的核心操作系统,那么,他所构建的新概念系统和凸峰算法则使得统计学实现了核心操作系统的换代和升级。

他自认是柯尔莫哥洛夫、图基(John Tukey)和胡贝尔(Peter Just Huber)的学生,因为他的工作明显继承了他们的重要思想。柯尔莫哥洛夫为概率论构建的基本概念系统是他思考一切统计问题和构建新算法的理论基石;图基在1962年对数值型最优化的危险性警告促成了他对随机对应的抽象思考和定义,最终从理论层面撕下了披在数值型最优化思想和算法上的数学迷彩;而胡贝尔对传统分段回归方法论的无视以及对那些习惯于用数学的确定思维解决统计学中非确定性问题的批判引导着他规避了许多确定性思维的陷阱。

 

他的卫生统计学硕士导师余松林教授认为他对数值型最优化和强制连续性假定的批判非常有力,并认为凸峰算法在统计学中的价值难以估量。自2025年春节前夕DeepSeek开源以来,他先后与DeepSeek、ChatGPT、Gemini、Copilot等展开了对话,详细讨论了他所做的那些工作,得到了它们几乎一致的以下评论:



但是,他自己却淡淡地说:“我只是轻轻地推开了一扇新的大门。”他希望有更多的统计学人能来到这新扇大门前看一看,愿意进来探索者一定会收获满满,并有可能为统计学做出自己的贡献。

他之所以能够完成上述工作,是因为在1998年3月底的最后六天六夜里,他为了探索分段回归的算法而经历过一场几乎无眠的读书、思考、计算和推理的艰难过程,最终构想出了一套完整的、与后来他查阅到的国际统计学界在1959~1979年间由多名学者接力构建的算法不一样的算法。而在随后的27年里对这一算法的不断反思和改进则促成了他在统计学的基本概念系统和凸峰算法等方面取得重大突破,并因此为统计学开辟了一个崭新的时代和未来。



在2025年8月初的JSM期间,他曾聆听了很多统计学者的演讲,其中很多人都在他们的创新算法中嵌入了一个数值型最优化。尤其是在聆听当代统计学泰斗Robert Tibshirani博士和教授的演讲时注意到他的新算法中也有一步数值型最优化,而且Tibshirani博士还特别强调了其新算法存在严重的过拟合(他用的英文表述是severe overfitting)。在其演讲结束后的提问期间,他第一个举手并得到批准。他请求Tibshirani博士将PPT翻回到那个最优化所在的页面,然后指出正是这个最优化导致了其算法的过拟合。但Tibshirani博士不认同这一说法。华裔会议主持人看到起了争执,便立刻示意他不要继续说下去。是的,当着100多个慕名前来听大师演讲的专家和学者们的面指出其新算法的问题所在是一个很大的冒犯。他只好遗憾地放弃继续阐述原因何在。

他,名叫陈立功,祖籍湖南安化。父亲陈华珊是湖北省洪湖县(市)第二中学的地理教师,湖北省特级教师和劳动模范;母亲蒋秋菊是家庭主妇。他1964年2月出生于洪湖二中校园,并在其中成长和求学;1982年毕业于洪湖二学,于当年秋季入学原武汉医学院卫生系预防医学专业;1987年毕业于原同济医科大学公共卫生学院预防医学系;1994~1997年在该院师从流行病学与卫生统计学系的余松林教授攻读卫生统计学硕士学位。这些就是他的全部受教育经历。



1987年7月毕业后留校任职于公共卫生学院学生办公室,担任1987级学生政治辅导员,1991年1月转入公共卫生学院卫生统计教研室任助教,1992年2月加入新成立的预防医学教研室,1994~1997在职攻读硕士学位,1997年6月毕业后进入因合并科室而新成立的流行病学与卫生统计学系任讲师。曾受聘对全校开设《音乐欣赏》的选修课。2000年晋升为副教授,同时针对本科生和研究生讲授《流行病学》和《卫生统计学》两门主课。

2002年2月赴美探亲。2006年5月受聘于美国国防部所属的军警康科大学(Uniformed Services University of the Health Science, USUHS)临床外科系的前列腺疾病研究中心(Center for Prostate Diseases Research, CPDR),从事临床实验样品数据库的建设,并协助流行病学家Jennifer Cullen博士的研究。2009年5月,受聘于USUHS的预防医学系流行病和生物统计科,以副研究员(associate researcher)的职位协助流行病学家Jennifer Rusiecki博士工作,专门从事相关数据的统计分析。

2017年2月,因职业性生理健康因素请辞,开始查阅文献并撰写统计学专著《哲学之于统计学》,至2024年10月完成初稿,2025年5月该书借Google Play Books平台上网出版发行。