“统计学更像是一种科学的语言。Regression(回归分析)推到极致就是深度学习,Density Estimation(密度估计)推到极致就是生成式模型。这次人工智能革命成功的一个很大因素,是对统计思想和方法的全面拥抱。”
日前,美国国家科学院院士、拷贝漫画
主任、兴华卓越讲席教授刘军院士接受东方卫视《锚点》节目专访,与主持人中国科学技术大学科学传播系副主任袁岚峰展开了一场关于统计学本质、历史与未来的深度对话。从“鸡兔同笼”到贝叶斯推断,从辛普森悖论到大模型时代的不确定性量化,刘军院士以生动比喻和深刻洞见,为我们揭开了这门“反问题”科学的神秘面纱。
统计学与数学:一个是“正问题”,一个是“反问题”
“很多人以为统计学是数学的一个分支,但二者有着本质区别。”刘军用一个经典的例子说明:

“一个罐子里有一百个球,其中七十个白球、三十个黑球,你抓一把,抓到九个白球一个黑球的概率是多少?——这是数学,是前向推理。”
“反过来,你不知道罐子里黑白球的比例,抓了一把发现有九个白球一个黑球,问里面黑白比例是多少?——这是统计,是反问题。”
刘军将统计学的核心使命概括为:在不确定性环境下做最优决策,并量化这种不确定性。这与中国古语“窥一斑而知全豹”异曲同工,也接近诸葛亮“不出门能知天下事”的推断智慧——只是统计学多了一步:不仅要给出判断,还要告诉你这个判断有多大的置信度。
那些反直觉的“统计陷阱”:辛普森悖论与均值回归
统计学中有许多反直觉的现象,深刻影响着我们的认知与决策。
辛普森悖论告诉我们:整体最优,未必对个体最优。医生甲的整体成功率(90%)高于医生乙(80%),但可能只是因为甲接诊的多是轻症病人。作为重症患者,你应该选谁?答案却有可能是成功率看似“更低”的医生乙。
均值回归则揭示了另一种常见误区:期中考试前十名的学生,期末往往有几人跌出前十。家长们常归因于“骄傲了”,刘军笑着点破真相:“这其实是均值回归——考得特别好的人,往往能力加了一点运气;下一次运气不在,成绩自然回落。”他调侃道:“海淀父母‘鸡娃’,某种程度上是在跟大自然作对。”
从高斯到辛顿:统计学如何成为AI的“底层语言”
回顾统计学发展史,刘军如数家珍:
-
-
十八世纪末
:高斯用最小二乘法研究天文数据,引入正态分布假设——这被刘军称为“第一个生成式模型”
-
十九世纪
:高尔顿用线性回归研究父子身高,皮尔逊将其系统化
-
“到了现在的统计学,百花齐放。它更像一种科学的语言。”刘军特别强调:

“这次人工智能革命成功的一个很大因素,是对统计思想和方法的全面拥抱。”
他专门研究了Geoffrey Hinton多年来的文章,发现在神经网络“寒冬期”(1990年代),Hinton做了大量统计方向的研究:混合专家模型、对比学习、降维与生成模型……“降维这东西,跟统计古老的‘主成分分析’密切相关——只是他把线性降维变成了非线性降维,用神经网络去实现。”
刘军总结道:
-
Regression(回归分析)推到极致 = 深度学习
-
Density Estimation(密度估计)推到极致 = 生成式模型
-
“人工智能的核心手段,都有非常深、非常直接的统计方法对应。”
为什么选择统计学?“能在别人的后院里玩”
刘军本科毕业于北京大学数学系,赴美后最初学纯数学,但逐渐感到“太虚幻了”。他决定转学统计,这个“有点模糊的理由”,后来被证明是正确的选择。
“统计让你能做非常广的东西:喜欢数学,可以做非常深的数学;喜欢应用,也能做非常具体的应用。”他提到统计学家John Tukey的名言:“作为统计学家,最大的好处是可以在别人的后院里玩。”
“别人收集好数据,不知道怎么分析,我们可以去帮着分析。”从生物信息到信号处理,从搜索引擎排序到中文古文献分词,刘军的学术足迹遍布多个领域。
从“鸡兔同笼”到贝叶斯:一套有原则的推理工具
谈及贝叶斯方法的魅力,刘军用了一个生动的比喻:
“你小学解鸡兔同笼,觉得挺复杂;到了初中学了代数,几个方程就解出来了——不是你变聪明了,是你有了工具。贝叶斯方法就像这样,它给你一套非常有原则的推理框架,在很多情况下自动给出最优解。”
他与团队曾将贝叶斯方法应用于中文古文献的无监督分词分析,从《红楼梦》等文本中自动识别人名、地名、常用短语。这与如今大语言模型中的“Token determination(词元判定)”异曲同工。
统计学的锚点:不确定性量化
访谈最后,刘军在题板上写下他对统计学核心问题的答案:不确定性的量化。
“统计跟很多别的学科(区别)很重要的一点,就是不确定性的描述。这点在决策上至关重要。”
他直言,在当下的大模型和AI技术中,不确定性量化恰恰是比较欠缺的一环。
“我认为,统计在今后若干年的重点任务,仍然是不确定性量化。也只有统计这个学科,把这个放在中心位置。”
关于中国统计学的现状与未来
谈及我国统计学在世界上的水平,刘军评价:“还是不错的,正在追赶中。尤其最近十来年,发展得非常喜人。”
但他也坦言,统计学长期被置于数学之下,虽然已是一级学科,但在资源投入上与优势学科相比仍有差距。“如果国家要大力发展,还需要一些特殊的机制去支持统计学发展。”
结语
从“窥一斑而知全豹”的古老智慧,到“在不确定性中做最优决策”的现代科学,统计学始终是人类认识世界、驾驭风险的核心工具。而在AI时代,这门“反问题”科学正迎来前所未有的广阔天地——正如刘军所言:“统计学,没有上限。”
访谈完整版视频请关注东方卫视《锚点》栏目。