无限非概率(失控玩家结局什么意思)

资料来源:tandfonline艺术经纬:我好困【新智元导读】通常我们认为,人工智能的发展要归功于算力的突飞猛进。近日,哥伦比亚大学的教授发表论文揭示了近50年

资料来源:tandfonline

艺术经纬:我好困

【新智元导读】通常我们认为,人工智能的发展要归功于算力的突飞猛进。近日,哥伦比亚大学的教授发表论文揭示了近50年来其背后不为人知的统计学思想。

虽然深度学习和人工智能已经家喻户晓,但推动这场革命的统计突破却鲜为人知。

在最近的一篇论文中,哥伦比亚大学统计学教授Andrew Gelman和芬兰阿尔托大学计算机科学教授Aki Vehtari详细列出了过去50年中最重要的统计学思想。

无限非概率(失控玩家结局什么意思)插图

https://www . tandfonline . com/doi/full/10.1080/01621459 . 193853866

作者将这些统计思想分为8类:

反事实因果推断(counterfactual causal inference)自举法和基于模拟的推断(bootstrapping and simulation-based inference)超参数化模型和正则化(overparameterized models and regularization)贝叶斯多级模型(Bayesian multilevel models)通用计算算法(generic computation algorithms)自适应决策分析(adaptive decision analysis)鲁棒性推断(robust inference)探索性数据分析(exploratory data analysis)

1.反事实因果推理(反事实因果推理)

在假设条件下,因果识别是可能的,这些假设可以通过设计和分析以各种方式严格陈述和求解。

不同的领域发展了不同的因果推断方法。在计量经济学中,是结构模型及其对平均治疗效果的影响。在流行病学中,是观察数据的推断。

基于因果关系的识别是认知的核心任务,所以它应该是一个可以用数学形式化的可计算问题。路径分析和因果发现可以根据潜在的结果来构建,反之亦然。

2.自举方法和基于模拟的推理。

统计学的一个趋势是用计算代替数学分析,甚至在“大数据”分析开始之前。

Bootstrap方法将估计视为数据的近似充分统计量,将bootstrap分布视为数据采样分布的近似值。

同时,bootstrap方法由于其普适性和计算实现简单,可以应用于那些无法使用传统解析近似的场景,从而获得很大的影响力。

在替换测试中,通过随机打乱目标值来打破预测变量和目标之间的(可能的)依赖性,从而生成重采样数据集。

参数引导、先验和后验预测检查以及基于模拟的校准都从模型创建重复数据集,而不是直接对数据进行重新采样。

当分析复杂的模型或算法时,从已知的数据生成机制中采样通常用于创建模拟实验,以补充或取代数学理论。

3.超参数模型和正则化。

统计学的一个主要变化是使用一些正则化程序来拟合具有大量参数的模型,从而获得稳定的估计和良好的预测。

这是为了获得非参数或高参数方法的灵活性,同时避免过度拟合的问题。其中,正则化可以实现为一个参数或预测曲线上的罚函数。

模型的早期案例有:马尔可夫随机场、样条曲线和高斯过程、分类和回归树、神经网络、小波收缩、最小二乘法的替代和支持向量机。

贝叶斯非参数先验在无限维概率模型家族中也取得了很大的进展。这些模型都有一个特点,就是随着样本量的增加而扩大,参数并不总是直接解释的,而是一个更大的预测系统的一部分。

4.贝叶斯多层模型。

多级或分级模型的参数因组而异,使模型能够适应整群抽样、纵向研究、时间序列横截面数据、元分析和其他结构化设置。

多水平模型可以被视为贝叶斯模型,因为它们包括未知潜在特征或变化参数的概率分布。相反,贝叶斯模型具有多级结构,具有给定参数的数据和给定超参数的参数分布。

同样,贝叶斯推理不仅是一种结合先验信息和数据的方法,也是一种考虑不确定性进行推理和决策的方法。

5.通用计算算法(通用计算算法)

创新的统计算法是在统计问题结构的背景下发展起来的。EM算法、Gibbs抽样、粒子滤波、变分推理和期望传播以不同的方式利用了统计模型的条件独立结构。

Meropolis-Hastings算法和Hamilton Monte Carlo算法受统计问题的直接影响较小,它们类似于早期使用优化算法计算最小二乘和最大似然估计的方法。

被称为近似贝叶斯计算的方法可以通过模拟模型而不是评估似然函数来获得后验推断。如果似然的分析形式很难求解或者计算成本很高,那么可以使用这种方法。

6.适应性决策分析

通过效用最大化、错误率控制和经验贝叶斯分析,以及贝叶斯决策理论和错误检测率分析,可以看到自适应决策分析的发展。

统计分析的一些重要发展涉及贝叶斯优化和强化学习,它们与A/B测试实验设计的复兴有关。

随着计算的发展,可以使用高斯过程、神经网络等参数丰富的模型作为函数先验,进行大规模强化学习。比如创造AI来控制机器人,生成文本,下围棋等游戏。

这项工作大部分是在统计之外完成的,使用的方法有非负矩阵分解、非线性降维、生成对抗网络和自编码器,都是寻找结构和分解的无监督学习方法。

7.稳健推理(稳健推理)

稳健性概念是现代统计学的核心,其意义在于即使假设不正确,模型仍然可以使用。

统计学的一个重要部分是开发出在违反这些假设的情况下也能很好工作的模型。

一般来说,统计研究中稳健性的主要影响不在于具体方法的制定,而在于统计程序的评价,其中数据生成过程不属于拟合概率模型的范畴。

研究人员对稳健性的关注与密集参数模型有关,这是现代统计数据的特点,将对更一般的模型评估产生影响。

8.探索性数据分析(探索性数据分析)

探索性数据分析强调渐近理论的局限性以及开放探索和交流的相应好处。这符合统计建模的观点,即它更注重发现,而不是固定假设的检验。

计算的进步使从业者能够快速建立大规模的复杂模型,这导致了统计图表的想法,有助于理解数据、拟合模型和预测之间的关系。

总结

随着计算能力的增加,建模的需求必然增加,分析总结和近似的价值也随之增加。

同时,统计理论可以帮助理解统计方法的工作原理,数理逻辑可以激发新的数据分析模型和方法。

作者认为这些方法开辟了一种新的统计学思维方式和新的数据分析方法。

反事实框架将因果推断置于统计或预测框架中,在这种框架中,因果估计可以根据统计模型中未观察到的数据准确地定义和表达,并与调查抽样和缺失数据插值中的思想联系起来。

Bootstrap方法打开了隐式非参数建模形式的大门。可用于复杂调查、实验设计等无法分析计算的数据结构的偏差修正和方差估计。

过参数模型和正则化将现有的基于从数据中估计其参数的能力来限制模型大小的方法形式化和一般化,这与交叉验证和信息标准有关。其中,正则化允许用户在模型中包含更多的预测变量,而不用担心过拟合。

多级模型将从数据中估计先验分布的“经验贝叶斯”技术形式化,并在更广泛的问题类别中使用具有更高计算和推理稳定性的方法。

通用计算算法使应用实践者能够快速拟合因果推理、多级分析、强化学习和许多其他领域中使用的高级模型,从而对统计学和机器学习中的核心思想产生更广泛的影响。

自适应决策分析将最优控制的工程问题与统计学习领域联系起来,远远超出了经典的实验设计。

推理的鲁棒性允许不同程序的形式评估和建模来构造这些问题,以便处理其他错误地指定离群值和模型的模糊问题。稳健推断的思想为非参数估计提供了信息。

探索性数据分析将图形技术和发现推入统计实践的主流,并使用这些工具更好地理解和诊断适合数据的新的复杂概率模型类别的问题。

作者介绍

无限非概率(失控玩家结局什么意思)插图(1)

安德鲁·吉尔曼是哥伦比亚大学的统计学教授。曾获美国统计学会杰出统计应用奖、40岁以下统计学会会长理事会杰出贡献奖。

参考资料:

https://www . tandfonline . com/doi/full/10.1080/01621459 . 19638367

免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。

作者:美站资讯,如若转载,请注明出处:https://www.meizw.com/n/196622.html

发表回复

登录后才能评论