关于统计学的新认知 (original) (raw)
2024-04-13 22:52:29 已编辑 江西
现代统计学是当年大学的必须课之一,还很喜欢当年的各种数据推断和概率推算的时光。还记得有好些作业,都是调查问卷的形式,忙忙碌碌的收集分析数据写报告。突然看到一本书说当年大学学的常规数据分析都是建立在逻辑错误的基础上,一下子让我有了满满的阅读动力。
这本让我惊奇的书就是数学家、统计学家、加州大学伯克利分校应用数学博士奥布里·克莱顿著作《伯努利谬误》,他让我们看到了数据化今天,某些藏在数字背后的真相和误区。在书中详细的梳理了统计学的前世今生,也带我们回顾一些著名争论,是身处大数据时代的我们值得一读的好书。
书名问题必须关注,伯努利推断问题的策略是“取一个足够大的样本让你在道德上是确定的,无论这对你而言意味着什么,样本中的比例都在你所期望的容忍范围内。因此,无论你观察到什么,都很可能接近陶瓮里的比例”。伯努利论证的核心谬误就是:抽样概率对于作推断是足够的。
印象最深刻的是谬误就是检察官谬误:假设嫌疑人是无辜的,那么案件的事实就不太可能发生,因此,嫌弃人不太可能是无辜的。这个逻辑类型的错误让许多人含冤受刑,克拉克连续两个儿子都早早夭折,本就心神俱疲难受的时刻还被指控谋杀罪,而梅多教授用闪电不会击中同一个人两次就推断两个婴儿因为婴儿猝死综合征的概率极低使得克拉克被判有罪并终生监禁,这真的是给本就经历丧子之痛母亲更沉重的一击,导致于最后虽然上诉成功,这位母亲也迟迟走不出来,最终酒精中毒而离世。
伯努利的概率推断为我们打开了一扇新世界的大门,那巧妙的数学处理让数据客观推断成为可能。但同时随着应用的广泛,这个谬误的种子又不断绊倒我们,威胁到科学医学法律等各领域的完整度。
如今的大数据时代必然是大概率时代,也是信息不完整和矛盾的时代,具有误导性的信息层出不穷。我们要牢记概率只是我们用不完美信息进行推断的能力编码,我们要理解这个边界,牢记丰富数据和知识不是一回事。同时也要思考如何更合适更恰当地使用统计学工具。
有关键情节透露