主页 > T生活书 >眼前的资讯越多,我们买的彩券赢面就越大? >

眼前的资讯越多,我们买的彩券赢面就越大?

眼前的资讯越多,我们买的彩券赢面就越大?

当你在掷硬币时,你知道落地的不是人头就是字。(虽然也有可能是边缘着地,但一篇论文计算出这样的机率每六千次中仅有一次,也为了本节的目的,我们就逕自忽略,假设铜板落地时不是人头就是字。就像《美国统计学家》(American Statistician)期刊中的一篇文章所指,我们也假设「掷硬币不能有偏误」,导致某一面朝上的机率大幅高于另一面。此外,我们的做法是抛掷,而不是旋转,根据「科学新知线上」〔Science News Online〕一篇文章所言,由于硬币的质量中心偏向人头那一面,旋转硬币的话,「字朝上的机率有 80%。」)

因此,抛掷一枚硬币,没有偏误,也非边缘着地的条件下,我们知道以下几件事:

硬币落地时,人头朝上的机率为 50%

硬币落地时,字朝上的机率也为 50%

如果你掷两次硬币,得到一次人头朝上、一次字朝上的机率也是 50%。

但这就是有趣的地方。

如果你掷十次硬币,得到五次人头朝上、五次字朝上的机率不是 50%,实际上不到 25%。

如果你掷一百次硬币,得到五十次人头朝上、五十次字朝上的机率约 8%。

什幺?

你在这里看到的,是(理论上)应该发生的事和实际发生的事的差别。硬币并不晓得它应该一半的时候人头朝上、另一半的时候字朝上。就算某件事是最可能发生的结果,也不表示一定会发生。

(很多人都被掷硬币弄糊涂了,比方说,他们认为,掷两次硬币,应该有 3 分之 1 的机会得到两次人头,3 分之 1 的机会得到两次字,3 分之 1 的机会得到一次人头和一次字。但是,因为一次人头和一次字的情况有两种──第一次人头而第二次字,以及第一次字而第二次人头──因此,得到两次人头的机率实际上是 4 分之 1,两次字的机会也是 4 分之 1,一次人头和一次字则是 2 分之 1。请记住,当你在做预测时,要考虑到所有结果。)

当然,你掷硬币越多次,每次得到的结果应该越接近 50% 对 50%。因为当你掷越多次,就是在扩大样本数,样本数越大──其他条件都相同之下──将让你得出更精準的结果。(不过,样本数大也不保证一定精準。1936年,《文学文摘》﹝Literary Digest﹞的一项调查收到了约两百三十万人回应,从中预测艾尔弗.兰登﹝Alfred Landon﹞在美国总统大选中将得到 57% 的选票,打败富兰克林.罗斯福﹝Franklin Roosevelt﹞。但实际上,罗斯福赢得了 60% 以上的选票。)现在,还记得我们在前面谈到,运用过去数据来预测未来?掷硬币是过去数据并不重要的範例之一。因为掷硬币是真正的随机事件(至少在我们描述的情况下),面对真正的随机事件,你无法用过去作为模型。

如果你掷十次硬币,十次都出现人头,下一次人头朝上的机率依旧是 50%。就算你掷一百次、一千次,甚至一百万次,每一次都是人头朝上,下一次人头朝上的机率依旧是 50%。因为我们已经有了一个已知模型,在这个模型中,硬币落地时,人头朝上的机率是 50%,字朝上的机率也是 50%。

很多人不了解这一点,直觉上,他们认为下一次一定是字朝上。但是,从统计上来说,这些人绝对错了。没错,你不太可能连续掷出十次人头,但是,这和未来完全无关。长期下来,会出现50%对50%的机率,但每一次掷硬币都是独立事件,和过去发生的事完全分开。

这便是「赌徒的谬误」──在连输几次之后,就觉得之后会赢。「但实际上,」德州农工大学做的一项研究指出,「赢的机率和之前并无二致。」

(好消息是,这可能也不是你的错。研究人员建构了一个人类大脑神经元的模型,发现喜欢交替模式﹝例如人头―字﹞的神经元数量,大幅超越喜欢重複模式﹝例如人头―人头﹞的神经元。真有意思。但是请记住,这是以模型为基础,而非真实的神经元。)

身为聪明的数据使用者,当你在分析预测时,要当心赌徒的谬误。请自问:预测的模型和过去的数据有关吗?还是,预测的是完全独立于过去的事件?

我们引用《乐透统计数据》(Lotto Stats)杂誌上的这段话供你深思:「你眼前的资讯越多,你买的彩券赢面就越大。」

好的,小朋友们,请把耳朵捂起来,因为这段话是废话,bullshit。

你知道什幺?

掷硬币是结果已知的事件。你可以做任何你想做的预测,但你知道结果最多就三种:人头、字,或者(如果你很重视技术面的话)边缘。

很多预测都是落在已知的範畴中,这纯粹是看衡量的方法。比方说,如果你试着预测以下这些事,你的选项就是有限的:

哪一队会赢得世界大赛

在期初预测你期末的微积分分数

你的对手会出剪刀、石头,还是布

另一方面,某些预测就有比较多的可能结果,甚至多到无限。比方说,如果你试着预测以下这些事,可能出现的结果範围就广得多:

五十年后谁会成为美国总统

明年广播电台会放什幺歌

十年后你的职称是什幺(要考虑到未来某些工作,今日甚至还不存在)

如果你能够限制可能的结果,你的预测将会出现显着变化,也可以降低预测误差。我们可以在每一年职棒大联盟季后赛被淘汰的队伍中看到这一点,每次有队伍被淘汰,留下的队伍赢得世界大赛的机率就大幅提高。

在短期间做的预测会比较精準(前提是其他条件都相同),同样的,在某些时候,藉由限制可能的结果,你也可以做出更好的预测。

一如往常,人们如何使用数据,都是值得注意的重点。比方说,你说你今天晚上吃披萨的机率是百分之百,与下星期吃披萨的机率是百分之百,从机率上来说,是两件不同的事。前面这句话要成立,表示你知道你今天晚上会吃披萨。至于后者,你可以下星期每个晚上都吃披萨,或者,七天里有一个晚上吃披萨就算成立。

有些人会交错使用「机率」和「胜率」两个词,但是这两者并不相同,人们经常误用。机率是某个结果发生的可能性。胜率,从统计上来说,是指乐见的结果对不乐见结果的比率。

想像你手边有一副标準的五十二张扑克牌,你从中抽出一张。

你抽到花牌(J、Q、K)的机率是23%(一副牌里有十二张花牌,12除以52是23%)

你抽到花牌的胜率是 12:40(一副牌里有十二张花牌和四十张数字牌)

机率和胜率有关──你可以根据其中一个计算出另一个──但并不相同。

谈到未来事件,你或许也听过「风险」一词。风险是另一个麻烦词彙,对于不同的人来说,可能有不同的意义──如果你身在投资或保险产业,更是如此。然而,一般而言,风险不仅计入事件事件发生的机率,也考量了结果。

举例来说,麦可很会玩杂耍,当他抛苹果时,失误让苹果掉到脚上的机率是1%;当他耍剑时,失误让剑掉到脚上的机率也是 1%。机率相同,但风险大不同。(《纽约时报杂誌》的〈在大自然的赌场里〉是一篇让人着迷又惊心的文章,谈的是巨灾风险,以及低估飓风造成的灾害,如何让美国保险业几乎破产。)

机率低,并不代表不会发生。《大西洋月刊》(Atlantic)刊出一篇文章,文中说道,美国联邦航空总署(FAA)对某些零件的标準是「失灵机率 10 亿分之 1」,也就是 10 的负 9 次方。「联邦航空总署说,这样的标準可以说是『不可能』。」但这并不是不可能。如果统计做对的话,这 10 亿分之 1 的机率,实际上可能就在十亿次当中发生一次。

就像伯格提到的,这正是赌场不会放比尔.盖兹进来下一笔 50 亿美元赌注的理由。「如果这家赌场是全世界最倒楣的一群人的话,这笔赌注将会让他们破产。」

尤其是,当你检视大规模的数据集合时,你可以预期,你会看到这些机率极低的事件真的发生了。就像《华尔街日报》一篇讨论乐透选号的文章提到的,「全世界每个星期有数百万人在为数百种乐透选号,一定会发生巧合。」

来看看黑天鹅的範例。几百年前,人们假设不可能有黑天鹅,而这纯粹是因为他们过去从来没看过。但是,没看过黑天鹅,并不代表黑天鹅不存在,只是因为我们没看过罢了──或者说,还没看过。如今,「黑天鹅」用来指称可能性极低,然而,一旦发生就会造成极大冲击的事件。这个词因为纳西姆.尼可拉斯.塔雷伯(Nassim Nicholas Taleb)而流行起来,他撰写了大量以不确定性为主题的文章。还没发生的事,不代表不能、或者不会发生。黑天鹅确实存在。



上一篇: 下一篇:

相关阅读RELEVANT