后浪出版公司

首页 > 图书 > 经管
  1. 简单统计学
  2. 简单统计学

简单统计学

  • 作者[美] 加里·史密斯
  • 译者刘清山
  • 出版社江西人民出版社
  • 出版时间2017年12月
  • 定价58.00元
  • 装帧平装
  • 开本1/16
  • 页数376
  • ISBN978-7-210-09841-6
  • 去有赞购买去天猫购买

耶鲁大学简单统计学课 让数据说实话是现代社会的基本生存技能

  1. 详细信息

《简单统计学》横版海报.jpg

著   者:[美] 加里·史密斯(Gary Smith)

译   者:刘清山                                    字  数:263千

书   号:978-7-210-09841-6                       页  数:376           

出   版:江西人民出版社                             印  张:23.5

尺   寸:165毫米×230毫米                         开  本:1/16

版   次:2018年1月第1版                        装  帧:平装

印   次:2018年1月第1次印刷                    定  价:58.00元

正文语种:中文                        出版者国别: 美国

正文用纸:轻型纸                     中图分类号:①C8

汉语词表主题词:管理-统计学

编辑推荐

 ◎ 耶鲁大学热门公开课,只需懂加减乘除就能看懂的统计学

    本书脱胎于耶鲁大学两度获得教学奖的热门公开课

    跟随一系列轻松又惊心动魄的案例,掌握统计学的基本原则

    诺贝尔经济学奖获得者罗伯特·希勒赞赏推荐

 

 ◎ 所谓清醒思考,就是用统计学思考

19种统计原则,让认知再次升级

数十个经典案例,为超过90%的生活场景提供直观借鉴

幽默而犀利的分析,平均每三页提供一次醍醐灌顶的体验

 

 ◎让数据说实话,是现代社会的基本生存技能

   《魔鬼统计学》颠覆常识的结论,到底错在哪里?

《追求卓越》归纳的成功经验,为何是隐蔽的陷阱?

日常生活中,有哪些自我欺骗的套路?

……

名人推荐

这是本非常有趣的书,却揭示了非常严重的问题。我们经常会被数据愚弄,是时候拆穿这些诡计了。

——罗伯特·希勒,诺贝尔经济学奖得主,《非理性繁荣》作者

 

 

统计学是金融领域极其常用的修辞方式。《简单统计学》帮助我们在统计学泛滥的时代学会认清真正有效的数据。史密斯教授帮了我们大忙。

——布莱恩·怀特 黑石公司总经理

 

加里·史密斯的《简单统计学》非常有趣,利用多样例子使读者真正理解统计学。读者也会发现很多他们曾经学过的知识是错误的,本书会告诉他们为什么。

——本杰明·弗里德曼,哈佛大学政治经济学教授

 

《简单统计学》很有趣,很八卦,却很有见地,本书注定会成为经典。加里·史密斯在书中分析了数不胜数因相信数据而吃亏的错误案例,帮助读者知道如何去避免,这比单纯地讲大道理有用多了。        

——爱德华·E·雷姆,加州大学洛杉矶分校教授


著者简介

加里·史密斯,耶鲁大学博士,曾在耶鲁大学任教7年,其间两度获得教学奖,他的课程因结合日常生活中的常见实例、深入浅出地分析数据而火暴异常。

译者简介

刘清山,清华大学毕业,译有《横向领导力》《女士品茶》《那些你以为地球人都知道的事情:科技篇》等作品。

内容简介

允许堕胎可以降低犯罪率;

卓越公司有共同的特质;

早晨喝一整壶咖啡可以延年益寿,每天喝两杯咖啡会增加患癌的风险;

……

上述结论都是专业人士甚至是著名学者精心研究所得。如果你相信它们,你也应该信任章鱼保罗对世界杯的预测。

现代人被数据所包围,无论是学习、工作,还是日常生活,都习惯了用数据说话,可怕的是,骗子也学会了用数据说话。若要清醒思考,你需要学点统计学。

《简单统计学》脱胎于耶鲁大学热门统计学课程,加里·史密斯教授在书中巧妙地揭示了生活中的各种数据骗局,并用简单的统计学原理揭穿了其中的把戏,行文轻松幽默而又逻辑缜密,堪称一堂别开生面的统计课。

翻开本书,轻松掌握统计学背后的科学机制,掌握从数据中获取真知的技巧,全面升级你的认知。

简  目

序 言

 1 模式、模式、模式

 2 不再神奇的超级畅销书

 3 被误传的谋杀之都

 4 新的经济学上帝

 5 扬基队的门票真的划算吗?

 6 美国有多少非裔职业运动员?

 7 辛普森悖论

 8 状态火热的雷·阿伦

 9 胜者的诅咒

 10 如何转变运气?

 11 德克萨斯神枪手

 12 终极拖延

 13 黑色星期一

 14 点球成金

 15 特异功能真的存在吗?

 16 彩票是一种智商税

 17 超级投资者

 18 增长的极限

 19 何时相信,何时怀疑

出版后记

 

前  言

我们生活在大数据时代。高性能计算机和全球网络的强大组合正在得到人们的赞美甚至推崇。专家不断告诉我们,他们发现了一种新的能力,可以对海量数据进行筛查并发现真相,这将为政府、商业、金融、医疗、法律以及我们的日常生活带来一场革命。我们可以做出更明智的决策,因为强大的计算机可以对数据进行分析,发现重要的结论。

也许事实的确如此,也许未必。有时,这些无所不在的数据和伟大光明正确的计算机会得出一些非常怪异的结论。例如,有人一本正经地宣称:

Ø 凌乱的房间会强化人们的种族主义倾向。

Ø 还未出生的小鸡胚胎会对计算机的随机事件生成器产生影响。

Ø 当政府负债相对国内生产总值的比率超过 90% 时,国家几乎一定会陷入衰退。

Ø 在过去 20 年美国犯罪率下降的原因中,合法堕胎的比例高达 50%。

Ø 如果每天饮用两杯咖啡,患上胰腺癌的风险将极度放大。

Ø 最成功的公司倾向于变得不那么成功,最不成功的公司倾向于变得

Ø 更加成功,因此用不了多久,所有公司都会沦为普通的公司。

Ø 出现在《体育画报》和《麦登橄榄球》封面上的运动员会受到诅咒,他们可能会陷入平庸,或者受到伤病困扰。

Ø 生活在输电线附近的儿童具有更大的患癌风险。

Ø 人类有能力将死亡推迟到重大仪式过后。

Ø 亚裔美国人更容易在每月四号突发心脏病。

Ø 如果一个人的姓名首字母缩写拥有积极的含义(比如 ACE),那么他可以多活三到五年。

Ø 平均来说,教名(第一个名字)以字母 D 开头的棒球运动员的寿命比教名以字母 E 到 Z 开头的运动员短两年。

Ø 临终病人可以被几千英里以外传送过来的积极心理能量治愈。

Ø 当 NFC 冠军球队赢得超级碗(美国超级碗总决赛在国家联合会(NFC)和美国联合会(AFL)分别比赛产生的冠军之间举行 — 译者注)时,股市几乎一定会上涨。

Ø 如果你购买股息率最高、每股价格第二低的道琼斯股票,你就可以跑赢大盘。

这些说法显然是错误的。不过,许多与此类似的说法每天都会出现在报纸和杂志上。在如今的信息时代,我们用没完没了而又毫无意义的数据指导我们的思想和行动。不难看出为什么我们会反复得出错误的推论,制定糟糕的决策。即使能够得到比较充足的信息,我们也不会永远注意到数据的偏差性和无关性,或者科学研究的缺陷和误导性。我们倾向于相信计算机从不犯错,认为不管我们把什么样的垃圾扔进去,计算机都会吐出绝对真理。这种想法不仅存在于外行人的日常生活中,也存在于专业人员严肃认真的研究工作中。在流行刊物、电视、互联网、竞选活动、学术期刊、商业会议、法庭,政府听证会,此类现象屡见不鲜。

几十年前,数据非常稀少、计算机还没有出现时,研究人员需要努力收集优质数据并进行审慎的思考,然后花费几个小时甚至几天的时间从事艰苦的计算工作。现在,面对丰富的数据,研究人员通常不会花费太多的时间对优质数据和垃圾进行区分,或者对合理分析和垃圾科学进行区分。更糟糕的是,我们常常不假思索地认为,我们对大量数据的处理永远不会出错。我们匆匆忙忙地根据这些机器发出的梦呓制定决策 — 比如在衰退过程中增加税收,将我们一生的积蓄交给一些说得天花乱坠的财务分析师,根据最新的管理理念制定商业决策,用医疗骗术危害我们的健康 — 更糟糕的是,我们还会放弃心爱的咖啡。

罗纳德·科斯(Ronald Coase)曾经嘲讽道:“如果你对数据拷打足够长的时间,它一定会招供。”《简单统计学》一书考察了几十个扭曲的结论。只需片刻的思考,你就会发现这些结论的问题。有时,无耻之徒故意用这些说法来误导我们。有时,天真快乐的研究人员并没有意识到他们所制造的恶作剧。我写这本书的目的是帮助我们远离错误 — 包括外部错误和自己造成的错误。你将学到一些简单的指导准则,用于识别其他人或者你自己说出的不靠谱的观点。其他人用数据欺骗我们,我们也经常用数据欺骗自己。

 

正文赏读

第一章 模式、模式、模式

在我所生活的南加州,青少年对于足球的热情很高。这是一项经济而有趣的运动,各种身高和体型的男生和女生都可以参与其中。起初,我对足球一无所知。我只知道在每个周末,城市里的公园和操场上都会有许多身穿鲜艳队服的孩子追着足球跑来跑去,他们的家长则会站在一旁为他们欢呼。当我的儿子长到合适的年龄时,我们也成了这些家长中的一员。

2010 年世界杯时,我的儿子在南加州一家顶级足球俱乐部踢球。我是这家俱乐部的经理,也是足球的狂热爱好者,因此我们共同观看了我们能够看到的每一场世界杯比赛。决赛是在荷兰和西班牙之间进行的。

这是两支巨星云集的队伍,但是它们所在的国家常常无法取得很好的成绩,这使它们的支持者非常失望。哪个国家最终能够赢得世界杯?我喜爱荷兰队,他们赢得了这届世界杯之前的 6 场比赛,进了 12 个球,只丢了 5 个球,而且淘汰了强大的巴西和乌拉圭。接着,我听说了章鱼保罗(Paul)的故事。人们将装有食物、贴有国旗的塑料盒子放在保罗面前,让它进行选择。通过这种方式,保罗正确预测出了 7 场世界杯比赛的获胜者。在决赛前,预言家保罗选择了西班牙,因此全世界似乎都认为西班牙将会成为胜利者。

到底发生了什么事情?一只黏糊糊的、缺乏智商的无脊椎动物怎么可能比我更加了解足球呢?我感到好笑,等待着无所不知的保罗在全世界面前丢脸。我失算了。荷兰队没有表现出应有的创造性和才华。在一场粗暴而蹩脚的比赛中,裁判亮出了 14 张黄牌 — 其中 9 张给了肮脏的荷兰人。凭借终场前 4 分钟的进球,西班牙队取得了胜利。

生活在水箱里的章鱼怎么可能预见到这种事情呢?保罗看过足球比赛吗?它有大脑吗?

实际上,章鱼是最聪明的无脊椎动物。不过,就像矬子里拔出来的将军一样,这并不能说明任何问题。尽管如此,保罗仍然进行了 8 次世界杯预测,而且无一失手。此外,保罗还在 2008 年欧洲足球锦标赛期间进行了 6 次预测,成功了 4 次。加上 2010 年世界杯,保罗一共进行了 14次预测,成功了 12 次。在许多人看来,这足以从统计上证明保罗的超自然能力。不过,这些数据真的足够多吗?

如果进行 14 次公平的抛硬币实验,得到 12 次或者 12 次以上正面的可能性只有不到 1%。同样的道理,如果保罗仅仅是一个没有特殊运气的猜测者,每次正确预测的可能性为 50%,那么它多次预测成功的概率只有不到 1%,这个概率非常低,足以被视作具有“统计显著性”。由于保罗多次预测成功的可能性如此之低,因此我们可以合理地排除运气的成分。保罗用一次又一次的成功证明了它不仅仅是一个幸运的猜测者。它的确是“具有超能力的章鱼保罗”!

不过,这件事似乎有些蹊跷。章鱼真的有可能预测未来吗?保罗的表现可以引出统计研究领域的一些常见问题。保罗不是超能力者(真是令人惊喜),而是一个应当引以为戒的反面教材。当你下次听到某种荒诞的说法时,你应当保持警惕。

 

Ø 混杂效应

首先,让我们看一看保罗是如何进行预测的。在喂食的时候,人们会把两只正面粘有球队国旗的透明塑料盒子摆放在保罗面前。盒子里面放着相同的美味食物,比如贻贝或者牡蛎。保罗第一个打开的盒子就是它所预测的胜利者。

章鱼并不十分了解足球,但它们拥有出色的视力和良好的记忆力。

有一次,新英格兰水族馆的一只章鱼对一名志愿者产生了反感。每当它看到这名志愿者时,它都会向她喷射海水。后来,这名志愿者离开了水族馆,上了一所大学。当她几个月以后回来时,章鱼仍然记得她,并且立即用海水淋湿了她的衣服。西雅图一家水族馆做了一项实验,一名志愿者为章鱼喂食,另一名穿着同样衣服的志愿者用木棍挑逗章鱼。一个星期以后,大多数章鱼都能将两个人区分开。当它们看到“好人”时,它们会向他靠近;当它们看到“坏人”时,它们会离开(有时还会向他喷射许多海水)。

“具有超能力的章鱼保罗”生活在德国的一家水族馆里。除了西班牙和荷兰的世界杯决赛,保罗只预测了德国队参加的比赛。在德国参加的13 场比赛中,保罗 11 次选择了德国 — 而德国赢下了其中的 9 场比赛。

保罗之所以选择德国,是因为它对德国的对手进行了详细的分析,还是因为它喜欢德国国旗?保罗几乎一定是色盲,不过实验表明,章鱼能够识别明暗度,而且喜欢横向形状。德国国旗有由三块鲜艳的水平条纹组成,塞尔维亚和西班牙的国旗也是如此,而保罗只选择过这三个国家。

实际上,西班牙和德国的国旗非常相似,这也许可以解释为什么保罗在西班牙和德国之间的两次比赛中选了一次西班牙,并在世界杯决赛中选择了西班牙而不是荷兰。保罗只有一次没有选择德国或西班牙国旗,那是塞尔维亚和德国之间的一场比赛。

国旗显然是一个混杂因素,因为保罗选择的并不是最佳足球队,而是它最喜欢的国旗。说到底,“无所不知的保罗”只是一只缺乏智商的章鱼而已。 

Ø 选择性报告与谎报

对于保罗的成功,另一种解释是,许多人多次尝试过这种愚蠢的宠物把戏,用宠物来预测体育、彩票和股票领域的获胜者。在 1000 个抛硬币的人之中,一定会有一些人连续抛出 10 次正面。同样的道理,在这些尝试宠物把戏的人之中,一定会有一些人取得成功。你觉得谁会得到报道呢?是选中获胜者的章鱼,还是无法做出成功预测的鸵鸟?

几年前,《达拉斯晨报》的一位体育专栏作家度过了极为倒霉的一个星期,他在选择国家橄榄球联盟(NFL)比赛的获胜球队时猜对了 1 次,猜错了 12 次,还有一场比赛是平局。他写道:“理论上说,如果让达拉斯动物园里的一只狒狒观看 14 场 NFL 比赛的赛程,让它为每场比赛选择一支球队,它可以至少选出 7 支获胜球队。”第二个星期,拉达斯动物园里的大猩猩“坎达大帝”(Kanda the Great)通过选择训练员手里的纸条进行了预测。结果,坎达猜对了 9 次,猜错了 4 次,击败了《达拉斯晨报》的所有 6 位体育专栏作家。媒体像发现食物的饿狼一样争相报道这个故事。不过,如果坎达的表现没有这么好,比如猜对 6 次,猜错 7次,它还会被人报道吗?

明尼苏达州苹果谷市明尼苏达动物园的官员也不甘示弱,他们表示,一只叫做明迪(Mindy)的海豚成功预测出了 NFL 比赛的结果。他们制作了一些树脂玻璃片,每个玻璃片上写有不同球队的名称。他们将每场比赛对应的两块树脂玻璃片扔到明迪的游泳池里,被明迪交还给训练员的那块玻璃片被视作它的“预测”。训练员表示,明迪在 53 场比赛中猜对了 32 场。根据这种说法,明迪的成功率为 60%,这足以帮助人们借此赢得橄榄球比赛的赌博而获利。

有多少鸟儿、蜜蜂和野兽曾经尝试预测 NFL 比赛、并且由于预测失败而没有得到报道呢?我们并不知道这一点,而这正是问题的关键。如果数百只宠物曾经被迫进行毫无意义的预测,而且我们只知道其中得到报道的成功宠物,没有考虑到数百只没有得到报道的失败宠物,我们就会产生错误的想法。

这个问题不限于橄榄球领域。明尼阿波利斯的一名股票经纪人曾经吹嘘说,当他选择股票时,他会把《华尔街日报》铺在地板上,让它的金毛寻回犬把右前爪放在报纸上,然后选择它的第一个指甲碰到的股票。

他认为这种说法可以吸引投资者的关注,这一事实说明他本人可能是有问题的 — 他的顾客可能也有问题。

另一个因素是,为了出风头,人们可能会捏造数据,以吸引公众的注意。明尼阿波利斯那个股票经纪人和他的狗每天早上都会得到公正的监督吗?过去,桥牌曾经是美国最流行的扑克游戏,当时有许多人向当地报纸表示,他们抽到了同一花色的十三张牌。一位喜欢数学的桥牌选手通过估计发现,出现这种情况的数量太过离谱。考虑到抽到这种牌的可能性,当时进行过的总局数远远不足以产生如此众多的“同花色局”。

值得注意的是,报纸报道的这种相同花色通常是黑桃。显然,为了让自己的名字出现在报纸上,人们对自己的经历进行了润色。

在章鱼保罗获得全世界的关注以后,新加坡一个之前默默无闻的算命先生表示,他的助手、长尾小鹦鹉马尼(Mani)正确预测出了世界杯四分之一决赛的所有四支获胜球队。于是,马尼获得了全世界的关注。

接着,它对后面的比赛进行了预测,认为在半决赛中乌拉圭将击败荷兰,西班牙将击败德国,在决赛中,西班牙将击败乌拉圭。在荷兰战胜乌拉圭以后,马尼改变了它对决赛的预测,选择了荷兰,这个结果当然又错了。不过,前来拜访这位算命先生的顾客从每天 10 个人增加到了每小时10 个人 — 面对这个结果,你可能会产生疑问:这位主人的动机真的仅仅是娱乐吗?他最初提供的马尼对四分之一决赛的预测结果是真的吗?

保罗和马尼本应默默无闻,处于无人知晓的状态。为什么它们会声名鹊起、受到足球爱好者的认真对待,甚至受到他们的赞美和诅咒?真正有问题的不是它们,而是我们自己。

Ø 易受欺骗的本性

一个多世纪以前,夏洛克·福尔摩斯(Sherlock Holmes)向他饱受折磨的朋友华生(Watson)恳求道:“数据!数据!数据!我不能在没有黏土的情况下制造砖块。”今天,福尔摩斯的愿望已经得到了满足。强大的计算机可以对海量数据进行筛选。问题不再是我们没有足够的数据,而是我们眼前的数据对我们产生了误导。这不完全是我们的错。我们可以将责任归咎于我们的祖先。

某些性状的演化原理比较简单。如果生物的某些可遗传特点能够帮助它们生存和繁衍,那么同那些在其他方面相似,但是没有这些特点的个体相比,拥有这些特点的个体更容易将它们传给未来的后代。经过一代又一代的传递,这些可遗传的特点将成为群体的主流。

桦尺蠖著名的演化历程是一个简单而直观的例子。这种飞蛾大部分时间生活在树上,它们通常是浅色的,这种颜色可以帮助它们躲避鸟儿的捕食。1848 年,英国发现了第一只深色桦尺蠖。到了 1895 年,曼彻斯特 98% 的桦尺蠖都是深色的。到了 20 世纪 50 年代,情况再次出现了逆转。目前。深色飞蛾已经很少见了,而且可能很快就会灭绝。

进化论的解释是,深色飞蛾的出现与工业革命导致的污染相重合。

煤灰和烟雾导致树木变黑,这使深色飞蛾获得了优势,因为它们可以更好地伪装自己,躲过捕食者的视线。由于深色飞蛾存活下来并繁衍后代的可能性得到了提高,因此它们开始成为基因池的统治者。后来,英国的空气清洁法律扭转了这一局面,因为浅色飞蛾可以更好地在没有污染的树上伪装自己。它们的生存优势使它们再次焕发了生机。

自然选择的其他例子更加微妙。例如,许多研究发现,男性和女性更喜欢具有对称面孔和身体的人。这不仅仅是一种文化因素 — 它适用于不同的社会,适用于婴儿,甚至适用于其他动物。在一项实验中,研究人员剪掉了一些雄性家燕的尾羽,使它们失去了对称性。其他雄性家燕则保留了对称的尾羽。当他们在这个基因池中放开雌性家燕时,这些雌性家燕选择了带有对称羽毛的雄性家燕。这种对于对称性的偏爱并不仅仅是一种肤浅的行为。缺乏对称性的潜在配偶显然存在某种基因缺陷,可能影响它的力量、健康和生育力。拥有对称性偏好的个体最终将成为基因池的统治者,而缺乏这种偏好的个体拥有强壮、健康和可育后代的可能性要低一些。

进化也是许多人对保罗和马尼信以为真的原因,尽管你可能不相信这一点。我们对于对称性的内在偏好,可以很好地说明我们的人类祖先是如何通过识别各种模式在这个残酷的世界上生存和繁衍的。乌云常常是降雨的前奏。灌木丛中的声音可能是捕食者发出的。毛发质量是繁殖力的象征。一些远古祖先可以通过模式识别更好地寻找食物和水源,发现危险,对可育伴侣产生吸引力,他们将这种能力传给了未来的后代。

那些不太擅长模式识别,因而不太容易生存和繁衍的个体将基因传下来的可能性要小一些。通过无数代自然选择,我们形成了寻找模式并对其做出解释的内在倾向 — 乌云会带来降雨,捕食者会发出声音,繁殖力强的成年人拥有漂亮的毛发。

遗憾的是,这种适用于远古祖先的模式识别技能并不能很好地适应我们的现代生活,因为我们面对的数据非常复杂,不是很容易解释。我们解释眼前事物的内在愿望导致了两种认知错误。首先,我们很容易被模式以及解释模式的理论所引诱。其次,我们紧盯着支持这种理论的数据,忽视与之相矛盾的证据。我们相信这些故事,因为它们与我们观察到的模式相符。一旦我们接受了这些故事,我们就很难放弃它们了。

当你在双骰赌桌上不断摇出七点时,你认为自己将继续保持连胜势头,因为你希望如此。当你不断投出两点时,你认为自己转运的时候到了,因为你希望如此。我们并没有认真地考虑过,骰子既不会记忆过去,也不会关心未来。它们是没有生命的;它们所具有的意义完全是我们这些满怀希望的人类赋予它们的。如果连胜势头持续,或者连败势头终止,我们就会更加相信自己想象出来的理论是正确的。如果这种情况没有出现,我们就会制造一些借口,以便坚持自己荒谬的信仰。

当运动员穿上没有洗过的幸运袜子,当投资者购买热门股票,当人们投入大笔资金购买不良资产、相信它们一定会触底反弹时,他们的行为和上面如出一辙。我们渴望使不确定的世界变得更加确定,渴望控制我们无法控制的事物,渴望预测那些无法预测的现象。如果我们穿着这种袜子取得了良好的表现,那么这一定是袜子的功劳。如果其他人购买这只股票赚了钱,那么我们购买这只股票也可以赚钱。如果我们运气不好,那么我们一定会转运,不是吗?秩序比混乱更加令人舒适。

由于这些认知错误,我们很容易受到各种统计性骗局的蒙蔽。当人们用毫无意义的模式来证明政府政策的后果、营销计划的不凡影响、投资策略的成功或者保健品的效果时,我们很容易认为这些模式是有意义的。由于我们在内心深处希望理解这个世界,因此我们形成了这种声名狼藉的、很难摆脱的弱点。

 

Ø 无论文,不生存

即使是受教育程度很高、应当具有冷静头脑的科学家也很容易受到模式的诱惑。在残酷的学术研究领域,聪明好胜的科学家一直在追求名誉和资助,以维持他们的事业。这种必要的支持是由他们在同行评议期刊中发表的成果决定的。“无论文,不生存”是大学生活中的一个残酷现实。

有时,在巨大的压力面前,研究人员甚至会撒谎和作弊,以实现个人的职业发展。为了生存,他们需要得到能够发表的结果,但他们的实验结果并不符合预期,这使他们感到沮丧;此外,他们还会担心其他人抢先发表类似的结果。因此,这些研究人员有时会对实验数据做手脚。

毕竟,如果你相信你的理论是正确的,那么编造出证明这种理论的数据又有什么关系呢?

英国医生安德鲁·韦克菲尔德(Andrew Wakefield)制造的疫苗恐慌就是这种欺骗的一个严重案例。1998 年,韦克菲尔德和其他人在久负盛名的英国医学期刊《柳叶刀》上发表了一篇论文,称 12 名正常儿童在接种麻疹、腮腺炎和风疹(MMR)的疫苗以后患上了自闭症。实际上,在发表这篇论文之前,韦克菲尔德已经在一场新闻发布会上公布了他的研究成果,并且呼吁停止接种麻腮风三联疫苗。

许多家长看到了这方面的新闻报道,对于之前的例行程序产生了疑虑。他们的孩子患上自闭症的可能性似乎比感染麻腮风的可能性更加令人担忧;毕竟,后者在英国几乎已经绝迹了。一百多万名家长拒绝让他们的孩子接种麻腮风疫苗。

虽然我住在美国,但我和我的妻子也读到了这些新闻故事,并且产生了忧虑情绪。我们在 1998 年、2000 年和 2003 年生下了 3 个儿子,并在 2006 年生下了 1 个女儿,因此我们需要决定是否为他们接种疫苗。我们进行了调研,同一些医生进行了交谈。所有医生都对韦克菲尔德的研究持怀疑态度。他们指出,没有任何证据表明自闭症正在变得更加流行;我们之所以听到更多的自闭症案例,是因为自闭症的定义近年来得到了拓宽,而且医生和家长对于自闭症症状的意识有所提高。另一方面,麻疹、腮腺炎和风疹是极具传染性的疾病,它们之所以在许多国家得到了有效的清除,恰恰是因为这些国家推行了常规免疫接种计划。如果我们的孩子不接种疫苗,不仅他们会面临危险,其他孩子也会陷入危险之中。

此外,这项研究样本很小(只有 12 个孩子),而且作者似乎急于将其公之于众,这些都是很大的疑点。最终,我们决定为我们的孩子接种麻腮风疫苗。

不是只有我们遇到的医生产生了怀疑。一些人试图复制韦克菲尔德的结果,但他们并没有发现自闭症和麻腮风疫苗之间的任何关系。更糟糕的是,伦敦《星期日泰晤士报》记者布赖恩·迪尔(Brian Deer)在2004 年进行了一项调查,在韦克菲尔德的研究中发现了一些可疑的反常之处。韦克菲尔德的研究似乎得到了一些律师的资助,这些律师希望接到针对医生和制药公司的利润丰厚的人身伤害诉讼。更加令人吃惊的是,韦克菲尔德本人显然正在计划推出一种替代性疫苗,他认为这种疫苗是安全的。韦克菲尔德的结论是否受到了这些利益冲突的影响?

韦克菲尔德声称自己并没有做出不道德的行为,但迪尔并没有停止挖掘。他发现了一些更加可恶的事情:韦克菲尔德论文中的数据与英国国民健康服务系统的官方医疗记录不符。在韦克菲尔德声称患上倒退型自闭症的 9 名儿童中,只有一个人被明确诊断出了这种疾病,还有 3 个人根本没有患病。韦克菲尔德声称 12 个孩子在接种麻腮风疫苗之前“是正常的”,但是其中 5 个人拥有发育问题的历史记录。

韦克菲尔德这篇论文的大多数共同作者很快撇清了自己与文章的关系。《柳叶刀》2010 年撤销了这篇论文,并表示,“论文中的说法显然是完全错误的,这是一件毫无疑问的事情。”《英国医学期刊》称韦克菲尔德的研究是“精心策划的骗局”,英国医学总会禁止韦克菲尔德在英国行医。遗憾的是,这个错误还是造成了一些损失。到目前为止,已经有数百名没有接种的儿童死于麻疹、腮腺炎和风疹,还有数千名儿童处于危险之中。2011 年,迪尔获得了英国新闻奖,因为他对韦克菲尔德的调查“很好地纠正了一个错误”。我们只能祈祷韦克菲尔德的真面目能够像他的虚假警报一样得到媒体的大量报道,希望家长能够再次允许他们的孩子接种疫苗。

疫苗是一种注射到人体中的病原体,因此人们对疫苗的担忧存在一定的合理性,尤其是与孩子的安全有关的疫苗。不过,那些不合理的结论呢?人为制造的数据能够使我们相信那些明显具有荒谬性的观点吗?

迪德里克·斯塔佩尔(Diederik Stapel)是一位极为多产、成功的荷兰社会心理学家,以设计全面细致的调查方案著称,这些方案通常以研究生或同事为调查对象。奇怪的是,作为一名高级研究员,他竟然亲自开展调查,而且很可能是在只有他能够进入的学校里进行的。另一件奇怪的事情是,斯塔佩尔常常知道同事的研究兴趣,并且声称他已经收集到了同事需要的数据;斯塔佩尔可以提供这些数据,条件是他需要被列为研究报告的共同作者。

斯塔佩尔是几百篇论文的作者或共同作者,他还在 2009 年获得了实验社会心理学会的职业轨迹奖。2010 年,他当上了蒂尔堡社会和行为科学学院的院长。斯塔佩尔的许多论文具有争议性,但是至少看上去比较合理。不过,另一些论文已经超出了看似合理的界限。在一篇论文中,斯塔佩尔声称,凌乱的房间会加剧人们的种族主义倾向。在另一篇论文中,斯塔佩尔认为吃肉 — 甚至仅仅是考虑吃肉 — 会使人变得更加自私。(是的,我没有开玩笑!)

斯塔佩尔的一些研究生对于这些稀奇古怪的理论产生了怀疑,他们想要查看实际数据,以了解这些数据是如何支持他的理论的。令人失望的是,斯塔佩尔拒绝向他们展示调查数据。他们把这件事报告给了心理系主任。很快,斯塔佩尔承认,他的许多调查结果要么进行了篡改,要么完全是编造的。他解释说:“我想以很快的速度做出许多成果。”

2011 年,斯塔佩尔被停职,随后被蒂尔堡大学解雇。2013 年,斯塔佩尔放弃了自己的博士学位,并且撤销了 50 多篇含有虚假数据的论文。他还同意从事 120 小时的社区服务,并且放弃与 18 个月薪水相当的利益。作为交换,荷兰检察官同意不对他滥用公共研究基金的行为提起刑事指控,因为这些政府拨款主要用于支付研究生的工资,而这些研究生并没有犯下任何错误。与此同时,我们在吃肉和弄乱房间时也可以减少几分愧疚感。

伪造数据的另一个例子涉及超感知觉(ESP)测试。早期超感知觉实验使用心理学家卡尔·齐纳公爵(Duke Karl Zener)设计的一副纸牌。

这副纸牌共有 25 张牌,包括 5 种符号:圆圈、十字、波浪线、方块和星星。在洗过牌以后,“发送者”依次查看每张纸牌,“接收者”需要猜测纸牌上的符号。 

一些怀疑者指出,接收者可以偷看纸牌,或者从发送者的行为中寻找细微的线索,比如快速扫视、微笑或者挑眉,从而获得较高的分数。沃尔特·J. 利维(Walter J. Levy)是超感知觉先驱 J. B. 莱因(J. B.Rhine)创立的通灵学研究所主任。为了平息上述批评,利维用计算机和非人类对象做了一些实验。在一项实验中,他把包含小鸡胚胎的鸡蛋放在孵化器里,并用一个电灯为孵化器加热,电灯的开关由计算机随机事件生成器控制。随机事件生成器开灯的可能性是 50%。不过,利维表示,小鸡胚胎能够对计算机产生影响,使电灯打开的时间超过一半。

利维的一些同事对这些“具有心灵感应能力的小鸡”产生了怀疑(我倒希望这是真的),而且对于利维在实验期间对设备的过度关注感到困惑。他们对计算机进行了改动,使之能够将结果秘密记录下来。然后,他们躲在一个隐秘的地方,对实验进行了观察。他们的担忧得到了证实。

秘密记录表明,电灯打开的时间只占总时间的一半。而且,他们看到利维对设备进行了干预,将电灯打开的时间提高到了 50% 以上。面对同事的质问,利维承认了自己的行为,并且辞去了职务。后来,他解释说,为了发表论文,他面临着很大的压力。

 

Ø 统计显著性膜拜

不过,我们最感兴趣的例子与虚假数据无关。这些例子涉及的做法更加微妙,更加常见。许多人对统计显著性非常关心。这是一种奇怪的宗教,它受到了研究人员近乎盲目地崇拜。假设我们想要通过检验了解,每天服用阿司匹林能否降低心脏病发作的风险。理想情况下,我们会对健康个体的两个随机样本进行比较。一个样本每天服用阿司匹林,另一个样本每天服用安慰剂 — 与阿司匹林具有类似外观、感觉和味道的惰性物质。这种检验应当是双盲检验:受试者和医生并不知道谁在哪个小组里。否则,病人报告“正确结果”(以及医生听到“正确结果”)的可能性也许会高于真实水平。

当研究结束时,统计学家就会介入进来。这里的统计问题是,在完全随机的情况下,两个小组的差异达到实际观测值的概率有多大。在大多数研究人员看来,小于 0.05 的概率具有“统计显著性”。如果数据中的模式仅凭运气出现的可能性不到 1/20,这种模式就会被视作具有统计说服力。章鱼保罗的数据具有统计显著性,因为它仅凭运气得到这种结果的可能性不到 1%。

在一项涉及 2.2 万名男性医生的阿司匹林研究的前五年,安慰剂组出现了 18 个致死性心脏病发作案例,阿司匹林组则只出现了 5 个同样的案例。在完全随机的情况下,这种巨大的差异发生的概率不到 1%。至于非致死性心脏病发作,安慰剂组有 171 个案例,阿司匹林组有 99 个案例。

这种巨大的差异仅凭运气出现的可能性约为十万分之一。这些结果具有统计显著性,因此美国心脏学会目前建议心脏病发病风险较高的患者每天服用阿司匹林。

另一方面,没有发现统计显著性的结果有时比发现统计显著性的结果更加重要。1887 年,阿尔伯特·迈克耳孙(Albert Michelson)和爱德华·莫利(Edward Morley)测量了与地球运动方向平行和垂直的光速,希望找到二者之间的差异,以证明当时一种流行的理论。不过,他们并没有发现任何具有统计显著性的差异。他们的研究为爱因斯坦狭义相对论的提出和接纳奠定了基础。他们这项“失败”的研究为物理学革命做出了贡献。

再说一个更能说明问题的例子。我们将在后面的章节中讨论关节镜手术,这是一种针对膝骨关节炎的常规程序,每年会进行几十万次。最近的研究发现,这种手术带来的利益没有统计显著性,这一结论每年可以节省数百万美元资金,而且可以免去手术带来的不便和并发症风险。

同许多发现罕见疾病疗法统计显著性的研究相比,这项没有在常见手术中发现统计显著性的研究显然具有更大的价值。

不过,一项针对心理学期刊的研究发现,在所有得到发表的检验结果中,97% 的结果具有统计显著性。当然,在研究人员进行的所有检验中,具有统计显著性的检验比例不会达到 97%。之所以出现上述结果,是因为编辑通常认为不具有统计显著性的检验没有发表的价值。

这个问题不限于学术领域。当商业或政府研究人员试图证明某个策略、计划或政策的价值时,他们往往觉得自己必须展示出具有统计显著性的经验性证据。不管是在哪里,研究人员都在追逐统计显著性,而这并不是一个难以寻觅的目标。在高速计算机和大量数据的帮助下,寻找统计显著性是一件很容易的事情。如果你观察得足够仔细,你甚至可以在随机数据表格中发现统计显著性。

寻找统计显著性的一种方法是对多种理论进行检验,然后只宣布具有统计显著性的结果。即使只考虑毫无价值的理论,也会有 1/20 的检验表现出统计显著性。在海量数据和高速计算机的帮助下,在生成“可发表结果”的巨大压力下,无数毫无价值的理论得到了检验。成千上万的研究人员对无数理论进行检验,将那些具有统计显著性的结果记录下来,并将其他结果扔到一边。对于社会公众来说,我们只能看到这些统计工作的冰山一角。我们只能看到具有统计显著性的结果,看不到不具有统计显著性的结果。如果我们知道这些得到公布的检验背后隐藏着数百项没有得到公布的检验,而且知道对毫无价值的理论进行的检验中平均有1/20 的检验能够得到统计显著性,我们一定会抱着更加怀疑的态度看待这些得到公布的结果。

比如说,制药公司会对数千种实验性药物进行检验。即使在设计良好的无偏研究中,我们也会发现数百种毫无价值的药物表现出具有统计显著性的效果 — 而这又可以带来巨大的利润。制药商很喜欢对更多的新药进行检验。不过,他们并不喜欢对得到批准的疗法进行重新检验,以查看最初的结果是否仅仅是一种巧合,是否属于 1/20 碰巧具有统计显著性的毫无价值的疗法。

当得到批准的疗法接受重新检验时,结果常常令人失望,这是一件意料之中的事情。约翰·约安尼季斯(John Ioannidis)在希腊约阿尼纳大学、马萨诸塞州塔夫斯大学医学院以及加利福尼亚州斯坦福大学医学院任职。(想象一下,他需要飞行多少公里,放弃多少睡眠时间!)在整个职业生涯中,约安尼季斯一直在警告医生和公众不要轻易接受没有以令人信服的方式得到重复的医学检验结果。在一项研究中,他考察了从1990 年到 2003 年的 45 项备受尊重的医学研究,这些研究自称证明了对于各种疾病的有效疗法。其中,只有 34 项实验被人用规模更大的样本进行了检验,以复制初始检验结果。在这 34 项研究中,只有 20 项研究证实了初始结果(59%)。在 7 种疗法中,重新检验得到的效果比最初的预测小得多;另外 7 种疗法的重新检验没有产生任何效果。总体而言,在45 项研究中,只有 20 项研究得到了复制,而且这还是最受人尊重的研究!就在约安尼季斯发表这些令人不安的结果的同一年,他还写了另一篇文章,文章的标题很不讨好,叫做“为什么大多数得到发表的研究结果都是错误的”。

另一种获得统计显著性的方法是利用数据发现理论。统计检验的假设是,研究人员首先提出一种理论,然后收集数据,以检验这种理论,然后汇报结果 — 这种结果可能具有统计显著性,也可能不具有显著性。

许多人颠倒了这种程序,他们仔细研究数据,以发现某种模式,然后编造出符合这种模式的理论。在数据中搜寻模式的过程令人愉快,而且激动人心,就像玩数独或者解决神秘谋杀案一样。这些人从各个角度考察数据,将数据分解成基于性别、年龄和种族的类别,丢掉妨碍模式的数据,寻找任何有趣的现象。当他们发现某种模式时,他们开始思考其中的原因。

当研究人员钻研数据、寻找模式时,他们会进行数百次显性或隐性检验。你可以站在他们的立场上进行考虑。首先,你将数据作为一个整体进行考察。然后,你分别查看男性和女性的数据。接着,你将儿童和成年人的数据区分开;然后将儿童、青少年和成年人的数据区分开;然后将儿童、青少年、成年人和老年人的数据区分开。接着,你尝试不同的年龄界限。你将老年人的范围设置为 65 岁以上。当这种做法失败时,你将这个数字调整为 55 岁、60 岁、70 岁或者 75 岁。最终,你总会发现某种模式。即使研究人员不对数据的每一种排列进行正式的统计检验,他们也可以进行非正式检验,即寻找看上去具有统计显著性的数据排列。

如果我们知道研究人员在公布结果之前以一百种不同的方式对数据进行了考察,我们一定会抱着怀疑的态度看待这些结果。

这些做法 — 选择性报告和数据搜刮 — 被称为数据挖掘。通过数据挖掘发现的统计显著性只能体现出研究人员的耐心。在独立检验证实或拒绝结论之前,我们无法判断某种数据挖掘马拉松到底证明了某种实用理论的有效性还是研究人员坚定的毅力。不过,通常情况下,这类检验并不会被人验证。毕竟,你无法通过证实他人的研究而成为明星;所以,为什么不把时间用于发现新理论呢?因此,通过数据挖掘得出的理论看上去很安全,既不会受到检验,也不会受到质疑。

许多重要的科学理论的确是人们为了解释他们所发现的模式而提出来的。例如,在 19 世纪,大多数生物学家认为,亲代性状的平均值决定了后代性状。例如,孩子的身高是由父母身高的平均值决定的,同时也可能受到环境的影响。

奥地利修士格雷戈尔·孟德尔(Gregor Mendel)在 8 年时间里对几万株豌豆进行了细致的研究。他对一些不同性状进行了考察,认为当时的混合理论是说不通的。当他对绿色种子的植株和黄色种子的植株进行异花授粉时,后代的种子要么是绿色的,要么是黄色的,没有黄绿色的种子。当他对圆粒种子植株和皱粒种子植株进行异花授粉时,后代的种子要么是圆粒的,要么是皱粒的,没有处于两者之间的种子。为了解释这些实验结果,孟德尔提出了“孟德尔遗传定律”,这个优雅的概率模型解释了性状的代际传递以及偶尔发生的隔代传递。他构造出了一种与数据相符的理论,为现代遗传学奠定了基础。

不过,数据挖掘还导致了数千种胡诌理论。我们如何区分正确理论与胡诌之间的区别?有两种有效的良方:常识和新数据。如果某种理论听起来很可笑,那么在看到压倒性的证据之前,我们绝不应该轻信这种理论;即使看到了压倒性的证据,我们也应当保持怀疑的态度。不同寻常的说法需要不同寻常的证据。遗憾的是,在这个年代,常识是一种稀缺品,许多诚实的研究人员用严肃的语气提出了一些愚蠢的理论。你知道吗?有人认为入选名人堂会使棒球选手的寿命预期减少五年。还有人认为一些中国人由于出生在“火年”而死于心脏病。本书稍后会对这些例子进行介绍。

第二种良方是新数据。当你通过搜刮数据编造出了某种理论时,用同样的数据对这种理论进行检验是一种不明智的做法。既然你编造这种理论是为了迎合数据,那么这些数据当然会支持这种理论!应当使用没有被数据挖掘所污染的新数据对理论进行检验。

当你用新数据检验通过数据挖掘形成的理论时,得到的结果常常令人失望,这是意料之中的事情。用启发某种理论的数据对这种理论进行检验的做法显然具有误导性。如果某种理论对新数据的匹配程度不像原始数据那么好,这显然并不奇怪。

举个例子。我刚刚用左手小指弹开了桌子上的一枚 25 美分硬币,硬币落地时背面朝上。看到这一结果,我得出了一种理论:如果我用左手小指将桌子上的25美分硬币弹开,那么它在落地时总会背面朝上。毕竟,我的数据可以支持这种理论。这种理论显然愚蠢而毫无用处,但我们在后面几章将要详细考察的一些理论也是如此,这些理论虽然不那么容易被看穿,但它们与我的弹硬币理论具有相同的推导方式。如果死于癌症的孩子生活在输电线附近,那么输电线的电磁场(EMF)一定是导致癌症的元凶,不是吗?如果某种理论看上去比较合理,而你又不知道这种理论是通过观察数据得到的 — 比如观察地板上的硬币 — 那么你很容易不假思索地认为与数据相符的理论一定是正确的。毕竟,这种理论能够得到数据的证明!这是你应当抗拒的几种冲动之一。

幸运的是,我们能够抗拒这种冲动。我们能够克服我们的远古祖先在生存和繁衍的斗争中形成的偏好。我们可以摆脱数据的欺骗。

 

× 如何轻松识破一本正经地胡说八道

我们通常倾向于寻找模式并且相信我们所观察到的模式是有意义的。如果棒球选手在穿上新袜子以后在比赛中表现出色,那么他不应该换袜子。如果股票市场在NFC球队赢得超级碗以后表现出色,那么你应该首先观看比赛,然后再去投资。如果篮球选手连续四次投篮命中,这说明他的状态很好,很有可能在下次投篮时命中。如果心脏病患者在 1600 公里以外的人发送治疗意念以后恢复正常,这说明远距离治疗是有效的。如果一项顾客满意度调查发现家里拥有三间浴室的人比家里拥有两间浴室的人更加热情,这说明前者才是企业的目标市场。如果一个国家在联邦债务很高时发生了衰退,这说明政府债务导致了衰退。在这本书中,我们将对几十个类似的例子进行反驳。

不要天真地认为模式就是证据。我们需要一个符合逻辑、具有说服力的解释,并且需要用新数据对这种解释进行检验。

《简单统计学》长版海报.jpg