后浪出版公司

首页 > 图书 > 经管 > 职场
  1. 统计思维
  2. 统计思维

统计思维

  • 作者[日]西内启
  • 译者李晨
  • 出版社浙江人民出版社
  • 出版时间2017年12月
  • 定价52.00元
  • 装帧平装
  • 开本1/16
  • 页数280千
  • ISBN978-7-213-08338-9
  • 去有赞购买去天猫购买

在充满不确定性的世界中, 发现能一锤定音的相关性和赢利点

  1. 详细信息

《统计思维》横版海报.jpg

著   者:[日]西内启     

译   者:李晨                                       字  数:280千

书   号:978-7-213-08338-9                        页  数:368           

出   版:浙江人民出版社                             印  张:23 

尺   寸:165毫米×230毫米                         开  本:1/16

版   次:2017年12月第1版                        装  帧:平装

印   次:2017年12月第1次印刷                    定  价:52.00元

正文语种:中文                        出版者国别: 日本

正文用纸:胶版纸                        中图分类号:O211

汉语词表主题词:概率统计

 

编辑推荐

 ◎ 统计学能证明“天下乌鸦一般黑”吗?重新装修店面和销售额增长之间存在因果关系吗?想招聘具有多种能力的员工,怎样选择才科学?怎样用回归分析找出商业数据之间难以被发现的关联性?……在数据为王的时代,要在职场站稳脚跟,分析数据的能力不可或缺。

◎ 本书着力讲解统计学在商务实践中的应用,它用分属不同领域的商业案例帮助读者打通统计思维的脉络,让读者在理解统计原理的同时也能掌握统计技术的实践技巧。从事商业管理、财务会计、市场营销、人力资源等工作的职场人士都能从中汲取营养、精进业务。

◎作者西内启曾出版多部统计类畅销书,尤擅用案例和图表解析统计学的概念和用法,不懂数学的读者也可以轻松读懂,学会用统计思维看问题。

 

著者简介

西内启,东京大学医学部生物统计学专业毕业。曾任东京大学研究生院助理讲师、大学医院医疗资讯网络研究中心副主任、哈佛大学癌症研究中心客座研究员,目前为日本多项社会创新提案提供数据支持和分析指导。所著统计学系列图书在日本畅超过40万册,引爆日本商务人士学习统计学的热潮。

 

译者简介

李晨,南开大学经济学、法学学士,现在京都大学经济学研究科深造。

 

 

内容简介

    举办抽奖活动就能增加营业额,改变供应策略就能减少库存,改进招聘政策就能提升人才质量……无论是要降低成本、增加利润,还是招聘人才,把握因果关系都是做出商业决策、提升业绩的基础。

想提升业绩就不能靠撞大运! 大数据时代信息繁杂,随之涌现的千头万绪常常令人不知所措。如何才能迅速、行之有效地解决问题?统计学正是一件不可多得的利器,帮你发掘有价值的因果关系,透视隐于数据背后的商业真相。

本书专为在职场打拼的商务人士量身定制,用实实在在的案例和清晰易懂的图表解析假设检验、随机对照实验、回归分析、因子分析、聚类分析等常见统计方法在商务实战中的应用,没有统计基础的读者也不用因不懂数学而发愁。

大数据时代, 解剖数据已成为我们的职场基本功。翻开本书,你就能学会用统计思维武装自己,在商场上披荆斩棘。

简  目

序  章 商务与统计学之间千丝万缕的联系

第1章 当我们谈论统计学时, 我们在谈些什么

——“ 平均值” 和“ 比例” 的本质

第2章 统计学为何是“ 最强” 的商务武器

——标准误差与假设检验

第3章 堪称洞察之王道的各种分析工具

——多元回归分析与Logistic回归

第4章 挖掘数据背后隐藏的宝库

——因子分析与聚类分析

终  章 统计方法的总结及其使用顺序

谢辞

数学附录

参考文献

索引

出版后记

 

序  章

01 商务与统计学之间的鸿沟到底因何存在

《统计学是最强学问》是本怎样的书

市面上有许多统计学入门书,其写作方式却鲜有变化。首先是概率论,然后介绍正态分布之类的概率分布,接下来讲解估计、检验、相关系数和回归分析,一般就是以这样的顺序从数学的角度理解上述各种概念。

有幸售出35 万册的畅销书《统计学是最强学问》(以下简称前作),则是统计学入门的入门。它从实用的角度说明了统计学在现代社会中发挥着多大的作用,以及现今普遍使用的统计方法,是经过了怎样的历史、因何人的思考而诞生的。可以说,前作是将涉足统计学领域所需的基本常识凝缩在了一本书中。

因此,在看到即使读了这本书也无法应用统计学这样的感想或批判时,我毫不意外,因为事实确实如此。

企业对大数据赞不绝口,可引进了昂贵的系统却只用来画一张漂亮的饼状图。前作的目的仅在于填补统计学与社会之间的鸿沟,并改变上述状况。

若能吸引更多人关注统计学,我的目的便达到了。接下来,读者只要在琳琅满目的入门书中选出适合自己的来学习,日本人的统计能力自然也就会上升……这就是我当时的想法。

续作(本书)的理由

听到了同侪的反馈,我才知道这种想法似乎有些过于乐观。这就是写作本书的理由。

现将他们所认为的现有统计学入门书不适合自己的理由总结如下:

Ø l 出现公式就读不下去

Ø l 乍一接触到统计工具,不知道它的含义

Ø l 不知道各种方法对自己的工作有何助益

Ø l 不知道自己工作适用哪些统计学知识

他们曾问我是否有书能满足上述需求,但我确实尚未见过这样的书。

前作中也曾提到,统计学是有力且广泛通用的工具,在诸多学术领域都有应用。各学科的目的、思维方式、研究对象的性质不同,同样的统计方法会有不同的应用方式,更有许多专门用于某一学术领域的统计方法。正是因此,经济学和心理学本科生的统计学教材内容相差很大。那些不想提及这些差距而仅介绍共同部分的统计学入门书,便只能使用

抽象的公式,因而就会枯燥无味。

也就是说,大多数教科书与商务人士对统计学的需求并不相符,只是因为这些书原本就不是为了用于商业而写,这类书的作者和出版机构并没有任何过错。

为什么找不到好的统计学教科书?

理想情况下,最适合为商务人士写作统计学教科书的,也许是在商业各领域积累了定量分析实务经验的管理专家。

然而,管理专家中很多都在做历史与个案的定性研究,即使是进行定量分析的研究者,研究主题也不一定是用统计来解析如何提高某项业务收益率。举例来说,很多管理专家是从企业战略和收益关系等宏观视角进行统计分析。在分析某项业务的客户时,不同的专家也有着迥异的指导思想和方法。另外,也有人善于使用本质与统计学完全不同的、名为管理会计财务分析的定量分析方法。

这一点也同样适用于最近广受瞩目的数据科学家。将这些研究数理统计学或机器学习a 方法的研究员放到商业活动的第一线,他们也不一定能立刻派上用场。即使有个别人能够立刻适应环境,那也只能说是出于运气,或是因为他本身算是商业直觉很好的年轻人罢了。

理解分析方法本身或是了解众多特殊的分析方法,与思考在现实中如何活用这些方法、创造何种价值,本身就是不同的事情。即使你所在的企业聘用的年轻数据科学家没有立刻适应工作,错也不在他们。与上文类似,只是因为他们并不是为了商业目的而学习罢了。

 

写到这里,大概会有人想问我到底是哪一种人。我与统计相关的职业生涯,是我易于将知识活用于商业活动的基础。

我早先致力于研究公共卫生学。对于这门学问,只要目标是人类健康,采用何种研究方法都可以。因此我在美国求学时所属的公共卫生学研究生院(School of Public Health)不仅有医学院毕业后拿到医生执照的老师,还有经济学家、法学家、教育学家、社会学家、信息技术从业人员、曾在广告代理机构任职的营销专家……来自各个领域的专业人士聚集在

那里,以人类健康为目标活用各种知识,形成新想法。

物理学是自然科学的王者,经济学是社会科学的女王,公共卫生学则可以说是科学的综合格斗术。尽管在进行格斗时可以选择任何方法,但最后一定会归结于证据,也就是统计学的分析结果。有时即使对手是女王,也要用证据将其击倒,而最近女王也正在学会用证据来反击。

我从年轻时开始直到现在,每日运用统计学技术分析横跨各领域(从基因到公共卫生政策)的实证数据并将其活用,这大概是我侥幸获得的最大财富。若是没有这笔财富,我也许根本不会想在前作中介绍不同领域的统计学的思维方式以及其中的差异吧。

 

02 “把握”“预测”与“洞察”的统计学

商务活动需要的是“洞察”人的统计学

除了能让人理解许多领域中统计学的使用方法及其差别,公共卫生学所使用的统计学还在另一点上有助于商务活动。那就是它与几乎所有的商务活动相同,以人类的行为和社会状态的变化作为研究对象。

让我们和其他的学术领域比较一下。工学和农学的研究对象分别是非生物和人类以外的生物,我们可以控制大部分条件对它们的量和质进行实验,如在超低温下停止分子的震动来测定数据,或是收集实验生物所有的基因,只要技术和预算允许,实验想做就可以做。

与之相对,大多数人只能从观察和预测的角度来看计量经济学所研究的股票价格和经济状况等宏观变动。

研究声音、图像和自然语言的机器学习领域,也有其特殊的专业技术,如共振峰频率、特征点和修饰结构等。它以声音、图像和句子知识为基础,赋予0/1 二进制记录的数据以意义,通过算法准确快速地处理对人类而言理所当然的认知行为。

需要事先声明的是,如果你所需要的是这方面的统计学知识,这本书对于你来说可能并没有用。实际上已经有了许多更加适合你的书。这本书所涉及的,全部是为了洞察个人,并对其行动和状态进行部分改善的统计学。

人类个体多样,决策机制复杂,用自己的行为来改变别人很难,或者说强制改变别人的做法在伦理上面临困难。因此经济学家研究合理性,政治学家研究权利,社会学家研究人与社群的相互作用,心理学家研究认知和感情,教育学家研究知识和能力,营销专家研究需求和欲望,就像这样,不同的领域尝试从不同的切入点去理解人类。然而,如果被问到什么对改善人的行动来说最重要,我一定会回答全部都很重要

我在商务领域从事分析工作时,无论身处哪个行业、哪种职位,都需要用数据来洞察个人和集团的行动,进而寻找改变这种行动的方法。在这几年中,我在调查和数据分析上都没有遇到困难,应该是因为商务活动所需要的,就正是洞察人类行为的统计学吧。

统计学应用于商务的三大利器

洞察人类的统计学具体做的,就是洞察人类行为的因果关系。此外,统计学还被用于把握现状预测未来,但本书(基本上)没有涉及它们。

所谓把握现状,举例来说,就是通过市场调查来估算现有多少人正在使用某种产品。本书并不涉及这一类的统计学,原因在于这种方法已经被使用在商务第一线,且已十分完善。

已经有许多商务人士从调查数据中推算出平均值和比例,并将之总结成图表。调查公司的发展也使得几千人规模的调查不再那么困难了。

只要收集了相应的数据,即使不理解标准误差的概念而没有将其写在报告中,只要误差并不大,这些数据使用起来也没有什么问题。明显偏向某些性别和年龄的数据可以推测整个日本的平均值吗?部分项目未被回答的问卷要如何处理呢?现在有着各种高级的统计方法来处理这类问题,所以很少有商务人士会因为执着于此而获利。实际上,在为其提供建议的时候,我也只会说:有关误差和调查对象分布偏差的问题,调查公司能够给出准确的答案,交给他们去做比较好吧。

另外,制造业的质量管理方面,试验品的规格平均值是多少,其浮动有何特点,也属于把握现状的统计学方法,但这也不在本书的讨论范围之内。制造业利用统计学来进行质量管理可说得上是战后日本的看家本领,无论是门外汉还是专家,公司内部和业界的培训与资料内容都极其丰富。那些在我出生之前就能在商业中活用统计学的人,已经把我要说的都说完了。如果一定要解释,以往的统计学的应用,都是以物体能以物理方法测量的量与质为基础,而我想要提出的,则是将统计学应用于无法以物理方式测量的量与质的领域。如果你对这点感兴趣,本书可能会对你有所助益。

“预测未来,举例来说,就是利用统计学来尝试准确地预测未来股价或原材料价格是否会上升,或者库存会如何变化。此外,机器学习的图像和声音识别当中,仅从数据来准确预测如果是人类会如何认识,以此来模仿人类的认知方式,也属于预测未来

本书不涉及这一点的原因是,在没有弄清分析方法之前,根据复杂的状况做出准确的预测是非常困难的。经济学家写作的统计学入门书中有时会有利用时间序列分析来预测股票价格的例子,但是如果真的可以通过充分预测来获利,这些方法也就根本不会写在书上了(即使所写的方法果真能够获利,模仿者的增加就会改变市场环境,其结果,或是利润因介入者过多而减少,或是加大经济泡沫,受到强烈批判)。

熟知各种统计方法的专业投资家的收益率,其实不会比随机购买上市公司全体股票这种猴子也能做到的投资方法收益率高。如果想要使用统计学来增加资产,我认为还不如重视上述实证数据(《漫步华尔街》,伯顿·马尔基尔著)。

关于预测的困难,纳特·西尔弗所著的《信号与噪声》中有详细介绍,对统计学在预测上的使用方法更加有兴趣的读者不妨参考阅读。

如何将“洞察”的统计学转化为商业优势?

在供应与采购部门工作的人,最关心的可能是预测采购价格和出货量的变化,然后制定相应对策。然而对于市场部门来说,洞察常常比预测更重要。举例来说,比起准确预测这种制成品可以卖出多少”“进行何种推广活动可以将商品卖出去”“做出何种商品才能大卖之类的洞察才能成为利益的源泉。也就是说,追溯客户购买背后的原因的这种

果关系才是重要的。

医学和公共卫生学领域也是这样。即使在统计学上明确了人的生活习惯与死亡率之间的关系,大部分医学相关人士对于准确预测某个人会在几岁时死亡的兴趣也并不大。统计学被应用于医学的目的,不是在于探索人会在几岁时死亡这一结果,而是在于如何让人更加健康长寿。再这样下去你就只剩下多少年的寿命了,大概有读者在体检时被医生这么威胁

过。前作中提及(本书后面也会出现)的弗雷明汉研究项目中,诞生了根据性别、年龄、血压、吸烟史等项目计算心脏病发病概率的弗雷明汉危险评分法。然而,对于这些例子来说,准确预测剩余生命和发病率本身并不重要,从中认知风险,然后改变不健康的生活习惯这一目的才是重要的。

 

与把握现状和预测未来的统计学相比,这类洞察因果关系的统计学知识,尚未以简单易懂的形式普及。有许多统计学的教科书上写着注意不要混淆相关关系和因果关系,但是却很少提及,进行随机对照实验可以相当正确地判明因果关系。

然而,在一切都被数据化的今天,洞察因果关系在各种领域都是有力的武器。

如果你从事的是销售工作,只需要找出容易下单与不容易下单的客户的差别。若是从事人事工作,只需要找到能够与不能够为公司带来利润的人才的区别。或是从事刚才所提到的供应部门的工作,只要洞察价格谈判成功与失败的状况差异,便能带来利润。

幸运的是,无论IT 技术如何发达,现在想要洞察这类因果关系,还是人脑更加合适。而且与高端的数据科学家相比,每日在第一线培养直觉又具有一些统计能力的人,更有优势从相同的数据中找出有价值的信息。

比如分析结果显示,某种商品仅仅在某个季节销量格外好。大多数情况下,计算机和外部人士都只能得出在这个季节大量进货这一想法,可是一直从事与店铺和商品相关工作的人,面对这一信息却可能灵光一闪。季节或商品本身并不重要,重要的是考察在表象背后是否存在某种联系,能够带来利润的新想法便由此萌生。很明显,这是一门所有的商务人士只要学会便能转化为优势的技能。

 

本书的使用要点

因此,本书从许多社会人士以把握现状而使用的平均值和比例方法起步,讲解的重点,是以恰当地洞察数据背后的因果关系为目的的统计学。

出于前述的对于现存入门书的不满,本书和前作一样,尽量让所有的说明不依赖公式、仅靠语句和图就可以理解。仅在为从本质上说明统计方法而必须使用公式的情况下,把用高中知识就可以理解的数学内容补充在了书的最后。本书想办法让没有读数学附录的读者也可以无障碍地理解正文内容,所以如果你看到公式就倍感压力,现在就可以拿起办公用的订书器将书后的附录部分订上。书后的数学附录,大多是为了帮助读者理解入门书中理所当然作为前提,或是因为仔细说明会过于困难而省略的内容。即使现在跳过不看,日后当你阅读大学统计学入门书而感到疑惑的时候,回头再看,或许也能够在其中找到值得参考的内容。

一般的统计学教科书中,用大学以上的数学知识在几行中说明的东西,本书书后的数学附录也会用大篇幅以高中数学一一讲解,而正文则花费了更多的篇幅用语句和图来说明。还有一点细节,就是正文的数值计算举例,无论中间的计算过程多么复杂,本书都尽量让最后的答案是小学生也能看懂的整数或者分数。

本书中使用的统计方法大多十分基础,不过也涉及了Logistic 回归、因子分析和聚类分析这三种一般的统计学入门书中很少出现的方法。我甄选出这几种方法,是因为它们在商务分析中最常用到,只要学会便不会为普通的分析而发愁了。

首先,第1 章讲解了均值、比例以及标准差这些最基本的统计学工具的本质。目的不是让读者理解“将数据加起来用数量去除”这种理所当然的计算过程,而是理解为何这样计算得到的均值对于“洞察”的统计学是重要的。理解了这些,你就能更好地理解后续的统计学方法。

接下来的第2 章,介绍了统计学中的假设检验的思维方式,也就是检验不同分组的均值和比例之间的差距是否存在并非偶然误差。比如在比较旧店铺和新店铺客人的平均消费水平时,发现新店铺比旧店高出100 日元。然而,即使是同一顾客,每次的消费金额也会有差别,如果这100 日元的差距的确有意义,就可以说新店铺的尝试是成功的,旧店铺去借鉴新店铺的运营可能更好。但如果只是偶然的误差,结论就是无用的。分辨这两种情况的工具,就是统计性假设检验。

3 章除了讨论群组之间的差异,还介绍了回归的分析方法。某一个值增加,其他的值有增加还是减少的倾向,回归分析的目的就是分析这种关联性。比如店铺距离车站越远,销售额是越高,还是越低,还是不存在关系,以及如果是越高大约会高出多少日元。知道了这些,就可能提升分店预期收益能力。进行这种分析的工具就是回归分析。

最后在第4 章,则要学习运用因子分析和聚类分析的方法,将数量庞大的数据项目巧妙转换为少量数据项目。为何需要这类方法,以及这类方法是如何思考的,在读第4 章之前敬请期待。

与前作相同,为说明这些方法到底有何作用而使用的,全部是商务场景中常见的例子。其他统计学的入门书中时不时会出现“苹果重量的平均值是”这样小学生水平的表达,或是突然出现与统计学毫无关系的专业术语。本书将两者全部修正为针对商务人士的例子。此外,本书沿袭了前作,说明各种统计方法是什么人在考虑什么时想到的,通过历史来说明方法背后的思维方式。

另外,正文中的说明大多基于频率论(frequentist)这种一般性的统计学思维方式。近年来与频率论不同的、以贝叶斯理论的思维方式为基础的统计学也有很大发展,但正如前作所述,贝叶斯理论被认为适用于“预测”的统计学,因此以理解洞察的统计学基础为目的的本书,将其排除在外了。

撰写前作时,我并没有想到统计学的书会如此受欢迎。我想,即便只有一部人看到,作为专业人士,我仍有社会责任为那些因大数据而感到不安的人提供统计学知识。

意想不到的是,前书的读者群很大,因此我有责任写作本书,以填补读者与多数统计学入门书之间的鸿沟。

若是本书可以成为大家实践统计学的第一步,这将是我的荣幸。 

 

正文赏读

第一章   当我们谈论统计学时, 我们在谈论什么

——“ 平均值” 和“ 比例” 的本质

 

03 “洞察”的统计学必须掌握的三大基本功

仅曾使用简单汇总的方法来“把握现状”的人,要迈出用分析来洞察因果关系的第一步,必须掌握的知识有三点。

1)理解平均值和比例等统计指标的本质含义

2)“要从幅度而不是点来把握数据”的思考方法

3)“要以何种标准汇总何种数值”的思考方法

大家如今在办公室看到的解析数据结果的图表,大概都是图表1-1上图的样子。在读完本章之后,应该可以理解图表1-1 下图的含义,或是体会到这类图表的必要性。

理解了“平均值”的本质,自然也就能理解“比例”

关于(1),想读本书的人,大概没有不知道如何计算平均值的。但是,大概也没有人思考过,为何这样计算下来便能说明分散的数据真正的意义。其实在平均值的背后,存在着比统计学思维方式产生时期更早的深刻思考。后面的部分会按照这一顺序,说明平均值的本质。

另外,为什么举的例子明明是“平均值和比例”,进行说明的却只有平均值,想必很多人并不知道,平均值和比例的本质是完全一样的。

针对通常用数字来表示的信息如年龄、收入、消费金额等[ 用术语来说叫作定量变量(quantitative variable],我们通常采用“平均值” 的形式来进行汇总。另一方面,针对并不是用数字而是用文字来表示的性别、职业、商品分类等信息[ 称定性变量(qualitative variable],则采用每一种分类所占的“比例”来进行汇总。顺便解释一下,定量变量表示的是“数量大或小”,定性变量表示的则“不是数量大或小,而是性质上的不同”。“用5 分制回答满意度(数值越大则满意度越高)”则不容易确定该用定量变量还是定性变量来表示。对于这一问题,是应该作为定量变量计算平均值,还是作为定性变量计算5 分制评价人数的比例,意见分成了两派。但本书认为作为一种定量变量来看待是没有错的(本书后面会讲到在实际分析中应该如何处理这种难以判断是定量还是定性的变量)。

另外,比如说1 号、2 号、3 号……这种虽然是用数字来表示,但数字的大小本身并没有意义,只是将数字用作一种记号的情况,不应该使用平均值,而应该使用比例。尽管计算邮编的平均值没有意义,但利用邮编的前3 位数字来将顾客分类,汇总分析每一地区的顾客各占了多少个百分点却是有意义的。

《统计思维》长图海报.jpg