首页  软件  游戏  图书  电影  电视剧

请输入您要查询的图书:

 

图书 数据统治世界(如何在数据统计中的挖掘商机与做出决策)
内容
编辑推荐

《数据统治世界(如何在数据统计中的挖掘商机与做出决策)》编著者冯启思。

《数据统治世界》是大数据趋势必读之作,看数据如何影响你的工作与生活,教你如何从数据统计中挖掘商机与做出决策。

《数据统治世界》用10个精彩故事,通过精心的叙述,翔实的资料,别样的角度,为我们开启一趟惊心动魄之旅,展现统计学家是如何利用统计式思维解决我们身边的问题,数据又是如何影响我们的生活。

本书作者系纽约大学统计学教授,视频分享网站Vimeo商业智能分析副总裁,并且著有超高人气的博客“垃圾图表”,内容及可读性极佳。

湛庐文化出品。

内容推荐

《数据统治世界(如何在数据统计中的挖掘商机与做出决策)》编著者冯启思。

《数据统治世界(如何在数据统计中的挖掘商机与做出决策)》是《大数据时代》之后的必读之作。《大数据时代》改变了我们的思维,《数据统治世界》将改变我们利用数据的方式。揭示5大统计式思维,让你可以解决在商业、金融、科学、公共卫生以及犯罪调查中遇到的难题!他用难以胜数的来自真实世界的例子,为我们展现了统计学在日常生活中的实际应用,以一种简单、务实、无限娱乐性的方式为您解释了数据所具有的神秘力量。

游人如织的迪士尼是如何管理排队等候时间的?高速公路为什么要修建缓行匝道?服用兴奋剂的运动员在被揭穿之前是如何制造出几十次干净的药检结果的?即使拥有海量的股票数据和公司财报信息,为什么大部分人还是不能在投资中所向披靡?为何不同的人有不同的保险费率,信用评分又是如何运作的?当传染病暴发的时候,科学家是如何帮我们找到感染源头,保证我们的安全的?统计学家为何不怕飞机失事,但也不相信能够中奖的彩票?十个精彩纷呈的故事,带你领略数据的别样魅力。

目录

前言 让数据自己说话

第1章 关注异常值,而非平均数本身:解决拥堵之害

 迪士尼,让游客牢骚的长队

 选择上下班线路的冒险

 匝道控制,反拥堵的利器

 知觉管理,快速通行卡让等候时间“变短”

 适当放弃最佳,赢得支持

 消除变异,消除怒气

 

第2章 相关比因果更重要:疾病侦测与信用评分

 污染的菠菜与大肠杆菌

 建模师为信用评分

 寻找疾病的罪魁祸首

 信用评分,相关创造商业奇迹

 抛弃脏数据

 统计建模的两大模式

 

第3章 分层与同类比较:考试公平与保险风险

 黑人考生与白人考生之间通过率的巨大差距

 统计学家助力SAT题目诞生

 项目功能差异分析消除差异

 突然不可保的飓风

 被误解的“百年一遇”

 将不同的组分开

 

第4章 假阳性与假阴性的博弈:药检与反恐

 不能给假阳性一丝机会

 统计学上的分界线

 用测谎仪证明自己

 难以把握的成本效益比

 宁可错杀三千,不可放过一个

 假警报,检测系统远非完美

 

第5章 小概率的力量:航空安全与彩民信心

 夜空中的灾难

 4次灾难惊人的巧合

 27000年才有一次的中奖机会

 白点黑点,换个角度看数据

 在整个背景下评价数据

 精心选择的数字更丰富

 

 结论:像数据科学家一样思考

 译者后记

试读章节

现场调查法,传染病流行病学的开始

一个半世纪以前,大约在1830—1850年间,英国接二连三地暴发霍乱,成千上万人被瘟疫夺去了生命。有位年轻医生亲眼目睹了这一幕幕惨剧,忧心如焚。1854年,伦敦的布劳德大街(BroadStreet)(也就是现在的布劳维克大街[BroadwickStreet])附近的居民,3天内有127人被瘟神带走了生命,霍乱暴发后的前10天就有500人丧生。那个时代,普遍认为霍乱是“疠气”(miasma)或称“恶气”所致。约翰·斯诺(JohnSnow)医生,通过一系列富有灵感的研究,证实霍乱是通过“被污染的”水而不是通过“被污染的”空气传播的。

斯诺画出了公共抽水机和被夺走生命的人的分布图,通过这张图他准确地测算出布劳德大街的抽水机被污染了。民间的说法是当人们把抽水机的手柄移走后霍乱就随之停止了。(现在流行病学家认为其他的因素,比如居民从疫区撤离也对结束这场灾难起了作用。)

斯诺医生所开创的现场调查方法标志着传染病流行病学的开始。后来,亚历山大·朗缪尔医生(AlexanderLangmuir)把这门学问引进了美国。作为美国疾病预防与控制中心的首席流行病专家,朗缪尔在1951年创建了流行病学情报所(EIS),用于训练疾病侦探。他把这个项目设计成一种“国民防御”(civildefense)的形式,并向外界兜售,用以抵制冷战期间的生物武器的威胁。流行病学情报所在脊髓灰质炎、铅中毒、军团病〇1和中毒性休克综合征等疾病的预防、控制方面发挥了主导作用。该组织的成员自豪地戴着一枚翻领别针,上面有一只穿孔的皮鞋图案,象征着疾病监测活动的汗水与艰辛。

朗缪尔的办公室里悬挂着他所敬仰的三位偶像的肖像:约翰·斯诺(那是肯定的了)、埃德温·查德威克爵士(EdwinChadwick)和查尔斯·蔡平(CharlesChapin)。查德威克爵士,跟斯诺一样,是英国19世纪推动公共卫生改革的先驱。他提倡居民们用管子将水输送到家里,这种观念在当时是很新鲜的。蔡平在罗得岛州普罗维登斯市,当了48年的卫生员,被大家昵称为“城市卫生官员主任”(deanofcityhealthofficers)。他在19世纪80年代推动了美国的公共卫生运动,而且拥护在公共卫生管理中使用科学原则。

朗缪尔到处宣讲合作的价值,鼓励那些来自心理学、人类学、社会学及其他学科领域的人参加流行病学情报所培训。到今天为止,已有3000多名官员毕业于此;最近的班上大约有30%的学员不是医生。流行病学情报所培养出来的官员们不仅以分析的细致见长,而且具备实际的眼光,他们因集两种优点于一身而著称于世。

数据统治你的世界

在阅读本书时,你突然明白了自己的世界被各种各样的数据统治着。当你在高速路上驾车时,工程师们会在入口和出口匝道上测你的车速。如果你的家人去迪士尼乐园玩,你会注意到有摄像机在收集你们在过山车之间的移动信息,也许你会正好撞见莱恩·特斯塔或者他的工作人员正在数人数。你现在知道信用分对你有利,至于为什么,道理上不必讲得通。但是当美国食品药品管理局召回这种或那种食物,你会问该机构是否已经找出了代码所代表的产地了。如果你或者你的孩子要参加一个标准化考试,你应该知道考试开发者是如何选择那些对每个人都公平的题目的。那些住在灾难高发区的人们现在应该理解了为何私人保险商要突出重围。下次当

你听到某个因类固醇而名誉扫地运动员投诉说,遭到了检验员的政治迫害的时候,你会想到那些散落在实验室里的阴性样本。下次测谎程序来筛选潜在的恐怖分子时,你会想到那些被错抓到监狱里的无辜者。登上飞机后,你就会精神放松了,因为你知道自己无处可逃。当你打算玩博彩时,你会看紧那些卖彩票的人。

如果你会如我期待的那样做出这些反应,那么你就能像统计学家一样思考了。

也许现在,你接下来要上网停止股票走势图,你会思考回报的变化是怎样影响你的投资策略的。当美国食品药品管理局勒令另一种“重型炸弹药”(blockbusterdrug)退出市场时,你会问该机构当初把这种药物推向市场的时候,对其疗效有多大把握。在调查某种新发明的保健品时,你会仔细审查该药对哪几个组进行了比较,他们是否具有可比性,你是否属于其中的一个组。在超市,如果计算机发给你一个看似没有意义的打折券而向你推销一种你从未用过的商品时,你不会吃惊——确实,你也许会沉思两种错误的代价(假阳性和假阴性)。当别人给你一个令人垂涎的投资建议时,如果假设基金管理人不是个骗子的话,你会问30年间维持稳定的投资回报的概率有多小。

如果在日常生活中,你知道如何使用数据做出决策时,你就掌控了自己的世界。

P116-P118

序言

让数据自己说话

这本书的主题并非只是谈论“该死的谎言与统计学”。达雷尔·赫夫(DarrellHuff)、约翰·艾伦·包洛斯(JohnAllenPaulos)、爱德华·塔夫特(EdTufte)、霍华德·维纳(HowardWainer)等人,在这个常谈常新的话题上早就写下了不少垂范之作。的确,从精于操控的政治家到粗心大意的分析员,从经济学爱好者到强买强卖的广告商,我们可以举出无数的例子,来说明当数字被滥用时会引发多少问题。择优选择、过度简化、故意混淆,这几种滥用数字的花招想必我们都领教过了。在这本书中,我们将沿着不同的方向,从正面的立场来思考:当事情顺利进行的时候会出现什么结果,也就是说,当数字没撒谎时会怎么样。我对这个问题很感兴趣。

知道得越多,越不了解真相

伯尼·麦道夫(BernieMadoff)是纽约一家投资公司的资产管理人。到2008年他认罪伏法时为止,一个存在了30年的由富人参加的投资俱乐部,被他弄得一贫如洗。直到此时,人们才识破麦道夫的真面目——一个惊天巨骗。那么,从麦道夫欺诈案中,我们能学到些什么呢?安然公司高层拿假账混淆视听,使数千名雇员的退休储蓄金随着公司的破产而顷刻化为乌有。那么,安然高层的欺诈案又能带给我们一些什么样的思考呢?或许我们该搞清楚:为什么大量的财务数据、财务报表及办公存档几乎未能给调查员、审计员和监管机构提供任何线索,找到何人与欺诈有关呢?

我们从万络(Vioxx)事件中又能学到点儿什么呢?美国食品药品管理局(FDA)承认,该药在首次获准入市到后续的五年中,引起了上万起心脏病病例。或许我们该弄清楚:为何虽有大量现成的健康医疗资讯以及大规模的、复杂精妙的临床试验,也未能使万络的发明人默克公司、医生及病人对这种新药的致命副作用重视起来呢?

我们还应当问一下:尽管能够弄到海量的股票数据和公司报告,为何我们中的大部分人却未能在股票市场中大发横财呢?虽然严格核算每罐、每袋食品的营养指标,为何我们中的大部分人却未能成功瘦身呢?尽管在信息技术方面投入了大量资金,为何班机延误和交通拥堵却越发糟糕呢?虽然有对顾客购物行为的详细记录,为何当我们致电其服务中心时,他们却几乎给不出什么有用的提示呢?尽管在大范围的临床试验中未发现有抗癌作用,可为何β-胡萝卜素和维他命药片在药房却是这般抢手呢?

这些例子揭示出一个令人略感不快的惊讶事实,那就是:现代人对测量的迷恋没能使我们变得更具有洞察力、明辨力。诚然,我们现在收集、保存、处理、分析的资讯要比以前多得多,但结果如何?亚里士多德说过的那句名言描述现在的情况再贴切不过了,他说:“我们知道得越多,才知自己知道的越少。”  应用科学的力量

我们开始考察一些有积极意义的事例,看看那些富有进取心的人们是如何机智地利用这些新资讯来改善我们的世界的,并借助这些好消息来平复上面的陈述带给我们的挫败感。在后续的五章,你将幸会那些使明尼苏达州的高速公路保持畅通的工程师、提醒人们当心不安全食品的疾病侦探(diseasedetective)、替佛罗里达的居民计算他们该为自己的房子投多少飓风保险的精算师、那些致力于开发标准化考试(如SAT)的教育专家、那些仔细检查精英运动员血液样本的实验室技师、那些声称能甄别谎言的数据挖掘师、那些涉嫌欺诈的博彩业执业人员、那些设计出奇思妙招缩短了队列的迪士尼乐园科学家、那些引发了消费信贷高潮的数学家,还有那些为人们的空中旅行提供最佳建议的研究人员。

上面的十句话像十幅速写,勾勒出了一些特殊的男人和女人,他们的工作很少有幸得到公开表彰。这种被漠视起因于他们的工作性质以及一种由来已久的社会风尚:人们只对发明性的成就颁发奖金、授以嘉奖。这些人的工作不是发明性的,而是适应性的、提炼性的、推销性的以及需要坚持不懈的。他们的专长在于应用科学。

统计式思维

对我来说,这十幅速写最终融合为一个结论,那就是:这些杰出的科学家都仰仗于一种所谓的“统计式思维”,这种思维方式跟我们的日常思维截然不同。我把这些故事组织成五对,每对故事都与一项重要的统计学法则有关。

统计式思维到底有何独特之处?

第一,统计学家们对平均数这个流行概念不太关心;相反,对平均数的任何偏差却是情有独钟。他们反复考虑变异的程度有多大、发生的频率有多高,以及变异存在的原因是什么。在第1章中,研究排队问题的专家们,解释了与平均等待时间相比,我们为何更应该担心等待时间的变异性。佛罗里达州高速公路的工程师告诉我们:为什么他们解决拥堵问题时最喜爱的招数是,采取技术手段设置关卡迫使上下班的驾车人多等些时间。而迪士尼乐园的工程师们却证实说,减少等待时间最有效的工具其实并不能真的减少平均等待时间。

第二,我们不必为变异寻找一个合理的解释,尽管我们有一种与生俱来的、对任何事情进行理性诠释的欲望,但如果两件事物之间存在相关模式,统计学家同样很乐意观察它。在第2章中,我们追溯了疾病侦探追查污染菠菜的整个过程,又在另一个故事中撬开了产生信用分数的黑箱子。在“追查污染菠菜”这个案例中,(流行病学家)使用的是随机模型(casualmodels),而产生“信用分数”所使用的则是相关模型(correlationmodels)。我们对这两种建模方式进行了对比。令人惊讶的是,这些从业人员坦言,他们的模型不能完美地描述周围的世界,从这个意义上说,这两个模型都是“错误的”。我们接下来要看看他们是如何为自己辩护的。

第三,统计学家时常会寻找那些被错过的细微差别:统计平均数(statisticalaverage)也许正好掩盖了各组间存在的重大差异。忽视这个差异通常预示着将来的不公平对待。分组的典型方式,比如按种族、性别或者收入,通常是有缺陷的。第3章介绍了保险业。为了反映海岸和内陆地区的房产在遭受飓风风险上的差异,保险公司对保险价格进行了调整。我们对这种做法所带来的混合效果进行了评价。我们也考察了标准考试的设计者为消除黑人和白人在考试表现上的悬殊差距所做出的努力以及由此所带来的后果。

第四,可对基于统计的决策进行微调,来寻找两类错误类型之间的平衡。可以想见,受动机使然,决策者们专盯着那些可能令公众蒙羞的错误,并尽量减少这类错误的发生。然而,统计学家指出,由于这种偏向,他们的决策会加重另一种类型的错误。而这种错误通常不被注意,但后果很严重。在第4章,我们将用这个原理来解释:为何自动数据挖掘技术不能既可以识破恐怖阴谋又不会带来令人难以承受的附带性破坏;为何类固醇实验室在抓捕大多数舞弊运动员这件事上工作不力。

第五,统计学家在决定证据是否跟罪行匹配时,遵循一种叫作统计检验的特定程式。跟我们中的有些人不同,统计学家们不相信奇迹。换句话说,如果硬要拿最最巧合之事来解释那些费解之处,他们宁愿把这个案子搁置一边。在第5章,我们来看看,在加拿大人们是如何利用这个强大的工具来揭露那个规模巨大的州博彩欺诈的,以及它是如何驱散“怕飞”背后的无稽之谈的。

这五条原理就是统计式思维最重要的部分。读完这本书,你就可以应用这些原理来更好地做出决策了。

工作中的应用科学家

这些故事大致反映了我自己作为一名商业统计执业人员的经历。它们展现出应用科学家跟纯科学家或者说是理论科学家在工作上的某些实质的不同。

所有这些例子都包含那些以某种方式对我们的生活产生影响的决策,或是通过公共政策,或是通过商业策略,或是通过个人选择。理论科学家重在求“新”,而实用型的工作重在求“高”,譬如“利润会爬到多高?”或者“选票数会有多高?”除了纯粹技术的标准而外,应用科学家还要考虑社会目标,就像明尼苏达州的高速公路工程师那样;或者要考虑心理学的目标,譬如迪士尼乐园的排队管理程序;或者还要考虑经济目标,比如飓风保险承保人和信贷员。

对理论科学的追求很少受到时间的限制。举一个最极端的例子,数学家安德鲁·怀尔斯(AndrewWiles)花了七年时间周密地证明了费马大定理。这种奢侈不是为应用科学家准备的,他们必须在有限的时间内,通常是在连续几个星期或几个月内尽最大努力解决问题。外部因素,即便是绿色产品的生命周期或者酝酿中的药物发明,都会受时间约束。想想看,假如等到“大肠杆菌疫情”平息了才找到流行病的致病源,那还有何用呢?假如大量的运动员已经因服用类固醇而获得了不公平的优势,此时人造类固醇的检测方法才姗姗而来,请问这还有何意义?

理论科学中最漂亮的某些发现,产生于一组经过审慎选择的、简化过的猜想;应用科学家注意到一些令人出乎意料的细节,并进行了处理,使这些结果能够适用于真实世界。如果你读过纳西姆·塔勒布(NassimTaleb)的著作,你会认识到钟形曲线其实就是这样一种简化,在某些情况下需要对之进行完善。另一个例子,请参看第3章,明显属于不同组的人本该区别对待却被混在了一起。

成功的应用科学家形成了一种本能的决策过程:他们知道主要的影响因素,掌握了自己的那套思考方式,理解自己的动机,也预见到了矛盾的来源。至关重要的是,他们重新整理了用逻辑捆扎的信息,来打动那些喜欢直觉和情感多于证据的人们。鉴于了解事情的背景对应用科学家的工作非常有价值,因此我在故事的叙述中加入了大量的相关枝节。

总结一下,应用科学对成功的量度跟理论科学截然不同。比如,谷歌就认识到了这种区别,因此出台了著名的“20%”时间政策。他们准许工程师们将每周的工作时间一分为二,一部分用于他们所选择的纯理论项目,另一部分用于应用项目。要特别强调的是后者占了80%的时间!

数据已经统治我们的世界。对这个事实你决不能一无所知。看看应用科学家是如何利用统计式思维来改善我们的生活的,你会惊奇地发现,在日常生活中,你也能运用数据来做决定了。

后记

为什么要翻译这本讲统计式思维的书呢?这要从我的硕士专业讲起。我本科读的是中文系,硕士学的是语言测试,这是一门语言学与教育学的交叉学科,需要用到很多统计学知识。这对出身文科的我来说,自然是一个不小的挑战。无奈之下,我只好耐着性子补课。从最简单的应用统计学人手,渐渐延伸到数理统计的领域。书读得多了,就慢慢悟出些道理:若要区分本末,那么统计技术是末,统计思想才是本。要学好统计学,就必须把统计学的基本思想搞清楚。比如“小概率事件发生的可能性为零”,道理虽然简单,但是很多重要的统计技术都是从这些基本思想中生发出来的。有了这个认识,我就开始读一些类似统计科普的著作,比如《黑天鹅》。后来,又从朋友那里看到了冯启思先生的大作《数据统治世界))o翻了翻觉得有趣,就有了将其译成中文的想法。好书不敢独享,希望更多朋友能够一起学习。

统计数据渗透进人们生活的方方面面,对一个普通人来说,重要的不是掌握多么复杂的统计技术,而是掌握一种数字化的生存方式:运用统计式思维经营人生、解读身边发生的大事小情,做一个不为统计数据蒙蔽双眼的现代人。显然,冯启思先生所写的《数据统治世界》就对你有这些帮助。

冯先生的这本小书,很接地气。书的内容跟统计学有关,可通览全书却见不到一个繁琐的数学公式。编写统计学教科书简单,但是要做到深人浅出,将深奥的统计学知识讲清楚,没有多年的积累是做不到的。正如冯先生坦言,这是他多年来从事统计工作的一个总结。

这本小书,读起来妙趣横生,因为书里援引了很多发生在我们身边的,或者见诸报端的新闻旧事,比如,上下班问题、排队问题、信用分、标准化考试、飞机的安全性、飓风保险、流行病追踪等。这些问题,就发生在我们身边,所以读起来倍感亲切。对这些问题,我们也许会有一些朴素的想法,而那些想法又未必正确。冯先生跟我一道,追溯了这些事件(例如“毒菠菜”事件)的来龙去脉,以及在这个过程中应用统计学家们是如何利用统计式思维来解决问题的。采用这样的写法,不仅避免了说教,而且饶有兴趣,读者有一种身I临其境、身处现场的思考感。读者在这个情境一思考—情境的循环往复中,不知不觉地习得了一种新的思维方式。我觉得这就是本书最大的优点。

作者希望您在读完本书之后,能灵活自如地运用统计式思维,做生活的主人。如果您能够养成这样的思考习惯,那么就不是“数据统治你的世界”,而是你“统治了数据”,让数据为自己的决策服务了。

在本书的翻译过程中,我的朋友郭鹏、谢妮妮、邱丽娜等人,提供了很多帮助,在此表示深深的谢意。

书评(媒体评论)

书中所描述的事件都是新闻记者关注的热点问题,事件内幕经由数据阐释出来令人醍醐灌顶,同时数据也揭示了世界的动态性,这正是本书的魅力所在。

——约翰·萨尔美国赛仕软件研究所执行副总裁、著名统计学家

自组织数据挖掘技术正在冲击着我们的世界,有些人对此感到惴惴不安。冯启思的这本书开启了一扇窗,让我们看到预测分析的利与弊。

——伊恩·艾尔斯耶鲁大学教授

标签
缩略图
书名 数据统治世界(如何在数据统计中的挖掘商机与做出决策)
副书名
原作名
作者 (美)冯启思
译者 曲玉彬
编者
绘者
出版社 中国人民大学出版社
商品编码(ISBN) 9787300177540
开本 16开
页数 248
版次 1
装订 平装
字数 188
出版时间 2013-09-01
首版时间 2013-09-01
印刷时间 2013-09-01
正文语种
读者对象 研究人员,普通成人
适用范围
发行范围 公开发行
发行模式 实体书
首发网站
连载网址
图书大类 经济金融-金融会计-会计
图书小类
重量 0.388
CIP核字 2013154760
中图分类号 C8-49
丛书名
印张 16.75
印次 1
出版地 北京
230
170
17
整理
媒质 图书
用纸 普通纸
是否注音
影印版本 原版
出版商国别 CN
是否套装 单册
著作权合同登记号
版权提供者
定价
印数
出品方
作品荣誉
主角
配角
其他角色
一句话简介
立意
作品视角
所属系列
文章进度
内容简介
作者简介
目录
文摘
安全警示 适度休息有益身心健康,请勿长期沉迷于阅读小说。
随便看

 

兰台网图书档案馆全面收录古今中外各种图书,详细介绍图书的基本信息及目录、摘要等图书资料。

 

Copyright © 2004-2025 xlantai.com All Rights Reserved
更新时间:2025/5/9 20:13:52