首页 > 科技快讯 > 麦肯锡的5堂课,助你成为更优秀的数据科学家

麦肯锡的5堂课,助你成为更优秀的数据科学家

神译局是36氪旗下编译团队,关注科技、商业、职场、生活等领域,重点介绍国外的新技术、新观点、新风向。

编者按:成为一名优秀的数据科学家需要具备哪些“软技能”?本文来自编译,希望对您有所启发。

数据科学是近年来最热门的领域之一,吸引了大量优秀人才加入竞争,争夺顶级公司数据科学团队的一席之位。有很多文章教你如何准备数据科学岗位的面试,并“从其他面试者中脱颖而出”,但你的征程当然不会止步于被录用,这仅仅只是第一步。然而,却没有多少人关注一旦你通过面试并加入公司,又该如何从公司里的众多数据科学家中脱颖而出。

在麦肯锡咨询公司(McKinsey & Company)工作期间,我曾有幸与麦肯锡以及其他顶级公司的优秀数据科学家合作,并观察总结出那些合作伙伴和客户赞誉有加的数据科学家所拥有的共同特征。也许你们中有人会感到惊讶,表现最好的数据科学家不一定是那些构建出最精美模型或编写出最高效代码的人(当然,他们必须通过相当高的技术性技能门槛才能被雇用),而是那些除了分析能力之外还拥有许多重要“软技能”的人。 本文将我在麦肯锡的宝贵经验和观察总结为5堂课,希望助你成为更优秀的数据科学家。

作为一个热爱精准度的数据人,我想明确一点,尽管“数据科学家”这个职位包括许多不同的工作类型,但本文主要是针对那些能够影响到商业决策的数据科学家,而非以研究为主的硬核数据科学家。

第一课:自上而下的沟通至关重要

自上而下的沟通,或金字塔原则,是由麦肯锡合伙人芭芭拉·明托(Barbara Minto)创造和普及的,被许多人视为商业领域(甚至个人生活中)最高效的沟通方式。尽管对于像战略顾问这样的人来说,与人沟通如同第二天性,但很多数据科学家还是在沟通方面吃了亏。这个沟通方式的原理很简单,当你想要交流某个想法或观点时,最高效易懂的方法是:开门见山提出关键观点,然后给出支持观点的主要论点。如有需要,还可以在论点后添加数据支撑。

采用自上而下的沟通是有利的,原因如下:

1. 传达关键要点是最重要的。如果你在电子邮件/备忘录的开头看到过 TLDR(Too Long Didn't Read的缩写,意为概要),或者在研究论文的开头看到过内容提要,你就会明白这一点的重要性。预先传达关键信息将确保你的听众即使没有抓住所有细节,也能了解大意。

2. 为不同受众量身定制演示材料:你可以为公司的高层准备一份包含关键要点的演示材料,再为其他受众选择性增添细节信息。

不幸的是,对于十分注重细节和分析的数据科学家来说,运用这种沟通架构可能有些困难,甚至是反直觉的。我经常看到数据科学家以很深入的细节开始他们的演示或沟通,结果还没有把关键信息传达清楚就已经让观众感到云里雾里了,这种例子不胜枚举。

如何付诸实践:一个简单的练习方法,就是在会前根据这个架构把想讲的内容记下来,以保证在交流关键分析成果时,整个沟通保持在正轨上。还有一个有益的做法是,经常反问一下自己真正想解决的问题是什么,问题的答案往往才是要传达的关键信息。

第二课:成为自己的数据“翻译官”

你可以看一下麦肯锡推荐的公司数据组织蓝图,上面强调了数据的”翻译官“这个角色的重要性,它被认为是业务和数据团队之间沟通的桥梁,把数据分析的结论翻译成实际可行的方案(我猜想这个角色的诞生部分源于我上述观点所遭遇的挫败)。我敢肯定,作为一名数据科学家,人们肯定要求过你“像对着一个 5 岁小孩一样解释它”或者“用浅显易懂的语言解释它”。从其他人中脱颖而出的数据科学家正是能够做到这一点的人——自己做自己的“翻译官”;如果被问到,他们可以向既没有分析背景也没有时间阅读白皮书的首席执行官们很好地解释他们的ML(Machine learning,机器学习)模型,并且他们总是可以将分析结果与业务影响联系起来。这些数据科学家之所以受到重视,原因如下:

1. 从没有数据分析背景的人群中找“翻译官”是件很困难的事:麦肯锡的确尝试过把一群战略顾问培训成针对不同分析研究的“翻译官”,但在我看来,这种努力从未成功过。原因很简单:只有具备分析型思维模式和深刻理解力,才能精准地解释那些复杂数据分析里的关键要点,并准确地反映注意事项,而这些都是无法通过短期培训速成的能力。例如,如果不懂肘部法则,那你怎么解释为k均值聚类算法而选择的簇数?如果不懂什么是SSE,你又怎么解释肘部法则?作为一名数据科学家,与其把时间花在教这个无所成就的速成班,倒不如用来打磨你自己的沟通风格,自己翻译那些数据。

2. 如果数据科学家能够自己解释自己的分析,就能避免精准度的缺失:我相信大多数人都玩过“传声筒”或与之类似的游戏。信息传递的时间越长,就越难以保持其精准度。现在想象一下你的分析成果将面临同样的过程。如果你依赖别人来解释或翻译你的成果,当传递到终端用户时,它可能会与现实大相径庭。

如何付诸实践:与朋友(最好是没有任何分析背景的朋友)一起练习,向他们解释你的模型或分析(当然要避免透露任何敏感信息)。这也是发现你的“翻译”方法中存在的知识差距的绝佳方法,正如“伟大的解释者” 理查德·费曼(Richard Feynman)认为的那样,如果你发现你不知道如何通过简单易懂的方式解释某个概念,大部分情况下是因为你并没有完全掌握它。

第三课:以解决方案为导向是第一法则

这不仅只适用于数据人才,对于公司任何职能/角色的人来说,这都是必不可少的。能够发现问题并引起关注当然非常有价值,但更值得赞赏的是提出潜在解决方案的能力。 如果房间里没有一个以解决方案为导向的人,讨论往往就会原地兜圈,困扰于问题本身而不是试图找出前进的道路。

在大多数顶级咨询公司,以解决方案为导向是第一条法则,而且在我看来,这种方法也应该被用到科技界。作为一名数据科学家,你可能经常会遇到令人沮丧的情况,比如当人们由于缺乏分析背景而提出荒谬的数据问题时。我见过无数的数据科学家不知道如何应对这些情况,并且因为一直是反对者而在利益相关者的管理层面前碰壁。与其一味地否决他们,不如以解决方案为导向,通过你对数据和分析工具更好的理解来帮助他们重新定义问题并限制范围。

以解决方案为导向并不意味着你永远不能对任何事情说“不”,又或者你总得设计好最完美的解决方案;而是意味着,在你所说的每一句“不”后面,你总是能接上一句“但也许我们可以这样做……”。

如何付诸实践:当你发现问题时,请先花点时间思考一下可以解决问题的潜在方法,然后再将问题抛给你的团队或经理。在解决问题时发挥你的创造力,不要害怕成为那个提出新解决方案的人。尝试着以整个公司或者其他业务部门的角度去思考他们会如何解决这个问题,也将有所帮助。纵观全局通常能帮助你把信息点串联起来,并引导你找到创造性的解决方案。

第四课:在商业环境中建模时,可解释性胜过精确性

没有人真的想预测出客户流失的结果,所有人都只是在试图理解客户为什么会流失

如今,当每一家公司都在构建预测客户流失率的模型时,我们很难退后一步问自己为什么一开始要预测客户流失率。公司想要预测客户流失,以便找到可行的解决方案来防止流失。 因此,如果你的模型告诉首席执行官“网络访问次数的立方根是标示流失的最重要特征之一”,那么他可以用这些信息来做什么?很有可能什么也做不了……

作为一名数据科学家,和你们中的许多人一样,我曾经只关注准确性,把它作为建模的唯一成功指标。但我逐渐意识到,如果你不能将准确性与业务影响联系起来的话,那么就算你通过添加难以解释的功能和微调超参数将准确率从 96% 提高到 98%,也毫无意义(同样,这只适用于面向业务的数据科学家,对于 ML的某些领域来说,准确性的增加很可能意味着一切)。

如果模型是一个黑匣子,也同样很难获得C级高管的信任。模型最终是指导商业决策的一个工具,因此它的价值主要基于其实用性和可解释性也就不足为奇了。

如何付诸实践:在构建模型或进行分析时,始终牢记业务影响。建模过程中,避免放一些随机的交互特征,并期望其中能有始终不变的特征。相反,应该做的是在建模之前就提前思考特征构建阶段。把来自模型/分析的商业建议写下来也将帮助你重新评估建造模型时所做的设计选择。

第五课: 确保提出一个假设,但不是一成不变

从特征探索到探索性数据分析 (EDA),将假设作为大多数分析的起点非常重要。如果没有假设,你将无法确定如何对 EDA 的数据进行切片和切块,或者首先测试哪些功能。如果没有假设,甚至都没有任何意义进行 AB 检验(这就是为什么它被称为假设检验)。但经常地,我会观察到数据科学家没有清晰的假设就进入分析阶段开始埋头苦干,然后掉进无底洞里。或者更常见的是,数据科学家将假设构建过程完全留给无法看到数据的团队成员,后来才意识到没有足够的数据来检验这些假设。在我看来,最好的方法是让数据科学家从一开始就参与那些提出假设的头脑风暴会议,并使用假设来指导后续分析并确定其优先级。

尽管假设很重要,但它们应该作为起点,而不是终点。我一次又一次地看到许多数据科学家(或与数据科学家一起工作的人)坚守着一个假设,尽管有了与之相矛盾的发现。这种对最初假设的“忠诚”将导致数据窥探和篡改数据以符合某种叙述。如果你熟悉“辛普森悖论”,就可以理解数据讲述“错误故事”时的威力。优秀的数据科学家应该能够保持数据完整性并调整叙述以适应数据,而不是反其道而行之。

如何付诸实践:为了提出好的假设,增强业务理解力和敏锐度很重要。在数据探索过程中,将假设牢记在心并以此为指导,但当数据呈现出与你最初的“有根据的猜测”不同的结果时,请保持开放的心态去接受。具有良好的商业意识也将帮助你一路调整你的初始理论,并根据数据调整你的叙述。

当涉及到面向企业的角色时,人们往往把人才分为两类:分析型人才和战略型人才,就好像在暗示一个人无法同时拥有这两种能力。不过,我告诉你一个秘密,最优秀的分析型人才恰恰是那些既能理解企业战略和业务政策,又懂得如何和企业利益相关者沟通的人。而最优秀的战略型人才也恰恰是那些具备数据分析能力的人。

译者:Yanman

相关推荐

麦肯锡的5堂课,助你成为更优秀的数据科学家
4个简单的数学原则,帮助你做出更明智的决定
5个可以帮助你提高工作效率的新AI工具
中国师生的网课图鉴
专访CMU Argo Lab首席科学家John Dolan:自动驾驶的技术攻坚在“最后5%”的长尾问题,L5级自动驾驶仍然遥远
麦肯锡访谈:人造肉企业Impossible Foods想让人类在2035年停止食用动物产品
年薪百万的95后网课老师:流水线熬出的幸运儿,比明星出道更难
聚焦“互联网+医药”电商新零售,「泉源堂」完成5亿元C轮融资
麦肯锡报告显示:全球私募股权的退出几乎已经停止
风口上的 AI 互动课:在线教育选手的“新战场”

网址: 麦肯锡的5堂课,助你成为更优秀的数据科学家 http://m.xishuta.com/newsview64032.html