找寻你的数据科学家

作者Bart Baesens, 朱兵,Seppe vanden Broucke

    正如《大数据分析-数据科学应用场景与实践精髓》一书所述,大数据分析日益成为一个热门话题。根据IBM的预测全世界每天产生的数据量多达2.5*1021(ZB)字节。也就是说,世界上接近90%的数据都是在近一两年产生的。据Gartner公司预计,到2015年世界500强中将有85%的企业面临缺乏大数据探索能力的难题,而全世界将出现四百万数据分析工作岗位空缺。我们不能以一种绝对的方式来阐释上述的统计数据,但是它从一个侧面说明了我们这个世界对于大数据分析人员和技能的迫切需求。随着企业数据的集聚,如何对数据资源进行有效的分析和管理已经成为企业创造竞争优势的关键所在。为了应对这一挑战,企业开始雇佣数据科学家为之服务。然而在业界,对于怎样才算一个合格的数据科学家存在着分歧。本文将一一解读数据科学家应具备的五个维度关键特征。作者多年来与世界上很多企业在大数据分析方面有着广泛的合作,本文所陈述的观点来自其多年的研究和咨询经验。

程序设计能力

    数据科学家每天都在跟数据打交道,涉及到数据抽样、预处理、建模以及后续处理(例如敏感性分析,模型部署、测试和验证)等多项工作。尽管目前市场上有很多软件可以使这些工作自动化。但每个商业问题都具有其特殊性,需要数据科学家进行定制化分析,而编程是完成分析的关键。所以,数据科学家需要能够熟练掌握R、Python、SAS等编程语言。使用何种编程语言并不重要,重要的是熟悉程序设计的基本概念并且知道如何通过它们来进行数据分析,并将重复性和常规分析工作自动化。

坚实的定量分析基础

    数据科学家应该在统计学、机器学习和数据挖掘三方面具有坚实的的基础。这些学科之间的界限十分模糊,它们都提供了一系列的定量技术来帮助分析数据,找出特定商业环境(例如风险管理、欺诈检测)下的相关模式。因此数据科学家应知道何时使用何种技术,他们不应过多聚焦于数学细节,而更应该侧重关注和理解所要分析的问题以及对分析结果的解释。这就要求我们必须从一个多学科交叉整合的角度对商业分析等相关专业学生进行培养教育,使其在毕业时既具备坚实的定量分析基础,又拥有良好的商业触觉,并能使用所学技术为企业服务。在商业分析中,花费足够的时间验证分析结果和讨论虚假的相关也尤为重要,由此可以避免出现对数据的有意篡改和歪曲(俗称:data massage)。所以,数据科学家在选择最优定量模型时,应该充分考虑具体商业问题的特殊要求。对于商业分析模型的要求包括如下几方面:可操作性(模型能多大程度上解决该商业问题);效果(模型的建模统计效果如何);可解释性(对决策者来说模型是否可以很好的解释);运行效率(需要花费多少人力及物力来设计、评价和估计模型);规范性(模型是否与现行企业制度规定相符);经济成本(模型构建、运行和维护成本有多大?)。数据科学家只有综合考虑以上几点要求,才能够选择出最优的分析技术解决商业问题。

卓越的沟通和可视化分析

    商业分析是一项技术性的工作。在模型和用户之间始终存在着一个巨大的鸿沟。要跨越这个鸿沟,沟通和可视化缺一不可。因此,数据科学家必须能够将分析模型和相应数据统计结果以一种 “用户友好”的方式展现出来。其中可以使用traffic light方法、OLAP在线分析处理技术、If-then 规则等等。数据科学家应恰当好处的传递信息量,不因陷入到复杂的具体统计细节中而影响模型的应用。只有这样用户才能够对于数据展现出来的特征有更好的理解,更容易接纳模型分析结果。然而,目前对数据分析人才的教育培养模式处在两个极端,要么太技术学术化,要么太实践化,这一模式必须改变,我们需要在技术和实践直接之间寻找一个平衡点。

良好的商业理解

    商业数据分析失败的案例并不鲜见,失败的原因多是由缺乏对商业问题的理解能力引起。这里的“商业”指的是具体的应用领域,它既可以是企业流失预测、信用评价等问题,也可以是天文学和医学问题。

创造力

    数据科学家至少应该在两个层面上具有创造力。其一是在技术层面,应在特征选择、数据转换和清理方面具有创造力。这些知识发现的基本步骤须要针对具体的应用进行调整。有时候一个正确的“猜测”常常会带来一个意想不到的结果。其二,数据分析是一个急速变化的领域,新的问题、技术和挑战层出不穷。因此,要做一名合格的数据科学家,与时俱进,时刻保持创造力,能够创造性地使用新技术显得至关重要。

 总结

    在本文中,笔者阐述了企业雇佣数据科学家时,应该侧重考察的五个维度关键特征。总结起来,由于大数据分析具有多学科交叉的性质,使得数据科学家应该具有:程序设计,定量建模,沟通能力与可视化,商业理解和创造力在内的多方面技能,下图就五种能力进行了展示。企业在聘用自己的数据分析人才时,应该从这五个维度来进行评判,而教育机构也应该从这五个方面来整合培养大数据分析人才。