丘吉尔与数据分析

作者: Nicolas Glady, Bart Baesens, 朱

   数据分析已经存在有相当长一段时间了。早在二战期间,它便是同盟国胜利的关键因素之一。同盟国数据分析活动著名的例子,包括破译Enigma密码避免德军潜艇攻击、使用喷火式战斗机拍摄的2D图片重构3D图像,帮助英国皇家空军的情报人员分析如何在霸王行动中规避德军V1和V2的攻击。从与那个时代中数据分析相关的活动和人物那里学到的经验,对我们具有无比重要的意义。二战同盟国领导人之一、英国首相丘吉尔,很多人会误认为“我只相信我自己篡改的数据”【1】这句话是出自他之口。尽管这句话蕴含了典型的“英国佬式的智慧”,但实际上,这是德国纳粹宣传部门的杜撰,用以讽刺丘吉尔。即使是这样,丘吉尔依旧教给了我们一些与数据分析相关的有用的东西。

   一个好的数据分析模型应该满足应用领域的基本要求,遵循一定的流程。数据驱动分析CRISP-DM体系为此提供了一种结构化的方法路径。CRISP-DM包括了商业理解、数据理解、数据准备、模型设计、模型评估、模型部署等部分。作为1953年诺贝尔文学奖的得主,丘吉尔有很多名言,可以帮助我们更好地理

crisp-dm_process_diagram
   任何数据分析项目都应该起始于一个商业问题,然后提供解决问题的方案。数据分析不是纯粹的技术、统计或是计算机练习,任何数据分析模型都需要是可操作的。例如我们可以通过一个模型来预测信用卡诈骗或客户流失率这些问题。经理和政治家一样是决策者,因此他们需要有像丘吉尔所说的“预言明天、下周、下个月、下一年…将会发生什么的能力,还需要有解释事情为什么没有发生的能力”【2】。换句话说,即使模型没有预测成功,但它拥有一种以易懂的方式解释流程的能力,这一点仍然至关重要。

具有可操作的方法—旨在解决现实的商业问题

   为了将模型和业务联系起来,相关各方需要在进行分析寻找解决方案之前,界定和描述问题。例如,尝试去预测10年后或者更长时间后会发生什么,从日常运营的角度来看没有任何意义。正如丘吉尔所言“预测太过遥远也是一种错误,一次只能处理命运链条中一环”【3】。很多在企业中使用的数据分析模型预测范围不超过2-3年。

理解你掌握的数据

   数据和理解之间有相当大的鸿沟,丘吉尔认为“真正的天才拥有处理不确定、危险、冲突信息的能力”【4】。对大多数的商业问题而言,大数据是一个复杂而且不快捷的解决途径。它要花费大量时间去运作,而且起初甚至看不太清楚前景。商业数据分析专家的职责是去真正地理解数据并且选择最重要的数据源和变量。

准备数据

   一旦有用数据的全景浮现了,分析专家将会通过整合不同数据源、选择相关变量、清理数据集来为建模做准备。这通常是一个耗时且单调乏味的任务,但必须完成,如那句名言所说“如果你正在经历炼狱,那么请继续走下去”【5】。

   一定记得尽可能多地去借鉴历史信息。当尝试预测未来事件时,使用过去的交易数据是非常有效的,因为大部分的预测力都来自于这类型数据“越是回顾历史,越能预见未来”【6】。

建模:要精简!

   数据分析模型不仅要有效,而且要容易解释。

   模型一定要有统计显著性和预测力:“诚实是件好事,但保证正确性也很重要”【7】。如何度量取决于分析模型类型。例如,在分类模型中(比如客户流失或者欺诈),模型要有好的判别能力。在聚类模型中,同一类应该尽可能保持同质性。

   但是,如果一个人太过注重统计精度,就有得到黑箱模型风险,黑箱模型在多数商业情景中不容易被接受。典型的例子就是神经网络,它的模型效果很好,但是没有提供对数据模式的洞察力。相反,线性回归模型非常容易被理解,但只提供了有限的建模效果。

   可解释性指数据分析模型和它描绘的模式能够很灵活、很容易被理解。对一般的商业使用者而言模型不能太过复杂。例如,在信用卡风险模型或者医学诊断中,需要的是具有可解释性的模型,以提供对内在数据模式的洞察力。“所有伟大的东西都是简单的,很多能被表述成几个简单的词汇”【8】。

   为了获得可解释性,模型需要简洁,它需要找到一个模型效果(如描绘复杂过程的能力)和可解释性的平衡点,让模型如同专家一样有一种以综合方式提供相关内容的能力。任何人不想让模型处于这样一种境地“文件的长度很好地抵御了被读的风险”【9】。

评估模型

   “无论战略有多漂亮,你也应该偶尔看看结果”【10】换句话说,数据分析模型应该同时具备经济效率和运营效率。

   为了获得经济效率,商业数据分析专家需要把分析中产生的成本考虑进去,这包括收集、预处理、分析数据和模型产品化等成本。软件成本、人力资源流失和硬件投入都应该考虑在内。在项目开始时,要做一个投入产出分析。

   运营效率指在实际应用收集数据、数据预处理、评估模型、满足产量所付出的努力。在现实中,线上评估(如欺诈监测)可能至关重要。另外,运营效率也指监控和后验测试、必要时重新测试模型需要付出的努力。

持续完善的过程

   分析模型本来就在持续的演进中,“改进是为了完善,经常改进是为了完美”【11】。有时候甚至在第一个模型版本出来之前,商业分析专家就会意识到一些调整和微调是必要的。这是由于商业流程本身就是变化的,所以模型需要适应这种变化,或者由于模型不理想需要微调。“成功是克服一个个失败同时不失去激情的能力”【12】。

模型部署

   最后,在紧张激烈努力和完整透彻的分析之后,你的提议可以付诸实践了。你的策略和行动再也不会是基于直觉的了,再也不是模糊概念,它变成事实和数据导向型的。正如丘吉尔先生自己做的,你将“欣慰地从原因和理论的翻腾大海中穿行至结果和真理的大地”【13】。

数据分析:血鲜、牢笼、眼泪和汗水

   成功地领导一个数据分析项目需要遵循一定的过程:界定商业问题来确保你的方法将产生可行的结果;理解和准备好数据;建造一个简约、效果好的模型;能够很容易地不断完善模型。为次,你需要使数据分析具有可操作性、统计上有效且有可解释性、具备经济效率和运营效率。

   如果这样过程看起来很复杂,谁能引导你走向成功?那就是在统计、IT、编程、商业洞察力和沟通交流技能等方面具有全方位的平衡能力的数据科学家。他们在这些方面训练有素,将成为未来商业分析过程的核心。不幸的是,现有的人员中同时具备项目经理、商业分析师、专业程序设计师、和统计等专业知识的人凤毛麟角。这是一个数据驱动经济时代,只需要极少的专家就能掌控以前需要整个团队管理的活动,正如丘吉尔所言“在人类战争史上,从来没有一次像这样,以如此少兵力,取得如此大的成就,保护如此多的众生”【14】。

英文注释:

【1】I only believe in statistics that I doctored myself.

【2】The ability to foretell what is going to happen tomorrow, next week, next month, and next year…And to have the ability afterwards to explain why it didn’t happen.

【3】It is a mistake to look too far ahead. Only one linkin the chain of destiny can be handled at a time.

【4】True genius resides in thecapacity for evaluation of uncertain, hazardous, and conflicting information.

【5】If you’re going through hell,keep going.

【6】The longer you can look back, thefather you can look forward.

【7】It is a fine thing to be honest,but it is also very important to be right.

【8】All great things are simple, andmany can be expressed in single words.

【9】The length of this documentdefends it well against the risk of its being read.

【10】However beautiful the strategy,you should occasionally look at the results.

【11】To improve is to change; to be perfect is to have changed often.

【12】Success is the ability to go from one failure to another with no loss of enthusiasm.

【13】Pass with relief from the tossing sea of Cause and theory to the firm ground of Result and fact.

【14】Never (…) was so much owed by so many to so few.