驾驭大数据 《驾驭大数据》经典语录
集中化的企业级数据仓库已经成为了一种趋势,而这种趋势给数据分析,特别是复杂的高级分析带来了巨大的影响。数据仓库把企业内的数据集中到一个地方,分析师们再也不用为了某一项分析把数据挪来挪去进行整合了,数据仓库里的数据已经被整合好了,分析师可以直接进行分析。这些技术开辟了一个新的分析世界,让分析具有了更大的可扩展性与更多的可能性。
企业级数据仓库的目标是把企业所有重要的数据都集中到一个中央数据库中,从而创建对于事实唯一版本的描述。数据仓库把不同数据进行交叉关联,让不同业务主题与数据领域的关联分析与报表成为可能。财务数据与市场数据完全割裂的时代一去不复返了。
让事情变得更有趣的是,一旦所有的数据都在一起了,分析时就再也不用从不同的数据源抽取数据了。越来越多的分析都可以直接使用数据仓库内部的数据完成。
二、公有云
优点:
1、网络接入是必要的,用户只为他们的使用付费。
2、用户不再需要去构建一个能满足其最大资源需求的系统,然后承担大部分时间系统资源闲置的风险。
3、如果有突发性的任务处理需求,在公有云环境下,用户可以很快地得到新的系统资源,用户只需要为这些新资源付费即可。
4、系统部署通常来说很快。只要可以连接到公有云环境,用户上传了自己的数据,立刻就可以开始分析工作。
5、根据公有云的定义,数据是保存在企业内部防火墙之外的系统中,这让不同区域之间的数据共享变得简单,任何人都可以被授予登录系统并使用这些数据的权限。
缺点:
1、通常来说,公有云不会提供性能方面的承诺。根据公有云的定义,在同一时间可以有很多人对同一份数据或资源发起一系列的大型查询。当然,您也可以购买一台只供您自己使用的云服务器。
2、这会带来性能方面巨大的不确定性。一旦提交了一项处理任务,系统能在多长时间内完成是不确定的。历史的经验可以作为判断依据,但并不能保证这一次会一样。
3、对数据安全性的担忧一直存在。虽然很多人可能认为这种担心没有必要,因为这只具有理论上的可能性,但人们对数据安全性的认识本身就是一个大问题。
4、如果被广泛的使用,公有云可以变得非常昂贵,因为它会对每一个用户的所有使用行为进行收费。效率不高的“坏”查询可能会耗费大量的系统资源,而现在这些“坏”查询在你自己的系统里也会出现,但不会带来任何直接的实际成本,而在公有云环境下,你却可能因此被收取一大笔费用。
5、如果需要对数据进行持续跟踪,并对数据的保存地域有明确的要求,那么就无法使用公有云。在公有云环境下,你甚至无法确定数据是不是还全部保存在本国范围内。
综上分析,对公有云来说,最适合的使用方式是纯粹的研发类工作。在这种情况下,系统性能的不确定性变得没那么重要。如果一个分析专家想对某些新的数据进行实验性地探索研究,希望发现这些数据的价值,公有云则是一个非常好的选择。
分析专家可以把大把的时间放在分析、探索等工作上,而不需要考虑性能的问题。只有在准备进行分析流程的部署时,系统性能才会变成一个关键问题。对于那些不是非常重要的分析流程,甚至某些流程的部署工作,公有云都是一个可行的长期选择。
三、分析方法和分析工具
1、重要的是专注于可视化的影响力,让一个观点更容易的被看到和理解。可太多的人沉溺于使用绚丽的分析图形,仅仅因为他们可以这么做。事实上,简单才是最好的,除非有明确的需求,否则不应该使用过于绚丽或复杂的图形。
2、新的数据输入对模型的影响要远远大于新的工具或方法。在传统的分析流程中增加新的数据会显著提升分析效果,这比新工具和新方法的提升更多更明显。这就是为什么重要的是获取大数据,而不是简单地升级并处理你已有的数据。这种效果提升要远远大于逻辑回归或组合模型等具体算法的创新。工具的进步有助于获得最新的数据源,但是数据本身才是最重要的价值驱动因素。这就是为什么企业要不断收集和使用各类可用大数据源的根本原因。
四、驾驭大数据:人和方法
1、思想是分析之父。分析可以生成报表,报表也可以生成分析。大多数情况下是报表生成分析。例如,你可能有是个报表在桌子上,把握它们中的关键信息,总结出你的新发现,并搞清楚这意味着什么,这就是分析。正是人们在数据和统计领域中的思想和思考创造了分析。没有经过翻译和解释的数据和统计是没有用的。
2、分析的价值在于使用不同的方式观察数据。分析的关键不是将问题复杂化。有时一个简单的分析就会提供所有的答案。以不同的方式看待数据常常会产生强大的洞察。如果没有必要更花哨,就停止在当前的程度上。另外,要乐于发现新的、简单的解决方案,并快速把注意力转移到下一个问题上。
3、优质分析符合GREAT原则(指导性、相关性、可解释性、可行性、及时性)。
4、正确地分析问题:为了得到一个优质分析,需要提出正确的问题,收集正确的数据,设计能够解答这个问题的正确的分析方案。也许优质分析和劣质分析最重要的差别就是能否正确地分析问题,其次的差别是在开始阶段是否建立了正确的问题分析框架,而这些都发生在分析流程开始之前。
建立问题分析框架和设计分析方法比后续进行的一切工作都更加重要。如果没有很好的分析问题,设计了一个糟糕的分析框架,那么这项分析工作将是不精确的且没有任何价值。我们需要适当地强调分析框架的建立和设计的过程,以确保分析框架是正确的,否则将不可能得到一个优质分析。
优质分析来自于正确的问题分析框架,这包括正确地评估数据,制定详细的分析计划,并考虑各种技术和可能出现的各种问题。可以说,构建问题分析框架是做出优质分析的关键步骤,如果这一步没有做好,随后的工作将很难做好。
永远不要走捷径:当你只知道故事的一部分,你得到的结论可能是完全错误的。所以永远不要采取简单的分析就认定结果时确实可信的,还坚持没必要进行任何形式的统计显著性测试。因此,要始终确保你拥有所需的全部数据,在得出结论之前,还要对这些数据做各种测试。
一个出色的分析能带来价值,而不是干扰:理解统计显著性和业务重要程度的差异与关联是非常重要的,尤其是在这个数据泛滥的时代。分析专家们会从海量数据中发现有趣信息。当数字反常时,他们会说:哇,真奇妙!但不要忘记去确定它的业务重要程度。分析工作的一个组成部分就是确认分析的发现是否成立,以及是否具有业务相关性和可行性,否则,这项分析没有任何价值。
就像统计学里的这句谚语:只有能带来差异的差异,才是真正的差异。
使用样本数据获得解决问题的分析方法后,就需要使用全部数据进行分析了。
一个出色的分析会尽可能的简化决策者的决策难度。当然,决策者需要做出最后的决定,但重要的是,分析的汇总结果能够提供科学决策的基础。一个出色的分析需要初步推断所应该采取的行动,而不是简单的数据估计。仅仅生成一个报表并不是分析,简单地提供数据或者专业信息也不是分析。
本章总结:
1)报表不是分析。生成报表通常是分析的开始,如果被恰当地使用,分析和报表能够互相促进、相得益彰。
2)分析时依据事实进行决策的,以解决实际的业务问题,并推断出应该采取的措施。分析流程中可能会用到从报表到预测模型等的各种方法与工具。
3)高级分析的范畴不仅仅是回答“发生了什么,会有什么影响”这些简单的问题。它要进一步深入地研究,“为什么会发生”,以及“我们能做什么”。
4)分析最重要的部分是,在事情发生之前作出判断,能否建立对正确问题的分析框架会直接影响到分析工作的成败。
5)统计显著性测试只是提供了结论正确的概率。把显著性水平测试结果中较小的那部分概率与实际的错误联系起来。
6)虽然对全体进行分析是可行的,但是它可能会带来额外的成本与工作,还没有太多实际效益。因此,在很多情况下,包括分析大数据,抽样都是一种好的策略。
五、如何成为优秀的分析专家
1、分析人员的日常工作是利用数据解决业务问题。优秀的分析专家需要很强的数学和统计学背景知识。能够融入团队的分析专家是能够理解亟待解决的业务问题,理解如何才能有效的帮助业务部门解决他们的问题。
2、每一位优秀的分析专家都是独特的。他们拥有满足工作需要的实用分析技能。一名卓越的分析专家不分行业,他能很快地在新的行业里变得非常优秀。而平庸的分析专家很可能还驻留在原地踏步。
任何优秀的分析专家都会言出必行。
创造力的存在就是要解决这些困难,并得到最终结果,达成目标。
有创造力的人讲出来的故事往往很动听,而没有创造力的分析专家只会把自己解决问题的步骤简单的罗列出来。
追求完善,而非完美:解决业务问题时,我们追求的目标应该是不断完善,而非追求完美,理解这一点很重要。如果只要把数据弄得干净一点,就能获得一些工作成果和提升机会,这该有多好。优秀的分析专家关心的是如何完善工作成果,如何从不标准的数据中努力获得他们想要的结果。分析结果本身可能并不完美,但它们足以支撑决策,我们大可以以此为基础不断地改进策略,这样就已经很好了。
站在分析项目投资方的角度看,分析结果对于判断项目是否成功最多占了50%,剩余的50%就体现在分析专家的演讲能力和将结果文档化的能力上。他们能有效地定位分析结果吗?分析专家能否吸引听众的方式陈述结果,并让听众放心地采取行动?我认为这一点再怎么强调也不为过。
无论分析方法本身有多么吸引人,优秀的分析专家也不应该只关心分析方法本身。他们应该留出时间来想如何才能正确的解释、定位结果,并将分析结果更好地兜售给分析的投资方。
有些算法本身没有多少艺术处理的余地,但保持艺术的态度肯定可以更好的支撑决策、定义问题、设计分析方法,以及根据手头数据得到解决方案。优秀的分析专家即是艺术家又是科学家。
说的这里,谁是优秀的分析专家应该很明白了。他们拥有数据,他们知道如何使用这些数据,他们也知道如何组织这些数据,他们还能发现数据中的模式。优秀的分析专家能够解决业务问题,他们了解业务人员需求的重要性,也了解为什么需要解决这些问题,他们了解现实约束,了解如何解答业务人员提出的问题。
优秀的分析专家了解如何正确地描述问题,收入重要,还是利润重要?问题真正的关键点在哪里,为什么要这么说?分析应该怎样设计?最后,优秀的分析专家“知道”不能只把自己当成科学家,业内最好的分析专家毫无疑问也是艺术家!
六、分析专家和IT人员之间的关系
IT人员会和分析人员发生冲突,部分原因是因为这两个团体的目标是有本质冲突的。同一家公司聘用他们,但要他们做的事情却有优先级冲突!一个团队的工作是锁定数据、控制数据、控制资源的使用。另一个团队的工作是探索数据,在分析流程中使用资源,做出与众不同的事情。这样都不起冲突几乎是不可能的事情。
优秀的分析专家乐于将系统管理、调度、备份这些事情交给IT人员来做。IT部门总会有人因为生计、乐趣或者精于此道而愿意来做这些事情的。采用这样的分配可以提高效率,大家都会更高兴。分析团队的时间也被大大释放出来,而不是天天想着怎样让流程跑下去。
结题:
行业领导者的努力都花费在获得竞争优势上,而行业追随者的努力都花费在追赶领导者上。