原文:
www.kdnuggets.com/2017/03/data-science-data-scientist-do.html
哈佛称什么职业为21 世纪最性感的工作?没错,就是数据科学家。
啊,是的,那神秘的数据科学家。那么,数据科学家的秘密武器到底是什么,这个“性感”的人每天在工作中到底做些什么呢?
1. Google 网络安全证书 - 快速进入网络安全职业轨道
2. Google 数据分析专业证书 - 提升你的数据分析能力
3. Google IT 支持专业证书 - 支持你所在组织的 IT 工作
本文旨在帮助定义数据科学家的角色,包括典型的技能、资格、教育背景、经验和职责。由于数据科学家角色没有一个标准化的定义,而且理想的经验和技能组合在一个人身上相对较少,因此这一定义显得有些宽泛。
这一定义可能会更加混淆,因为有些角色有时被认为是相同的,但通常却大相径庭。这些角色包括数据分析师、数据工程师等。稍后会详细讨论。
下面是一个图示,展示了数据科学家可能借鉴的一些常见学科。数据科学家在每个学科上的经验和知识水平,通常沿着从初学者到熟练者,再到专家的理想状态变化。
由 Calvin.Andrus(原创作品)CC BY-SA 3.0 (http://creativecommons.org/licenses/by-sa/3.0)),通过 Wikimedia Commons
尽管这些以及其他学科和专业领域(这里未展示)都是数据科学家角色的特征,但我喜欢将数据科学家的基础看作是建立在四个支柱上的。其他更具体的专业领域可以从这些支柱中衍生出来。
现在让我们讨论一下这些课程。
尽管数据科学家通常来自许多不同的教育和工作经历背景,但大多数数据科学家应该在四个基本领域中表现出色,或者在理想情况下成为专家。这四个领域按优先级或重要性排序如下:
-
业务领域
-
统计与概率
-
计算机科学与软件编程
-
书面和口头沟通
还有其他非常期望的技能和专业知识,但在我看来,这四项是主要的。本文将称这些为数据科学家的支柱。
现实中,人们通常在这些支柱中的一两个方面很强,但通常在所有四个方面都不均衡。如果你遇到一个在所有方面都是真正专家的数据科学家,那么你基本上遇到了一只独角兽。
基于这些支柱,数据科学家应该能够利用现有的数据源,并在需要时创建新的数据源,以提取有意义的信息和可操作的见解。这些见解可以用来推动业务决策和变更,以实现业务目标。
这是通过商业领域的专业知识、有效的沟通和结果解释,以及利用所有相关的统计技术、编程语言、软件包和库、数据基础设施等来完成的。
可以找到许多不同版本的数据科学家维恩图,以帮助可视化这些支柱(或变体)及其相互关系。David Taylor 写了一篇关于这些维恩图的优秀文章,标题为数据科学维恩图之战。我强烈推荐阅读。
这是我最喜欢的数据科学家维恩图之一,由 Stephan Kolassa 创建。你会注意到图表中的主要椭圆形与上述支柱非常相似。
![InnoArchiTech post image 作者:Stephan Kolassa 这个图表以及类似的图表,试图为每个主要能力的交集处的人或领域分配标签和/或进行描述,我在这里称之为支柱。正如这个图表所示,Stephan Kolassa 将“完美的数据科学家”定义为在商业、编程、统计和沟通方面都很强的人。我完全同意。### 数据科学目标和交付物为了理解这些支柱的重要性,必须首先了解与数据科学项目相关的典型目标和交付物,以及数据科学过程本身。让我们首先讨论一些常见的数据科学目标和交付物。这是一个常见的数据科学交付物的简短列表:+ 预测(基于输入预测一个值)+ 分类(例如,垃圾邮件或非垃圾邮件)+ 推荐(例如,亚马逊和 Netflix 的推荐)+ 模式检测和分组(例如,没有已知类别的分类)+ 异常检测(例如,欺诈检测)+ 识别(图像、文本、音频、视频、面部等)+ 可操作的见解(通过仪表板、报告、可视化等)+ 自动化流程和决策(例如,信用卡审批)+ 评分和排名(例如,FICO 分数)+ 划分(例如,基于人口统计的营销)+ 优化(例如,风险管理)+ 预测(例如,销售和收入)每一个支柱都旨在解决一个特定的目标和/或特定的问题。真正的问题是哪个目标,目标是谁的?例如,一个数据科学家可能认为她的目标是创建一个高性能的预测引擎。然而,计划使用这个预测引擎的业务可能有一个增加收入的目标,而这个目标可以通过使用这个预测引擎来实现。尽管乍一看这似乎不是问题,但实际上,所描述的情况正是为什么第一个支柱(业务领域专业知识)如此关键的原因。通常,高层管理人员具有以业务为中心的教育背景,比如 MBA。尽管许多高管是非常聪明的个人,他们可能对数据科学家可用的所有工具、技术和算法(例如,统计分析、机器学习、人工智能等)不太熟悉。因此,他们可能无法告诉数据科学家他们希望最终交付的内容,或建议数据源、特征(变量)和实现路径。即使一位高管能够确定一个特定的推荐引擎可以帮助增加收入,他们可能没有意识到公司数据还可以用来通过其他许多方式增加收入。因此,理想的数据科学家必须对企业如何运作有相当全面的理解,并了解公司数据如何用于实现顶级业务目标,这一点不可过于强调。拥有丰富的业务领域专业知识的数据科学家应该能够定期发现和提出新的数据举措,以帮助业务实现目标并最大化其 KPI。### 数据科学过程数据科学过程可能会因项目目标和采取的方法的不同而有所变化,但通常遵循以下步骤。数据科学过程大致包括这些阶段:+ 数据获取、收集和存储+ 发现和目标识别(提出正确的问题)+ 访问、获取和整合数据+ 数据处理和清理(数据清洗/整理)+ 初步数据调查和探索性数据分析(EDA)+ 选择一个或多个潜在模型和算法+ 应用数据科学方法和技术(例如,机器学习、统计建模、人工智能等)+ 测量和改进结果(验证和调整)+ 提供、沟通和/或展示最终结果+ 基于结果做出业务决策和/或变更+ 重复这个过程以解决一个新问题这是一个表示该过程简化版本的图示。
Farcaster 在英语维基百科 [GFDL (http://www.gnu.org/copyleft/fdl.html) 或 CC BY-SA 3.0 (http://creativecommons.org/licenses/by-sa/3.0)],通过 Wikimedia Commons
这就是这个过程的概要。那么这些支柱在这里如何发挥作用呢?
我们已经讨论了业务领域和沟通支柱,这代表了商业敏锐性和顶级的沟通技巧。这对于发现和目标阶段非常重要。在数据科学家通常需要向关键利益相关者(包括高管)展示和沟通结果时,这也非常有帮助。
因此,强大的软技能,特别是沟通(书面和口头)和公众演讲能力是关键。在传达和交付结果的阶段,关键在于数据科学家能够以易于理解、引人入胜和有见地的方式呈现结果,同时使用适合其受众的语言和术语水平。此外,结果应该始终与最初推动项目的商业目标相关联。
对于所有列出的其他阶段,数据科学家必须具备强大的计算机编程技能,以及统计学、概率论和数学知识,以便理解数据、选择正确的解决方案、实施解决方案并进行改进。
一个重要的话题是现成的数据科学平台和 API。可能会有人认为这些平台可以相对容易地使用,因此不需要在某些领域具有显著的专业知识,也就不需要一位强大且全面的数据科学家。
虽然确实许多现成的产品可以相对容易地使用,根据所解决的问题可能会获得相当不错的结果,但在数据科学的许多方面,经验和技能至关重要。
其中包括具备以下能力:
-
根据具体问题定制方法和解决方案,以最大化结果,包括根据需要编写新算法和/或显著修改现有算法的能力
-
访问和查询多种不同的数据库和数据源(RDBMS、NoSQL、NewSQL),以及将数据集成到以分析为驱动的数据源中(例如,OLAP、数据仓库、数据湖等)
-
找到并选择最佳的数据源和数据特征(变量),包括根据需要创建新的特征(特征工程)
-
了解所有可用的统计、编程和库/包选项,并选择最佳方案
-
确保数据具有高完整性(优质数据)、质量(正确的数据),并处于最佳状态,以保证结果准确、可靠且具有统计意义
- 避免与垃圾进垃圾出相关的问题
-
选择并实施最佳的工具、算法、框架、语言和技术,以最大化结果并根据需要进行扩展
-
选择正确的性能指标,并应用适当的技术以最大化性能
-
探索如何利用数据在没有来自上层的指导和/或交付物要求的情况下实现业务目标,即数据科学家作为创意提供者
-
跨部门有效合作,并与公司所有部门和团队协作
-
区分好结果和坏结果,从而降低由于错误结论和随后的决策可能带来的风险和财务损失
-
了解产品(或服务)客户和/或用户,并以他们为中心创建想法和解决方案
在教育方面,成为数据科学家没有单一的路径。许多大学创建了专门的数据科学和分析项目,大多数为硕士学位水平。一些大学和其他组织也提供认证项目。
除了传统的学位和认证项目外,还有一些训练营,这些训练营从几天到几个月不等,还有在线自学课程和聚焦于数据科学及相关领域的大规模在线开放课程(MOOC),以及自我驱动的实践学习。
无论选择哪条学习路径,数据科学家应该具备高级的定量知识和高度的技术技能,主要涉及统计学、数学和计算机科学。
科学一词通常与科学方法同义,也许你们已经注意到,上述过程与科学方法这一表达所特征化的过程非常相似。
这里有一张图像,展示了科学方法作为一个持续过程的可视化效果。
由 ArchonMagnus(原创) [CC BY-SA 4.0 (http://creativecommons.org/licenses/by-sa/4.0)],通过维基共享资源
一般来说,传统科学家和数据科学家都会提出问题和/或定义问题,收集和利用数据来得出答案或解决方案,测试解决方案以查看问题是否解决,并根据需要迭代以改进或最终确定解决方案。
如前所述,数据科学家的角色经常与其他类似角色混淆。主要有两个相关角色是数据分析师和数据工程师,这两者之间有显著的区别,也与数据科学有所不同。
让我们更详细地探讨这两个角色。
数据分析师
数据分析师与数据科学家共享许多相同的技能和责任,有时也有类似的教育背景。这些共享的技能包括:
-
访问和查询(例如,SQL)不同的数据来源
-
处理和清理数据
-
总结数据
-
理解和使用一些统计和数学技术
-
准备数据可视化和报告
然而,一些关键区别在于,数据分析师通常不是计算机程序员,也不负责统计建模、机器学习以及数据科学过程中的许多其他步骤。
使用的工具也通常不同。数据分析师经常使用如Microsoft Excel(可视化、数据透视表等)、Tableau、SAS、SAP和Qlik等用于分析和商业智能的工具。
分析师有时会执行数据挖掘和建模任务,但通常使用如IBM SPSS Modeler、Rapid Miner、SAS和KNIME等可视化平台。另一方面,数据科学家则通常使用R和Python等工具执行这些相同的任务,并结合相关的语言库。
最后,数据分析师在与高级业务经理和高管的互动中往往有显著差异。数据分析师通常从上层获取问题和目标,进行分析,然后报告他们的发现。
然而,数据科学家倾向于自己提出问题,依据对哪些业务目标最重要以及数据如何用于实现这些目标的了解。此外,数据科学家通常使用更高级的统计和建模技术、数据可视化,并以更具商业驱动的叙事方式强调报告。
数据工程师
在大数据时代,数据工程师变得越来越重要,可以被视为一种数据架构师。他们不太关注统计、分析和建模,更多关注数据架构、计算和数据存储基础设施、数据流等。
数据科学家和大数据应用使用的数据通常来自多个来源,并必须以优化分析、商业智能和建模的方式进行提取、移动、转换、集成和存储(例如,ETL/ELT)。
因此,数据工程师负责数据架构和设置所需的基础设施。因此,他们需要是熟练的程序员,具备与DevOps角色非常相似的技能,同时具备强大的数据查询编写能力。
这个角色的另一个关键方面是数据库设计(RDBMS、NoSQL和NewSQL)、数据仓储和设置数据湖。这意味着他们必须非常熟悉许多可用的数据库技术和管理系统,包括与大数据相关的那些技术(例如,Hadoop和HBase)。
最后,数据工程师通常还会处理非功能性基础设施要求,如可扩展性、可靠性、耐用性、可用性、备份等。
我们将以对一些典型工具的概述结束,这些工具属于数据科学家的所谓工具箱。
由于计算机编程是一个重要组成部分,数据科学家必须熟练掌握R、Python、SQL、Scala、Julia、Java等编程语言。通常不需要在所有这些语言中都成为专家,但R、Python和SQL确实是关键,而像Scala这样的语言在大数据领域也越来越重要。
对于统计、数学、算法、建模和数据可视化,数据科学家通常会尽可能使用现有的包和库。一些较为流行的包括Scikit-learn、e1071、Pandas、Numpy、TensorFlow、Matplotlib、D3、Shiny和ggplot2。
对于可重复的研究和报告,数据科学家通常使用诸如Jupyter、iPython、Knitr和R markdown等笔记本和框架。这些工具非常强大,因为代码和数据可以与关键结果一起交付,以便任何人都可以执行相同的分析,并在需要时进行扩展。
如今,数据科学家还应该能够使用与大数据相关的工具和技术。最受欢迎的例子包括Hadoop、Spark、Hive、Pig、Drill、Presto、Mahout等。
最后,数据科学家应该知道如何访问和查询许多顶级的RDBMS、NoSQL和NewSQL 数据库管理系统。一些最常见的包括MySQL、PostgreSQL、Redshift、MongoDB、Redis、Hadoop和HBase。
哈佛对数据科学家的评价是正确的。这是一个极其重要且需求旺盛的角色,对企业实现其财务、运营、战略等目标的能力有着显著影响。
公司会收集大量数据,而这些数据往往被忽视或未充分利用。通过有意义的信息提取和可操作见解的发现,这些数据可以用于做出关键业务决策,并推动重大业务变革。它还可以用于优化客户成功及随后的获取、留存和增长。
如前所述,数据科学家可以对企业的成功产生重大积极影响,但有时也可能无意中造成财务损失,这也是为什么雇用一位顶尖数据科学家至关重要的众多原因之一。
希望这篇文章有助于揭示数据科学家的角色以及其他相关角色。
干杯!
亚历克斯·卡斯特鲁尼斯是Why of AI的创始人兼首席执行官,也是《AI for People and Business》的作者。他还是西北大学 Kellogg / McCormick MBAi 项目的兼职教授。
原文。经许可转载。
相关:
-
机器学习:完整详尽的概述
-
数据科学与大数据的解释
-
人工智能、深度学习与神经网络的解释