了解最新公司动态及行业资讯
数据科学是一种将业务数据转化为资产的方法,可帮助组织增加收入、降低成本、捕捉商机并改善客户体验。
什么是数据科学?将数据转化为价值
数据科学定义
数据科学是一种使用从统计分析到机器学习的方法从结构化和非结构化数据中收集见解的方法。对于大多数组织而言,数据科学用于以增加收入、降低成本、提高业务敏捷性、改善客户体验和新产品开发的形式将数据转化为价值。
首席数据科学家 Adam Hunt 说:“如果你愿意的话,一家公司可用的数据量是巨大的,但如果它什么都不做并把它变成有趣的东西怎么办?数据科学就是提供数据的目的。”
数据科学与分析
尽管密切相关,但数据分析是数据科学不可或缺的一部分,用于理解组织的数据。数据科学使用分析的输出来解决问题。
“数据科学正在得出驱动数据的结论,”亨特说。“如果你不是用数据来解决问题,如果你只是在做研究,那就是分析。如果你真的想用结果来解释一些事情,你需要分析科学。数据科学更多地与解决实际问题有关而不是观察、检查和绘制数据图表。”
对于 Green- 的首席数据科学家,数据分析和数据科学之间的区别在于时间尺度。她说,数据分析描述了当前的现实。数据科学使用这些数据来预测或了解未来。
Green- 说:“许多人认为数据分析师只是初级数据科学家;有些人长大后想成为数据科学家。有时这是真的,但事实上我发现一个非常优秀的分析师拥有不同的数据科学家技能组合”
数据科学与大数据
数据科学和大数据经常重合,但数据科学可用于从各种规模的数据中提取价值,无论是结构化、非结构化还是半结构化。当然,在很多情况下,大数据对数据科学家很有用,因为公司拥有的数据越多,给定模型中可以包含的参数就越多。“有了大数据,公司就不必受限于小数据的维度,”亨特说。大数据确实在某些方面有所帮助,但更多并不总是更好。如果股市在正确的地方,它就不会起作用。”
数据科学的商业价值
数据科学的商业价值取决于组织需求。数据科学可以帮助组织构建工具来预测硬件故障,使组织能够执行维护并防止意外停机。它可以帮助预测超市货架上的商品,或根据产品的属性预测产品的受欢迎程度。
MapR 的首席应用程序架构师 Ted 说:“数据科学团队可以拥有的最大价值是当他们融入业务团队时。几乎根据定义,寻找新人,真正创新的人,会发现价值或漏洞价值,而不是人们所期望的。通常他们对商业人士来说是一个惊喜。价值不是人们最初认为的。
数据科学团队
数据科学通常是团队科学。数据科学家是大多数数据科学团队的前瞻性核心,但从数据到分析,再将分析转化为生产价值需要一系列技能和角色。例如,数据分析师应该在维护数据模型之前向团队提供数据并进行调查。数据工程师必须构建数据管道来丰富数据集,并使它们可供公司中的其他人使用。
分析副总裁马克 - 警告不要寻找数据科学“独角兽”,他们将非线性思维与高级数学、统计知识和编码技能相结合。
- 解释说it技术工程师,“我不认为数据工程是数据科学家的关键特征。我希望有人真正添加其他东西。如果我能让某人建立模型,我可以评估统计数据并传达好处将模型提交给业务部门,然后我可以聘请一名足够成熟的数据工程师来采用该模型并实施它。”
嵌入式数据科学方法
一些组织选择将数据科学家与其他职能相结合。例如,Mapr 的建议遵循一种数据方法,将数据科学家嵌入到负责业务领域的团队中。这些数据运营团队通常具有运营、软件工程、架构和产品管理等跨职能技能和技能,能够自始至终协调数据、工具、代码和环境。数据运营团队倾向于将分析管道视为类似于生产线。
说:“一个孤立的数据科学团队可能希望部署最复杂的模型,而嵌入式数据科学家将寻找负担得起的低成本胜利。他们对他们选择的解决方案很务实。”
数据科学目标和可交付成果数据科学的目标是构建从数据中提取以业务为中心的洞察力的方法。这需要了解价值和信息在企业中的流动方式,并能够利用这种理解来识别商机。虽然这可能涉及一次性项目,但更典型的是,数据科学团队寻求确定可以转换为数据管道以支持可维护工具和解决方案的关键数据资产。例如,银行使用的信用卡欺诈监控解决方案,或用于优化风力涡轮机在风电场中的布置的工具。
传达团队所做工作的演示文稿也越来越成为重要的可交付成果。Riskq 的 Hunt 说:“确保他们将结果传达给公司的其他部门非常重要。当数据科学团队陷入困境的时间过长时,它就会开始陷入困境。产品经理理所当然地认为工作已经完成,除非我们一直在谈论它。.并注意它。”
数据科学过程和方法论
生产工程团队按周期工作,并有计划的时间表。亨特说,这对于数据科学团队来说通常很难做到,因为确定一个项目是否可行需要时间。
“很多时候,第一周甚至第一个月都是研究,收集和清理数据。我们能回答这个问题吗?我们能有效地做到吗?我们花了很多时间设计和调查,远远超出了标准的工程团队表现。”
对于亨特来说,数据科学应该遵循科学方法,尽管他指出情况并非总是如此,甚至可能并非如此。
亨特说:“企业正试图从数据中提取一些见解。为了反复和自信地做到这一点,必须用科学的方法来准确地证明他们的假设。但我认为很多数据科学家实际上并没有使用任何科学。”
亨特说真正的科学需要时间。公司花时间确认他们的假设,然后花很多时间反驳自己。
亨特说:“有了数据科学,公司需要深入研究数据来检验这些假设。我们试图回答的许多问题都是短暂的。例如,试图找到安全威胁的解决方案。”
因此,他说,数据科学通常意味着采用“足够好”的答案,而不是最佳答案。然而,危险在于结果可能成为确认偏差或过度拟合的受害者。
“如果这不是真正的科学,也就是说,公司使用科学方法来证明假设,那么他们所做的就是使用数据来检验他们的假设,”他说。
数据科学工具
数据科学团队使用各种工具,包括 SQL、R、Java 以及 Hive、oozie 和 . 这些工具用于各种与数据相关的任务,从提取和清理数据到通过统计方法或机器学习对数据进行算法分析。算法分析是通过统计方法或机器学习进行的。
“企业需要好的可视化工具。编程工具是目前最流行的。企业需要能够构建有趣模型的工具,”MapR 说。
该公司表示,当 MapR 对其客户数据团队进行调查时,该团队至少使用了五种建模工具,甚至没有使用可视化工具。
“事情正在增加,因为人们更加怀疑。这种其他建模技术会产生更好的模型吗?” 邓宁说。
数据科学家薪水
根据 Data 的数据,以下是一些最受欢迎的数据科学相关工作和每个职位的平均工资:
分析经理:67,000 美元至 126,000 美元
助理数据科学家:58,000 美元至 101,000 美元
商业智能分析师:49,000 至 95,000 美元
数据分析师:42,000 美元至 83,000 美元
数据:77,000 美元至 153,000 美元
数据工程师:64,000 美元至 132,000 美元
数据科学家:65,000 美元至 134,000 美元
IT 数据科学家:61,000 美元至 135,000 美元
首席数据科学家:95,000 美元至 172,000 美元
研究分析师:40,000 至 70,000 美元
研究科学家:48,000 至 118,000 美元
高级数据科学家:93,000 美元至 160,000 美元
统计学家:50,000 美元至 108,000 美元
数据科学技能
虽然数据科学学位课程的数量正在迅速增加,但它们不一定是组织在寻找数据科学家时所寻找的。公司 - 说他正在寻找具有统计背景的候选人,所以他们知道他们是否正在查看实际结果,领域知识以将结果付诸实践;和沟通技巧,以便他们可以将结果传达给业务用户。
“如果我有一位数据科学家可以完成所有工作,那么我担心通过数据工程团队来完成,”他说。
Seek表示对具有博士学位的候选人非常感兴趣。“我更愿意雇用拥有博士学位的人,但我不会放弃拥有丰富经验的人,”亨特说。“医生可以对一个主题进行非常深入的研究,并将该信息传播给其他人。但对于扎实的背景或个人项目来说,却非常有趣。”
亨特说他在物理学、数学、计算机科学、经济学甚至社会科学方面都有天赋。他不看具有数据科学或分析学位的候选人,但他对雇用他们持保留态度。“我个人的经验是,我发现它们非常有用,但它们过于关注模型的运作方式,而不是思维方式,”他说。MapR 更关注申请人的个人能力,而不是展示新事物的能力。他说:“当我聘请数据科学家时,我首先想到的是:面试者能不能教我一些东西?我不想要一个能告诉我怎么做的人。我真的想找到一个能做我想做的事的人。”不能。要做的事情。或者可以传授给团队的才能。”
邓宁指出,一些优秀的数据科学家或数据科学领域的领导者具有非传统背景,并指出与他共事过的一些最优秀的人包括从事园丁工作六年的人、具有艺术背景的人、一些人。即使是拥有法国文学学位但没有接受过计算机培训的新闻专业学生。
“我想用数据感知来测试人,而不是公式。我希望能够看到并理解他们,”邓宁说。
数据科学培训
鉴于目前缺乏数据科学人才,许多组织正在制定计划来培训内部数据科学人才。培训是另一种快速增长的培训员工担任数据科学家角色的方法。
数据科学学位
根据美国新闻与世界报道,这些是数据科学领域的顶级研究生学位课程:
统计学硕士:斯坦福大学数据科学
信息与数据科学硕士:伯克利信息学院
数据科学硕士:哈佛大学约翰保尔森工程与应用科学学院
分析学硕士:芝加哥大学格雷厄姆学院
计算机数据科学硕士:卡内基梅隆大学
数据科学硕士:华盛顿大学
跨学科数据科学理学硕士:杜克大学
应用数据科学硕士:密歇根大学信息学院
数据科学认证
组织需要具有数据分析技术专业知识的数据科学家和分析师。他们还需要大数据架构师将需求转化为系统it技术工程师,需要数据工程师来构建和维护数据管道,需要了解集群和其他技术的开发人员,以及连接一切的系统管理员和管理员。认证是求职者展示其具备合适技能的一种方式。
一些顶级大数据和数据分析认证包括:
数据科学专业成就认证
认证分析师专家
认证助理 (CCA) 数据分析师
EMC 认证专业数据科学家协会 ( )
MapR 认证数据分析师
认证解决方案专家 (MCSE):数据管理和分析
SAS 认证数据科学家使用 SAS 9