如何从数据分析转向数据科学——来自一位科技巨头数据科学家的分析

您只需要 5 步路线图。您的新职业旅程从这里开始!

欢迎来到云闪世界。 一名数据科学家,大型科技公司的数据专业人员,记录学习工作经历。

因此,我经常会收到很多有抱负的数据科学家发来的信息,这是我最常被问到的问题之一:
我如何从数据分析师转变为数据科学家?

好消息是,数据科学家也是数据分析师。所以你不必学习这部分工作。你已经具备了重要的技能。

现在数据科学家也做其他事情。他们有更多的绝招,因为他们可以做:
→ 数据分析
→ 决策科学
→ 机器学习

对于许多公司来说,雇用一名专业人员来做所有事情比雇用多名专业人员来做每件事要有利可图得多。

对于你来说,这意味着如果你是一名数据分析师,你也在与那些在当今激烈的市场中渴望找到工作的受过数据科学培训的专业人士竞争。

数据分析是一条很好的职业道路,但数据科学可以为你打开更多的大门:
→更好的薪水
→更好的声望
→更好的前景

因此,升级到数据科学可能是一个很好的职业选择,如果你正在阅读这篇文章,那可能是因为你已经考虑过这一点。恭喜!

现在问题仍然存在:

你是如何实现转变的?你如何提升自己的技能?

今天,我将为你提供一份完整的路线图,告诉你需要学习哪些技能,以及需要提高哪些技能才能进入数据科学领域。

#1. 学习如何编码

这一点很明显,但很多人不知道应该优先选择哪种编程语言。毕竟,编程语言太多了。

当我在纽约大学时,我必须学习 Python、SQL、Scala、Spark、MapReduce 以及其他我甚至不记得名字的语言。

我忘记的不仅仅是名字,而是整个语言,因为除了以下语言之外,我从来没有在工作中使用过这些语言:

Python 和 SQL。

事实是:您不需要学习任何其他内容。

首先关注这两个。不要只是学习它们,而是要掌握它们。和它们成为朋友。和它们一起玩。

如果您不能正确地将您的想法转化为 SQL 和 Python 语言,您的思维过程就会受到限制,因为您将无法想出创造性的方法来解决我们遇到的许多问题。

现在你怎样学习所有这些东西?

我已经专门为此创建了一个完整的指南。它非常详细👇。你不需要任何其他的。我保证。许多人甚至打印了本指南并在学习过程中经常使用它。

不信的话就看看评论吧!

我甚至还创建了一个免费的备忘单 ,其中包含了数据科学所需的所有高级 SQL 函数。这是我经常使用的备忘单。我最初是为自己创建的。在此处注册即可找到它。

现在不是每个人都使用 ChatGPT 吗?

是的,也不是。

您不能依赖它为您编写代码,尤其是 SQL,我会告诉您原因。

如果您是数据分析师,您很可能已经了解 SQL。但仅仅熟悉它是不够的。您必须掌握它。

这是任何数据科学家必须具备的最重要技能之一。我甚至可以说,这是从事大型科技工作所必须掌握的最重要的技术技能。

我每天都使用它,甚至比使用 Python 还要频繁。

SQL用于提取数据,Python用于处理数据。

今天,您可以使用 ChatGPT 进行大量编码,我自己就这么做过,特别是在 Python 上进行数据操作、聚合或创建可视化。

但是SQL不同

Python 用于处理准备好的 数据。而 SQL 用于从头开始准备数据。

您需要自己执行 SQL,因为 SQL 通常涉及跨多个表编写复杂的查询。

当然,ChatGPT 可以帮助解决 SQL 错误,但它无法完全理解您的数据,因为它无法访问您正在使用的所有表。

Python 更容易获得帮助,因为大多数时候您都在处理一个大表,因此您可以共享列名并使用特定的函数。

所以 ChatGPT 只是针对您的问题量身定制的 StackOverflow 解决方案。如果您一开始就不理解代码,那么它就毫无用处。

#2. 打下坚实的数学基础

照片由ThisisEngineeringUnsplash上拍摄

如果你读到这篇文章时感到害怕或心跳加速,那么你应该重新考虑转行。数据科学主要基于数学。

不要因为绝望而跳入数据科学。我保证数据分析仍然很受欢迎。

现在不要害怕。好消息是你主要需要关注统计和概率论。

我从来都不是数学高手。事实上,我在高中时曾经选修过课外的额外课程,知道发生了什么。

但我还是进入了这个领域,你也可以!数学只是实践、时间和努力的问题。

想象一下:我完成了 2 个数据科学硕士学位,我们把所有的时间都花在了机器学习上。但是,当我开始在 Spotify 工作时,我几乎没有涉足机器学习。然而,我花了大量时间做 A/B 测试,这些测试都是关于统计数据的。

如果我没有数学基础,他们可能会因我无能而解雇我,因为我不知道如何分析 A/B 测试。

如果对线性代数和基础统计学没有扎实的理解,你将很难:

  • 高效处理并准确分析大数据集。
  • 了解大多数 ML 模型背后的核心概念。
  • 有效地从数据中提取重要的见解。
  • 被认可为真正的数据科学家,尤其是在技术领域。

如果没有这两个,你将会只是漫无目的地航行。

以下是您需要了解的所有详细信息(您也可以在此处免费下载此备忘单

作者图片

为什么学习数学对你未来的职业生涯很重要

数据科学领域正在以惊人的速度发生变化,因此很难预测未来会是什么样子。

但有一件事是肯定的。

如果你有扎实的数学基础,你就能灵活地转向相关领域。它被称为"基础"是有原因的。

#3. 熟悉机器学习

照片由Markus WinklerUnsplash上拍摄

根据您所从事的数据科学工作和公司的类型,您还需要培养机器学习方面的技能。

例如,大多数大型科技公司雇用两种类型的数据科学专业人员:

  • 数据/决策科学家--- 他们分析数据以创造价值并推动业务决策。我们可以通过分析 A/B 测试来推出新功能,进行机会规模研究以了解用户及其行为等。
  • 机器学习工程师------机器学习工程师负责设计和部署机器学习应用程序和系统。例如,在 Spotify,机器学习工程师负责开发模型,以便更好地定位主页上的促销内容。机器学习工程师负责开发这些模型。

大型科技公司有能力将数据科学分为两个专业,因为它们有资金和成熟度。但大多数公司只雇用一个人来做这两个专业。

这就是为什么你也必须培养机器学习技能!从一开始就在大型科技公司找到一份工作并非不可能,但相当具有挑战性,所以最好为所有情况做好准备。

如何培养这项技能?

  1. 掌握算法框架和数据结构的基础知识------ 在开始学习编程语言之前,了解它们所基于的架构至关重要。如何将你的想法转化为算法? 在开始编程之前,与计算机通信的过程是什么?
  2. **了解 ML 模型的架构 ---**在我的第一个学期,我调整了超参数,甚至都不了解它们是什么。避免犯此错误。在调整 ML 模型之前,首先了解 ML 模型的构建方式非常重要。

ML 模型的构建方式如下

这不是导入库和复制粘贴代码行的问题。这不会让你成为数据科学家,你只会成为一个代码修改者。

您必须首先了解模型是如何构建的,以及何时以及如何使用每个算法。具体来说:

当然!下面是使用更常见语言的简化版本:

  1. 检查数据分布: 这就像您在准备做饭时要确保某种东西不会太多而另一种东西不会太少。这有助于确保您的模型能够很好地处理各种数据,而不仅仅是一种数据*(避免过度拟合)*。
  2. **准备数据:**这就像在开始一个大项目之前进行清理和整理。你准备好一切,以便你的模型能够轻松理解和使用数据。这可能意味着改变数据的外观或排列方式。
  3. 拆分数据: 这就像将大任务分成几个小任务。我们将数据分成几组,用于训练、验证和测试模型。这有助于用一些数据*(训练集)训练模型,然后我们看看它对另一组数据* (验证集) 的表现如何,最后我们根据最后一组未见过的数据*(测试集)*进行预测。
  4. **训练模型:**在此步骤中,我们使用训练数据来训练模型。这就像练习时间,模型会学习该做什么。
  5. 调整超参数: 目标是在不影响训练或测试集的情况下构建性能最佳的模型。想象一下调整机器的各个部件以使其正常工作。您可以更改设置以使模型更好地工作,这可能需要了解幕后的工作原理。
  6. **选择正确的指标:**这关乎如何衡量您的模型是否表现良好。性能/成功取决于您选择的指标类型。根据您需要模型执行的操作,您可能会查看不同的内容以查看它是否正常运行。
  7. **测试模型:**最后,一旦模型得到优化并达到最佳预测能力,我们就会使用我们选择的指标在测试数据上运行它。目标是根据模型在训练阶段学到的所有知识以及在验证步骤中进行的所有优化来"测试"模型在未见过的数据上的表现。

请记住,我们的目标不是成为下一位高级软件工程师。我们是数据科学家。所以不需要太过纠结于复杂的算法。

您的首要任务应该是牢牢掌握算法 基础 ,更重要的是熟练处理数据结构

你可以在CodewarsHackerRank等平台上开始练习*。*我在纽约大学读书时也经常这样做。

#4. 尝试是你在大型科技公司工作中的必经之路

作者图片

我所说的实验是"功能推出"和"A/B 测试"。

实验是一种统计方法,可以帮助我们隔离评估产品变化的影响------启动功能、用户体验更新等等!

当你不在该领域时,实验是一项很难学会的技能,因为你要通过推出许多不同的功能逐渐学习。公司不会因为你不懂实验而惩罚你,但如果你懂实验,他们肯定会注意到 你。

如今,大多数科技公司都是以产品为导向的。这意味着大量的产品开发,这本身就意味着在推出产品之前进行大量的功能测试。

A/B 测试是您脱颖而出的秘密武器!

如何学习实验?

如果你能成为实验专家,那么你将比其他求职者具有明显的优势,因为大多数求职者都忽视了这项技能,不知道如何培养它。

从本质上讲,实验深深植根于**假设检验的概念,**我们都在统计学中学习过这个概念。这就是为什么如果你不先掌握数学,你就不能从事这个职业。

我最近发表了一篇关于实验的介绍。请务必订阅,以免错过有关该主题的未来帖子。

#5. 提高你现有的技能

照片由Matthew DockeryUnsplash上拍摄

还有一个好消息。

如果您已经是数据分析师,那么您很可能已经熟练掌握:

  • 主要软技能------讲故事、沟通、跨职能协作、向非技术利益相关者传达技术概念。
  • 一些硬技能------数据可视化、仪表板、指标设置。这些都是可以让你脱颖而出的强化技能。尤其是创建仪表板,这是许多数据科学家都难以掌握的技能。

成为数据科学家的公式永远不会改变。它非常简单------归结为:

数学 + 代码 + 商业敏锐度 + 软技能 = 数据科学家公式

转行做数据科学需要时间,但这是一个回报丰厚的职业选择。现在我不建议在没有明确"为什么"的情况下就进入这个行业。
你需要确保你这样做是出于正确的理由,以便当事情变得艰难时*(因为这是一个时间问题,而不是是否会发生的问题)*,你将不得不依靠你的"为什么"来继续推动你前进。

当我处于同样的情况时,我会列一个清单。

我列出了所有的理由,说明为什么这一信念之跃值得我付出这么多努力。每当我感到动力消退或自我怀疑悄然升起时,我就会看看这些理由。

这份清单每次都给了我所需的动力,让我不放弃梦想。我仍然会哭,但至少我在完成作业时会哭。

相关推荐
終不似少年遊*2 小时前
pyecharts
python·信息可视化·数据分析·学习笔记·pyecharts·使用技巧
陆沙2 小时前
生物信息学导论-北大-RNA-Seq数据分析
数据分析·生物信息·生信
Watermelo6172 小时前
详解js柯里化原理及用法,探究柯里化在Redux Selector 的场景模拟、构建复杂的数据流管道、优化深度嵌套函数中的精妙应用
开发语言·前端·javascript·算法·数据挖掘·数据分析·ecmascript
落魄君子12 小时前
GA-BP分类-遗传算法(Genetic Algorithm)和反向传播算法(Backpropagation)
算法·分类·数据挖掘
落魄君子12 小时前
ELM分类-单隐藏层前馈神经网络(Single Hidden Layer Feedforward Neural Network, SLFN)
神经网络·分类·数据挖掘
Altair澳汰尔16 小时前
数据分析和AI丨知识图谱,AI革命中数据集成和模型构建的关键推动者
人工智能·算法·机器学习·数据分析·知识图谱
边缘计算社区19 小时前
吉快科技荣膺“金边奖·最佳大模型一体机”,引领AI边缘新时代
人工智能·科技
因_果_律19 小时前
亚马逊云科技 re:Invent 2024重磅发布!Amazon Bedrock Data Automation 预览版震撼登场
大数据·人工智能·科技·亚马逊云科技·re invent
IT信息技术学习圈19 小时前
强基计划之编程:开启科研精英培养新路径
科技·强基计划
qingyunliushuiyu1 天前
企业为何需要可视化数据分析系统
数据挖掘·数据分析·数据采集·数据可视化·数据分析系统