【Azure 架构师学习笔记】- Azure Databricks (1) - 环境搭建

本文属于【Azure 架构师学习笔记】系列。

本文属于【Azure Databricks】系列。

前言

Databricks 已经成为了数据科学的必备工具，今时今日你已经很难抛开它来谈大数据，它常用于做复杂的ETL中的T，数据分析，数据挖掘等，特别适用于做数据建模，机器学习等。

那么顺应时代，现在也来看看这个工具的内容。首先要有一个环境，基于Azure 的Databricks简称ADB。托管在Azure 上的Databricks已经被Azure进行了很大的优化，在搭建时只需要简单的几步即可拥有一个环境，不过要提醒一句ADB的集群并不便宜，用完马上删掉或停止，否则一晚过百美金就会烧掉。

搭建环境

步骤1：创建ADB workspace

可以把Workspace想象成一个装在Azure上的应用程序，然后通过它进入Databricks的环境。通过下图，创建一个workspace：

创建的步骤很简单，提供一些简单信息，对于pricing tier处，可以先按默认选择，在实际环境中则需要考虑具体的费用和用法。

点击创建后等待几分钟即可完成：

Databricks 内部布局

通过workspace进去之后可以看到下图的布局，ADB 的版本更新可能会导致布局的偏差，不过基本功能都不会变。

我们主要用到的一些导航栏有：

Workspace：通过一个"文件系统"把你的notebooks进行逻辑分组。默认情况下会有两个：Shared 和Users， Shared 文件夹用来存储共同协作notebooks。 users则只给创建的用户自己访问。可以在这里进行权限控制来保证多用户使用时的安全性。
Recents：存储最近访问的资源列表。
Compute：ADB的核心运算组件------集群所在地。