如何使用 AWS CLI 创建和运行 EMR 集群

为初学者提供清晰易懂的教程

为初学者提供清晰易懂的教程 Apache Spark 和 AWS EMR 上的 Spark 集群

添加图片注释，不超过 140 字（可选）

欢迎来到雲闪世界。Spark 被认为是"大数据丛林之王"，在数据分析、机器学习、流媒体和图形分析等领域有着广泛的应用。 Spark 有 4 种不同的模式：（1）本地模式：Spark 在单台机器（例如笔记本电脑）上用于学习语法和设计项目原型；其他 3 种模式是集群管理器模式：（2）独立模式用于在私有集群上工作；（3）YARN和（4）Mesos 模式用于与团队共享集群。在独立模式下，Spark 部署在私有集群上，例如 Amazon Web Service AWS 上的 EC2。 Spark 集群包含多台机器。要在每台机器上使用 Spark 代码，需要手动下载并安装 Spark 及其依赖项。借助AWS 的Elastic Map Reduce 服务 EMR，一切都准备就绪，无需任何手动安装。因此，我们使用 EMR 服务来设置 Spark 集群，而不是使用 EC2。

本教程的动机

我确实花了很多时间努力使用AWS 命令行界面 (AWSCLI)在 EMR 上创建、设置和运行 Spark 集群。虽然我找到了一些关于此任务的教程或通过课程提供的教程，但大多数教程都很难理解。有些教程不够清晰；有些教程错过了一些关键步骤；或者假设学习者已经了解一些关于 AWS、CLI 配置等的先验知识。在成功设置并运行集群后，我意识到这个任务实际上并不复杂；我们应该轻松完成它。我不想再看到人们为此苦苦挣扎。因此，我决定制作本教程。

本文假设您已经具备一些 Spark、PySpark、命令行环境和 AWS 的工作知识。具体来说，本文适合那些知道为什么需要创建 Spark 集群的读者 :)。有关 Spark 的更多信息，请阅读此处的参考资料。

这是一个很长很详细的教程。简而言之，所有步骤包括：

创建 AWS账户
创建 IAM 用户
在 EC2 中设置凭证
创建 S3 存储桶来存储集群生成的日志文件
安装 AWS CLI 包 awscli
设置 AWS CLI 环境（创建凭证和配置文件）
创建 EMR 集群
允许 SSH 访问
与集群主节点建立 SSH 连接
开始使用 EMR 集群

请随意跳过您已经知道的任何步骤。

我很高兴你们中的许多人都觉得本教程很有用。我很荣幸与大家讨论您在 EMR 创建过程中遇到的任何问题。根据我们的一些讨论，以下是本教程的一些更新。

一些注意事项： 1. 对于本教程，应使用AWS 常规账户，而不是 AWS Educate 账户。AWS 常规账户为用户提供对 AWS 资源和 IAM 角色的完全访问权限；而教育账户则具有一些有限的访问权限。 2. 您有责任监控您使用的 AWS 账户的使用费用。每次完成工作后，请记住终止集群和其他相关资源。我已经多次实施了 EMR 集群；本教程在 AWS 上应该不会产生任何费用或费用低于 0.5 美元。 3. AWS 控制台和 Udacity 内容会随时间而变化/升级，因此我建议您搜索 AWS 网站和 Udacity 课程以获取任何更新的教程/指南。 4.本教程使用Chrome和Mac OS X制作，在Windows平台上应该不会有太大差别。

在 AWS CLI 上创建、设置和运行 EMR 集群的具体步骤

步骤 1：创建 AWS 账户

如果您还没有常规 AWS 账户，请创建一个。AWS网站上的说明非常容易理解。
登录您的 AWS 账户。
（可选）为了提高您的 AWS 资源的安全性，您可以按照此处的简单 AWS 指南配置并启用虚拟多重身份验证 (MFA)设备。

步骤 2：创建 IAM 用户

在 AWS 控制台中，单击Service，输入"IAM"转到 IAM 控制台：

添加图片注释，不超过 140 字（可选）

=> 选择User=> Add user=> 输入用户名例如"emr_user"，选择Access type为程序访问，然后Next: Permissions。

添加图片注释，不超过 140 字（可选）

单击Attach existence policies directly页面，输入并设置权限为Administrator Access，然后选择Next: Tags。

添加图片注释，不超过 140 字（可选）

跳过此标签页并选择Next: Review=> 选择Create user=> 保存用户名、访问密钥和秘密访问密钥。

添加图片注释，不超过 140 字（可选）

我们将使用此 IAM 用户以及访问和密钥通过 AWS CLI 设置和访问 AWS。

步骤 3：在 EC2 中设置凭证

在 AWS 控制台中，单击"服务"，输入"EC2"以转到 EC2 控制台

在左侧面板中Key Pairs选择"网络和安全" => 选择Create key pair

添加图片注释，不超过 140 字（可选）

输入密钥对的名称，例如"emr-cluster"，文件格式：pem => 选择Create key pair。完成此步骤后，将自动下载一个 .pem 文件，本例中文件名为emr_cluster.pem。我们将在步骤 6 中使用此文件。

添加图片注释，不超过 140 字（可选）

步骤 4（可选）：创建 S3 存储桶来存储集群生成的日志文件

这将是用于存储我们将要创建和设置的集群所生成的日志文件的 AWS 存储桶。如果我们不指定 S3 存储桶，则在创建和运行 EMR 集群时将自动为我们创建一个 S3 存储桶。
在 AWS 控制台中，单击Service，键入"S3"并转到 S3 控制台 => 选择Create bucket=> 输入存储桶的名称（例如"s3-for-emr-cluster"），选择您喜欢的区域，例如"美国西部（俄勒冈州）"。保留其他选项的默认设置以创建存储桶。

添加图片注释，不超过 140 字（可选）

请注意，为了获得最佳性能并避免任何错误，请记住对所有工作使用相同的 AWS 区域/子区域（在 S3、EC2、EMR 等上）

步骤 5：安装 awscli 包

在终端上，awscli使用命令安装pip install awscli
输入以下命令aws help检查安装是否正确，如果输出如下则表示安装成功：

添加图片注释，不超过 140 字（可选）

步骤 6：设置 AWS CLI 环境（创建凭证和配置文件）

此步骤将帮助我们使用上面第 2 步中获得的用户凭证自动访问 awscli 环境上的 AWS。

此设置有两种方法：手动创建凭据和配置文件（方法 1）或使用命令创建这些文件aws（方法 2）。您可以使用其中任何一种。

方法 1：

credentials按照如下方式在终端上创建文件（您可以使用nano或您选择的任何其他文本编辑器）：

在终端上，导航到所需文件夹（通常是根目录）并创建一个隐藏目录，例如aws：

$mkdir .aws（句点表示隐藏目录）

更改至该目录$cd .aws
credentials使用 nano创建文件：$nano credentials输入文件内容credentials如下（将密钥"EXAMPLE_ID"和密钥"EXAMPle_Key"替换为步骤 2 中为用户"emr-user"生成的密钥）：

添加图片注释，不超过 140 字（可选）

使用Ctrl + X，然后Y保存文件并退出nano。

创建配置文件：

$nano config 按如下方式输入文件内容config（我们使用的区域与步骤 4 中创建 S3 存储桶所使用的区域相同）：