开发者都能玩转的大模型训练

前言

看了刚结束的亚马逊云科技 2023 re:Invent 大会，了解到 Amazon SageMaker Canvas 是亚马逊云科技最近刚推出的一种完全托管的机器学习服务，开发者通过 Amazon SageMaker Canvas 可以快速且轻松地构建、训练机器语言学习模型，最重要的是无代码界面形式的。而且基于亚马逊云科技的云服务器优势，可以直接将模型部署到线上托管环境上，非常方便，且无技术"隔阂"，无缝操作。据我所知道的，亚马逊云科技的 Amazon SageMaker Canvas 提供的有非常灵活的分布式训练选项，开发者可以根据自己特定的工作流程进行调整，可以在分布式环境中高效处理体量非常大的数据，而且它的使用流程非常简单，不管是人工智能领域的专家，还是刚接触人工智能领域的初学者，都可以开通即用。那么接下来就来分享一下体验 Amazon SageMaker Canvas 的服务，以及个人的体验感受。

亚马逊云科技开发者社区为开发者们提供全球的开发技术资源。这里有技术文档、开发案例、技术专栏、培训视频、活动与竞赛等。帮助中国开发者对接世界最前沿技术，观点，和项目，并将中国优秀开发者或技术推荐给全球云社区。如果你还没有关注/收藏，看到这里请一定不要匆匆划过，点这里让它成为你的技术宝库！

概念基础

废话不多说，秉承之前的习惯，先来了解 Amazon SageMaker 的基础概念。根据亚马逊云科技官方的信息显示，Amazon SageMaker 是一款完全托管的机器学习服务，开发人员通过 Amazon SageMaker 可以快速且轻松地构建和训练机器学习模型，然后结合亚马逊云科技的云服务，可以直接将模型部署到生产托管环境中。

Amazon SageMaker 提供了常见的机器学习算法，根据介绍这些算法都经过了优化和完善，可以在分布式环境中高效处理非常大的数据。以及 Amazon SageMaker 提供灵活的分布式训练选项，开发使用者可根据自己实际的特定工作流程进行调整，适用性非常的强悍。

原理核心

接着再来看一下 Amazon SageMaker 的基本工作原理核心，虽然可以直接去使用体验就能知道它的工作原理，但是作为初用者，还是要去看一下亚马逊云科技官方关于 Amazon SageMaker 的工作原理介绍。这里引用亚马逊云科技官方关于 Amazon SageMaker 的工作原理介绍，可以知道 Amazon SageMaker 可以完成各种机器学习生命周期的任务，涵盖了数据收集、训练、部署和 MLOps。由于 Amazon SageMaker 中的Canvas 是无代码界面，我们在使用的时候可以直接访问现成的 FM 和预测模型，以及创建自己自定义的模型，都可以在几分钟内提取信息且生成 AI 输出。

Amazon SageMaker Canvas 支持 Amazon Bedrock 中的 FM 以及 SageMaker JumpStart 中的公共模型 MPT 等，在 Amazon SageMaker Canvas 中使用这些 FM 可以生成、提取和总结内容，以及使用现成的模型对内容进行分析和分类，从而进行情绪分析、对象检测或文档分析。通过亚马逊云科技 Amazon Bedrock 的使用步骤可以知道，使用现成的模型，只需选择模型、上传数据，然后单击即可生成模型输出。

作为使用者，我们可以构建自己的自定义模型，从而进行分类、回归、预测、文本分类或图像分类，且无需编码，如果开始使用自定义模型的时候，我们可以提前导入来自不同来源的数据，选择要预测的值，会自动准备和浏览数据，以及可以通过单击几次的操作来创建 ML 模型。

入手体验

在开始体验之前，还是需要提前做一些准备工作，首先要确保有亚马逊云科技的账号，如果没有请先去注册账号并设置绑定个人信息，这里不再做详细介绍。已经有亚马逊云科技账号的情况下，就可以直接打开关于 Amazon SageMaker 的体验入口：Amazon SageMaker 机器学习_机器学习模型构建训练部署-亚马逊云服务，然后登录账号进入，如下图所示：

1、Amazon SageMaker 开通并使用

登录亚马逊云科技账号之后，依然是在控制台找到或者搜索 Amazon SageMaker，由于使用 Amazon SageMaker Canvas 之前需要先开通使用 Amazon SageMaker，所以具体开通并使用的操作如下所示：

找到 Amazon SageMaker 服务之后，直接进入 Amazon SageMaker 的管理主页，进行添加实例操作，也就是直接开通使用 Amazon SageMaker 的设置，这里需要说明一下，在创建域的时候，需要根据自己实际来选择设置，如下所示：

然后去创建域，这里根据实际情况来设置，本文示例以单个用户来进行设置，如下所示：

点击设置按钮之后，需要等待几分钟，才能创建域，具体如下所示：

2、Amazon SageMaker Canvas 开通使用

同过上面关于 Amazon SageMaker 的开通和使用之后，接下来就是对 Amazon SageMaker Canvas 的开通和使用，因为 Canvas 是最近的新服务，无界面的形式存在，具体操作步骤如下所示：

在 Amazon SageMaker 启动的时候根据想要体验的类型进行选择，这里肯定是选择 Canvas，具体操作如下所示：

这里的操作示例选择的是 Canvas，然后下一步，仍然需要短暂的等待，具体如下所示：

需要等待一会儿，然后就可以了。成功之后，会有所说明，如下所示：

点击立即开始按钮，直接体验，如下所示：

打开之后，显示基本信息，然后点击启动按钮即可，但是需要等数十分钟，如下所示：

等待结束之后，终于可以直接体验了，这里直接用浏览器翻译，把英文转换成汉语，如下所示：

但是目前还不支持中文输入，可以使用英文输入，这里我又把页面的汉语切换成英文，如下所示：

如果想要重新开始使用，可以直接点击左上角的新建对话，如下所示：

具体体验效果，对话如下所示：

其实还有一个对比比较的功能，如下所示：

点击比较按钮之后，显示下面的对话框，可以根据自己想要用的对比进行选择，如下所示：

这里示例我选择了切换为 Dolly-3B-Instruct，如下所示：

依然是等待10分钟左右，可以切换完成。如果选择另外的，依然是上述步骤操作即可。

3、小结

以上就是笔者通过亲自上手体验，从开通 Amazon SageMaker 服务，到对应的具体项设置，以及体验 Amazon SageMaker Canvas 训练等流程的操作，完整的体验了 Amazon SageMaker Canvas 的使用体验，尤其是关于训练使用的体验，其他方面的内容这里不再多讲，读者如有兴趣，可以去亚马逊云科技官方文档查看。

体验收获

通过上文关于 Amazon SageMaker Canvas 的使用体验，作为开发者以及使用者，个人觉得 Amazon SageMaker Canvas 的服务功能强大，而且通过设置对应的具体才发现 Amazon SageMaker 服务的功能不仅很多，而且还非常的智能，尤其是在使用 Canvas 的时候，几乎是进行的无代码机器学习，彻底颠覆了我之前对机器学习的认知，感觉发现了"新大陆"。通过这些体验，我觉得这个 Amazon SageMaker Canvas 的机器学习结合数据工具，可以很好的帮助我们体验使用机器语言训练，对大家入门大语言模型有非常大的帮助。

但是任何一个服务和功能，有优点，肯定有缺点。我觉得 Amazon SageMaker Canvas 不管是在创建的时候，还是切换其他模型的时候，过程都有点长，我觉得作为使用者需要等待10分钟左右，是一个不太好的体验，所以我觉得亚马逊云科技官方关于 Amazon SageMaker Canvas 的初始化时长能否再有所缩短就更完美了，期待官方的好消息！

结束语

通过过本文的体验分享，想必读者对于亚马逊云科技的 Amazon SageMaker Canvas 服务已经有所掌握和了解了，还是那句话不管您是人工智能领域的大神，还是初入机器学习方向，任何开发者都可以通过使用亚马逊云科技的 Amazon SageMaker Canvas 都能够玩的"飞起"，尤其是刚想入门机器学习的，是一个提升自信心和相关经验的有效方式，这个服务非常的深入人心，就是好用，个人觉得大有可以引领机器学习领域的先锋。但是话又说回来了，本文关于 Amazon SageMaker Canvas 的分享，只是做了简单的使用体验，它的功能远不止文章中所提到的，还有很多功能需要读者自己去体验和尝试，所以想要深度使用 Amazon SageMaker Canvas 服务，建议读者去亚马逊云科技官网对应的 Amazon SageMaker Canvas 服务介绍进行了解和体验，个人觉得要想入门机器学习，使用 Amazon SageMaker Canvas 就足够了。

参考文献

1、亚马逊云科技 Amazon SageMaker： Amazon SageMaker 机器学习_机器学习模型构建训练部署-亚马逊云服务

2、亚马逊云科技 Amazon SageMaker Canvas：无代码机器学习 -- Amazon Web Services

文章来源：dev.amazoncloud.cn/column/arti...