本文由阿里云代理商【聚搜云】撰写
简介:TG@luotuoemo
步骤一:准备工作
-
登录PAI平台:
- 登录阿里云PAI控制台。
- 在左侧导航栏选择"工作空间列表",进入对应的工作空间。
-
创建工作流:
- 在PAI控制台中,选择"数据开发"页面。
- 创建一个新的业务流程,用于后续的数据处理和模型训练。
步骤二:数据准备
-
数据存储:
- 将训练数据存储在MaxCompute表中,或者以CSV文件格式存储在OSS中。
- 确保数据字段顺序与配置文件中的
input_fields
一致。
-
数据预处理:
- 使用PAI Designer进行数据预处理,例如分割训练数据和评估数据、Shuffle数据、分箱处理等。
- 示例工作流包括读取数据、分割训练和评估数据、Shuffle、分箱处理、写入训练和评估表。
步骤三:模型训练
-
配置训练命令:
-
在DataWorks的MaxCompute SQL节点中,执行PAI命令进行模型训练。
-
示例命令如下:
sql复制
pythonPAI -project algo_public -name easy_rec_ext -Darn="acs:ram::XXXXX:role/AliyunODPSPAIDefaultRole" -Dbuckets="oss://examplebucket/xxx/" -Dcluster="{"ps":{"count":2,"cpu":1000,"memory":40000},"worker":{"count":8,"cpu":1000,"memory":40000}}" -Dcmd="train" -Dconfig="oss://examplebucket/xxx/multitower.config" -DossHost="oss-cn-region_name-internal.aliyuncs.com" -Dtrain_tables="odps://pai_online_project/tables/easyrec_demo_taobao_train_data" -Deval_tables="odps://pai_online_project/tables/easyrec_demo_taobao_test_data" -Dmodel_dir="oss://examplebucket/xxx/" -Dwith_evaluator=1;
-
参数说明:
project
:默认为algo_public
。arn
:通过PAI控制台获取的RAM角色。buckets
:指定OSS存储路径。config
:模型配置文件路径。train_tables
和eval_tables
:训练和评估数据表。
-
-
开始训练:
- 执行上述命令后,模型训练将在PAI平台上启动。
步骤四:模型部署
-
导出模型:
- 训练完成后,模型将自动导出到
model_dir
路径下的/export/final/
目录。
- 训练完成后,模型将自动导出到
-
编写服务描述文件:
-
创建一个JSON文件,描述模型服务的相关信息。
-
示例命令:
bash复制
javascriptymd=$1 cat << EOF > echo.json { "cloud": { "computing": { "instance_type": "ecs.c7.large" } }, "metadata": { "instance": 1, "name": "model_name" }, "model_path": "your_model_path", "processor": "tensorflow_cpu_1.12", } EOF
-
-
部署模型:
-
使用
eascmd
工具部署模型。 -
示例命令:
bash复制
xml/home/admin/usertools/tools/eascmd -i <yourAccessId> -k <yourAccessKey> -e <OSS Endpoint> create <echo.json>
-
步骤五:配置任务例行化(可选)
-
设置例行化任务:
- 在DataWorks中配置业务流程,实现模型的周期性训练和部署。
- 配置节点的调度依赖关系,确保任务按顺序执行。