IBM Spectrum LSF Data Manager

IBM Spectrum LSF Data Manager

当需要大量数据来完成计算时,您的应用程序最好不受阻碍地访问与应用程序执行环境相关的数据位置所要求的数据。 LSF Data Manager 通过将所需数据 登台 以尽可能接近应用程序站点来解决数据局部性问题。

许多应用在几个领域需要大量数据: 用于工业制造的流体动力学模型,用于石油和天然气勘探的地震感官数据,用于生命科学的基因序列等。 将这些大型数据集尽可能靠近应用程序运行时环境,对于保持计算资源的最佳利用率至关重要。

无论您是在单个集群中运行这些数据密集型应用程序,还是要在地理上分离的集群之间共享数据和计算资源, LSF Data Manager 都提供了以下关键功能。

  • 输入数据可以从外部源存储库登台到集群执行主机可访问的高速缓存。
  • 在作业完成后,将从高速缓存异步 (无依赖) 暂存输出数据。
  • 数据传输与作业分配分开运行,这意味着更多作业可以在等待大型数据传输时请求数据而无需消耗资源。
  • 远程执行集群选择和集群亲缘关系基于 IBM® Spectrum LSF 多集群功能 环境中的数据可用性。 LSF Data Manager 将所需数据传输到作业转发到的集群。

LSF Data Manager 的工作方式

每个共享登台区域的 LSF 集群也会与同一个 LSF 数据管理器实例进行通信。 集群会查询数据管理器以获取数据文件的可用性。

如果这些文件不在高速缓存中,那么 LSF 数据管理器会对它们进行登台,并在作业的请求数据就绪时通知集群。 对文件进行登台后,集群可以通过查阅 LSF 数据管理器存储在登台区域中的数据文件信息,从登台区域中检索这些文件。

工作方式1、单集群实现

LSF Data Manager的典型单集群实现。 由数据源, LSF 管理 主机,数据管理器主机, I/O 主机和执行主机组成。 每个组件协同工作以完成登台数据和提交具有数据需求的作业的任务。

1、用户使用带有数据文件需求的 bsub 命令来提交作业,包括数据源主机的名称和所需数据的完整路径。

2、bsub 命令读取有关数据源主机,文件路径,文件大小和上次修改时间 (如果可用) 的信息,并将该信息与作业提交数据一起发送到 LSF 管理 主机。

3、作业请求由 management 主机上的 mbatchd 守护程序接收,这将检测到作业具有输入登台需求。 将主用户作业置于挂起状态 (显示为PEND).

4、LSF 将数据需求信息发送到 LSF 数据管理器,并请求将数据文件复制到登台区域。

5、如果数据文件尚未登台,那么 LSF 数据管理器将请求所需文件的传输作业。 对于为作业创建的每个新文件记录,将向 LSF 提交一个传输作业。

6、LSF 调度和分派传输作业,并将传输作业成功或失败通知 LSF 数据管理器。

7、传输作业将文件数据从源存储库复制到登台区域。 如果数据文件已登台并且位于TRANSFERRED状态,不需要传输作业。

8、如果传输作业成功,那么 LSF 数据管理器会将文件的状态设置为TRANSFERRED。如果传输作业失败,那么 LSF 将终止需要传输作业正在传输的文件的作业。

9、LSF 数据管理器通知 LSF 作业的数据登台步骤已完成。

10、LSF 调度用户作业并将其分派到执行节点。

11、正在运行的用户作业将查找所需数据文件的登台位置,并启动作业执行。 LSF 数据管理器守护程序 (dmd) 确定登台文件在高速缓存中的位置。 用户作业中的 bstage in 命令确定文件在执行环境中的位置。

工作方式2、LSF 多集群功能实现

LSF Data Manager 的典型 LSF 多集群功能 实现具有不是仅远程队列的队列配置。 每个组件协同工作以完成登台数据和提交具有数据需求的作业的任务。

1、用户使用带有数据文件需求的 bsub 命令将作业提交到本地集群

2、bsub 命令读取有关数据源主机,文件路径,文件大小和上次修改时间 (如果可用) 的信息,并将该信息与作业提交数据一起发送到 LSF 管理 主机。

3、本地 mbatchd 将数据需求信息发送到本地 LSF 数据管理器,并请求将数据文件复制到本地登台区域。 数据需求信息包括作业有资格转发到的候选集群。

如果请求的文件不存在,并且本地集群是该作业的候选者,那么将提交传输作业并将所需文件登台到本地登台区域。

4、如果用户未在作业中指定集群首选项,那么数据管理器将查询候选集群列表中配置的所有远程数据管理器以获取请求的文件。 LSF 数据管理器为作业生成集群首选项。

5、数据管理器在其登台区域当前工作目录中创建一个包含该作业的数据文件信息的文件。

6、将数据登台到本地登台区域后,数据管理器会通知 LSF ,该作业的数据已在本地集群中就绪,因此可以调度该作业。 LSF 将集群首选项附加到作业并正常调度该作业。 如果不需要本地登台,那么将立即执行此步骤。

7、如果在本地调度作业,那么 bstage in 命令将获取所需的文件,并且作业将使用本地登台数据。

8、如果将该作业转发到远程集群,那么将在远程端接受该作业,并且会在远程登台区域上为该作业登台数据,就好像该作业是本地提交的作业一样。

相关推荐
爱吃青椒不爱吃西红柿‍️18 分钟前
华为ASP与CSP是什么?
服务器·前端·数据库
hzyyyyyyyu1 小时前
内网安全隧道搭建-ngrok-frp-nps-sapp
服务器·网络·安全
Mr_Xuhhh3 小时前
重生之我在学环境变量
linux·运维·服务器·前端·chrome·算法
中云DDoS CC防护蔡蔡4 小时前
微信小程序被攻击怎么选择高防产品
服务器·网络安全·微信小程序·小程序·ddos
HPC_fac130520678165 小时前
以科学计算为切入点:剖析英伟达服务器过热难题
服务器·人工智能·深度学习·机器学习·计算机视觉·数据挖掘·gpu算力
yaoxin5211236 小时前
第二十七章 TCP 客户端 服务器通信 - 连接管理
服务器·网络·tcp/ip
sinat_3842410910 小时前
使用 npm 安装 Electron 作为开发依赖
服务器
Kkooe11 小时前
GitLab|数据迁移
运维·服务器·git
虚拟网络工程师13 小时前
【网络系统管理】Centos7——配置主从mariadb服务器案例(下半部分)
运维·服务器·网络·数据库·mariadb