AMD 与密歇根大学合作为生物信息学社区提供高性能开源解决方案

AMD Collaboration with the University of Michigan offers High Performance Open-Source Solutions to the Bioinformatics Community --- ROCm Blogs

起始

长读长 DNA 测序技术正在通过帮助我们发现结构变异和组装全基因组,革新基因诊断和精准医学。它还帮助我们研究进化关系。较低的测序成本和高通量便携式长读长测序仪正在革新今天的精准医学。包括牛津纳米孔技术(Oxford Nanopore,ONT)和 PacBio 在内的顶级制造商的长读长测序仪可以产生比以前几代测序仪更长的读长。然而,长读长的长度各不相同,并且比短读长更容易出错。序列比对(在 CPU 上)是长读长处理工作流程中的主要瓶颈之一。

我们非常高兴地分享 AMD 与安娜堡密歇根大学之间为期一年半的合作成功故事,在该合作中我们使用了 AMD Instinct™ GPU 和 ROCm™ 软件栈来优化长读长处理工作流程中的序列比对瓶颈。该合作始于 2022 年,当时 AMD 的 Dr. Gina Sitaraman 联系了密歇根大学的 Satish Narayanasamy 教授,讨论加速和开源 Minimap2(一种用于长读长 DNA 测序的最先进比对工具)的合作。Minimap2 在 CPU 上运行速度较慢,其性能最好的加速版本是闭源的,这使得难以针对各种硬件平台进行调试。他们组成了一个团队,包括当前密歇根大学的博士生 Juechu "Joy" Dong 和 Xueshen Liu,还邀请了 Dr. Harisankar Sadasivan(现任 AMD 并且曾是 Narayanasamy 教授的博士生)共同指导学生团队,优化和加速 AMD GPU 上的 Minimap2。

共同进步

这项合作始于Sitaraman博士和Sadasivan博士指导学生团队,他们将Minimap2移植到AMD的GPU上,以满足他们本科专业设计项目的要求。来自AMD和密歇根大学的各方利益相关者共同努力,使此次合作取得了成功。该项目于2022年夏季获得AMD数据中心GPU(DCGPU)业务部门和AMD研究部门HPC Covid Fund团队的资助。为了促进项目的进行,AMD DCGPU HPC应用解决方案团队为学生们的实验室提供了一台配备AMD Radeon™ GPU的工作站,使学生们能够使用ROCm这一AMD的开源加速计算软件平台来移植代码。AMD还通过AMD Accelerator Cloud集群提供了访问AMD Instinct MI210 GPU的权限,以便进一步调试和优化。学生们在学期结束后的空闲时间继续进行项目,展现了他们对项目的奉献和承诺。

Minimap2的工作负荷大小和控制流高度不规则,且内存受限。链化步骤是Minimap2的瓶颈,在CPU上这一步骤占用了多达68%的时间。GPU通常不是为这种HPC(高性能计算)工作负荷提供高性能增益而设计的,因此需要多次迭代进行分析、制定策略和优化。Sitaraman博士作为指定的行业导师,耐心地指导学生理解软件堆栈,分析并调查GPU上的性能瓶颈;同时,Sadasivan博士帮助学生理解并实施先前工作的各种策略,以进一步使工作负荷更加规则化。在他们的导师Narayanasamy教授的指导下,Joy和Xueshen进行了彻底的调查,开发了一种新的"分段"方法,通过将长读片分割成更小的部分来更好地平衡工作负荷。这一创新方法,以及其他技术,有效地在GPU的数百个计算单元中平衡了不规则的工作负荷。

此外,团队的研究成果表明,"每秒生成的链化分数"比每秒碱基数是更好的评估链化性能的指标。在学生们进行的测试中,mm2-gb在AMD Instinct MI210 GPU上对长纳米孔读片(10kb-100kb)的链化速度提高了2.57-5.33倍,对超长读片(100kb-300kb)的链化速度提高了1.87倍。相比之下,mm2-fast在32个具备AVX-512的Intel®1 Icelake核心上运行。此外,这些速度提升是在不牺牲精度的情况下实现的,使得Minimap2用户可以轻松采用mm2-gb。

1 Intel是Intel Corporation及其子公司的商标。

推动科学进步

团队的工作得到了更广泛的科学界的认可,他们的论文被接受在ACM ASPLOS会议的BioSys'24研讨会上发表。这证明了其工作的质量和影响力。可以在https://doi.org/10.1101/2024.03.23.586366获取论文的副本。团队现在致力于提升Minimap2的端到端性能。

mm2-gb应用程序在基因诊断领域代表了一个显著的进步,其中长读长DNA测序变得越来越流行。这个项目支持生命科学研究,如癌症诊断和研究两个基因组序列之间的进化关系。mm2-gb在不影响映射准确性的情况下加速了Minimap2的链式步骤,为生物信息学社区提供了一个有价值的工具。这次成功的合作突显了AMD致力于与大学建立关系和培养新一代直接在我们的GPU上编程的科学家的承诺。AMD还致力于通过对开源软件的贡献来推动最先进的解决方案。我们很自豪能成为推动科学进步的倡议的一部分,并期待未来的合作。mm2-gb软件是开源的,可在GitHub上获取Minimap2onGPU/minimap2

免责声明

免责声明 本文档提供的信息仅供参考,可能包含技术不准确、遗漏和印刷错误。本文所含信息可能会因多种原因(包括但不限于产品和路线图变化、组件和主板版本变化、新型号和/或产品发布、不同制造商之间的产品差异、软件更改、BIOS刷新、固件升级等)而发生变化且可能变得不准确。任何计算机系统都存在无法完全预防或减轻的安全漏洞风险。AMD不承担更新或以其他方式更正或修改此信息的义务。然而,AMD保留对本文内容进行不定期修改的权利,且无需通知任何人。本文信息按"原样"提供。AMD对本文内容不作任何声明或保证,对于本文中可能出现的任何不准确、错误或遗漏不承担任何责任。特此声明,AMD不对非侵权、适销性或特定目的的适用性做出任何默示保证。在任何情况下,AMD均不对使用本文所含信息引起的直接、间接、特殊或其他间接损害负责,即使AMD已明确告知可能会发生此类损害。AMD、AMD箭头标志,[根据AMD商标使用情况插入所有其他AMD商标]及其组合是Advanced Micro Devices, Inc.的商标。本出版物中使用的其他产品名称仅用于识别目的,可能是其各自公司的商标。[根据AMD的第三方商标列表插入任何第三方商标归属]。

第三方内容直接由拥有该内容的第三方许可给您,并非由AMD许可给您。所有链接的第三方内容均"按原样"提供,不附带任何形式的保证。使用此类第三方内容完全由您自行决定,AMD在任何情况下均不对此类第三方内容对您承担责任。您自行承担使用第三方内容可能产生的所有风险,并对可能因使用第三方内容造成的任何损害全权负责。

相关推荐
封步宇AIGC10 分钟前
量化交易系统开发-实时行情自动化交易-3.4.1.4.A股衍生数据
人工智能·python·机器学习·数据挖掘
爱写代码的小朋友26 分钟前
基于图像处理与机器学习的车牌检测识别系统设计与实现
图像处理·人工智能·机器学习
摆烂小白敲代码28 分钟前
【机器学习】K近邻算法
c++·人工智能·算法·机器学习·近邻算法
UQI-LIUWJ1 小时前
模型运行速度笔记: s/epoch VS s/iter
人工智能·笔记·机器学习
烟雨长虹,孤鹜齐飞1 小时前
【苍穹外卖】学习日志-day1
学习
虾球xz1 小时前
游戏引擎学习第12天
android·学习·游戏引擎
墨绿色的摆渡人1 小时前
用 Python 从零开始创建神经网络(三):添加层级(Adding Layers)
人工智能·python·深度学习·神经网络
nuc_baixu1 小时前
opencv kdtree & pcl kdtree 效率对比
人工智能·opencv·计算机视觉
楚疏笃1 小时前
鸿蒙学习基本概念
学习·华为·harmonyos
学步_技术2 小时前
自动驾驶系列—自动驾驶中的短距离感知:超声波雷达的核心技术与场景应用
人工智能·机器学习·自动驾驶·uss