浙江大学土壤学科是朱祖祥院士等几代土壤科学家共同创建的A+国家重点学科,整体实力雄厚,优势特色明显,总体水平居国内前列。在亚马逊云科技科研创新支持计划(Amazon Web Services Cloud Credits for Research)的多次支持下,运用亚马逊云科技的高性能计算和专属行业解决方案,浙江大学土壤学科研团队整体在2个月内,成功完成了土壤微生物宏基因组数据自动化处理,总计超过5000个测序数据。
该团队目前使用的亚马逊云科技服务包括:Amazon Batch、Amazon Step Functions、Amazon DynamoDB、Amazon Graviton2、Amazon Simple Storage Service(Amazon S3)等。
机会 :科研IT系统环境和技术挑战
土壤微生物作为地球上生物多样性的重要组成部分,在支撑陆地生态系统过程和功能中发挥着不可替代的作用。然而长期以来,由于土壤生物系统的复杂性以及受限于土壤生物学研究技术手段,人们对土壤微生物的多样性和功能的认知仍然相当有限。随着科研领域的不断拓展和深化,越来越多的科学问题需要依靠强大的算力支持来进行模拟、计算和分析。
在上云前,该团队的IT系统采用了学校机房自建服务器、租用的IDC服务器以及超算中心。由于学校机房自建服务器的存储利用率已超过95%,浙江大学土壤学科研团队宏基因数据分析的科研任务出现了资源不足的瓶颈,不同科研课题都受到了算力短缺的限制,影响了研究进展。另外,租用的IDC服务器和超算中心仅提供硬件资源,难以提供专业的服务。
"经过我们的调研发现,国外同行业的科研机构利用亚马逊云科技的HPC解决方案以及NCBI公开数据集进行科研,在短时间内获得了分析结果并发表了高质量论文。"浙江大学土壤学王轶玲博士说道:"此外,我们在阅读文献的过程中发现了一篇论文,该论文基于亚马逊云进行计算流程设计,符合我们的期望,于是开始应用亚马逊云科技。"
解决方案:按需定制HPC解决方案,实现成本和完成科研任务的双丰收
浙江大学土壤学科与亚马逊云科技展开合作,在土壤微生物科研上应用了亚马逊云科技在生信行业基于Amazon Batch的容器化HPC解决方案。亚马逊云科技为不同的科研课题提供定制化的解决方案,帮助他们解决各自的痛点。
针对宏基因组数据处理自动化流程改造,亚马逊云科技提供Amazon Step Functions和Amazon Batch解决方案,实现了自动化的数据处理;针对大规模微生物信息挖掘任务,亚马逊云科技提供了基于Amazon Batch的HPC解决方案,轻松实现批量计算作业;针对大规模微生物序列比对计算,解决方案基于HPC架构,并且额外进行了Amazon Graviton2处理器的优化,在性能和成本效益方面都取得了巨大的提升。
宏基因组数据处理自动化流程改造:
Amazon Step Functions+Amazon Batch解决方案
宏基因组数据处理通常需要进行多个分析步骤,整个流程冗长而繁琐。Amazon Step Functions能够将多个亚马逊云科技服务协调到无服务器工作流中,自动触发和追踪每个步骤。在此基础上借助Amazon Batch在容器化改造及任务调度方面的能力,最终让宏基因组数据处理实现了流程自动化,从而实现应用的快速构建和更新,同时快速查询处理异常任务,让科研工作者更加专注于科研任务,而无需手动运行繁琐的步骤。
大规模微生物信息挖掘任务:基于Amazon Batch的HPC解决方案
大规模微生物信息挖掘任务所使用的HPC涉及大量算力,如何让分布式算力得到妥善应用,需要对算力资源有良好而清晰的规划与安排。Amazon Batch能根据提交的批处理作业的数量和特定资源要求,动态预置计算资源的最佳数量和类型,从而最大限度地提升计算效率和性能。即使科研团队需要同时运行数千个任务,同时启动大量的容器来处理,Amazon Batch也能轻松调度。
大规模微生物宏基因测序:基于Amazon Batch的HPC解决方案,
额外进行Amazon Graviton2优化
由于微生物序列比对计算任务量较大,需要耗费大量的时间和费用。相较于传统的X86架构,亚马逊云科技自研的基于ARM架构的Amazon Graviton处理器具有更高的性价比。在科研团队应用Graviton2处理器后,发现其性能表现良好,大约有一半的任务可以通过Amazon Graviton以更低成本高效地运行,最终帮助科研人员顺利完成科研任务的同时,兼具成本效益。
业务成果:2个月内完成5000+宏基因组数据分析任务实现创新科研
亚马逊云科技的HPC解决方案加速了土壤微生物信息挖掘,助力浙江大学土壤学科研团队在2个月内成功完成了5000+的宏基因组数据分析。
创新科研合作,2个月内完成过去1年时间才能完成的数据分析任务
亚马逊云科技在云端科研业务及高性能计算HPC业务中的优势不仅体现在合成生物学、微生物等科研领域,还为环境工程、食品工业(含酒业)、化学工程、生命科学工程等研究领域提供了从实验室到产业化研发的全链路数字化革新解决方案,例如:云上科研实验室、云上科研数据分析平台、高性能计算、量子计算、知识图谱等。
降本增效,整体性价比提升32.8%
科研团队利用Amazon EC2 Spot实例和Amazon S3智能分层等服务来优化成本。通过使用Spot实例,客户能够以较低的价格获得计算资源,而智能分层则帮助客户根据数据的访问模式将存储成本降低到最低。
除此之外,通过在Graviton上进行代码改造,亚马逊云科技进一步帮助客户提升了性能并降低了成本。经过测试和实践,使用Graviton处理器可以将成本降低约20%,同时性能提升16%,综合实现了32.8%的性价比提升。这意味着客户可以以更低的成本获得更高的性能,为其宏基因组数据分析提供了更优化的解决方案。这些改进措施和技术优化为客户节省了大量的成本,并提升了整体的性能表现。
客户至尚,以及远超行业水准的专业服务
亚马逊云科技提供NCBI公开数据集,包含了丰富的宏基因测序数据,可以帮助客户进行实验和研究。这些数据集帮助客户节省了数据收集和准备的时间成本,同时也提供了标准化的参考,使客户能够更加方便地进行比较和分析。
此外,亚马逊云科技客户服务团队具备专业的行业知识和经验,能够理解客户的实际应用场景,并提供针对性的解决方案。浙江大学土壤学王轶玲博士说道:"亚马逊云科技的解决方案架构师团队帮助我们不断优化性能和成本,还协助进行POC(概念验证)阶段的实施,确保科研团队成功实施项目。"
亚马逊云科技不仅致力于提供稳定可靠的技术和解决方案,还注重提供全方位的支持和服务,帮助客户在合成生物学、微生物研究领域取得卓越的成果。
未来,双方将通过进一步的创新科研合作,提升浙江大学土壤学科的国际影响力,帮助浙江大学土壤学科研团队更有效地开展学术研究活动。