项目背景与业务场景
随着云计算技术不断发展更新,高校科研用户对云服务需求不断提高,科研又是基础创新的来源,但算力少、共享难、不好用一直是科研的突出问题。小的科研团队经费少设备少,中型的科研团队设备有限,高峰期的算力不够,大型的科研团队算力富裕但是利用率比较低。所以对于算力的基础平台归一化,是能够帮助我们科研团队在底层的基础设施层面不再花费更多的精力。
为了解决上述困难, 我司研发了科研云云管理平台,将建设为面向学校领导、科研团队、信息中心、财务中心等用户的云计算资源统一管控入口,提供对高校基础云计算资源的全生命周期管理与运维。最终可实现高校内混合云基础设施的使用、运维和运营管理。同时让高校信息中心部门运维人员基本可以脱离或极小依赖原生云平台来实现多云管控的能力,极大提高运维、运营人员工作效率,有效降低混合云运维、运营难度。
高校科研主要面临的问题和痛点
1、资源零散管理
物理机器、科研设备、公有云、专有云、vmware 等等资源过于分散,缺乏有效的统一管理工具和高效的统筹机制,且资源分开采购成本较高。
2、资源申请不规范
资源申请流程过于繁琐,缺乏自动化的资源申请、分配工具。当申请人提交申请后,计算资源依靠人工手动分配,无法实现即租即用,整个过程耗时耗力。
3、资源回收困难
任务结束后,由于需要人工手动清理机器遗留数据,存在资源回收不及时、机器时常处于闲置状态的问题。
4、资源利用率低
跨学科跨地域协作难,算力分配不均,资源共享困难,导致资源利用率低,且缺乏统一的资源可观测性和计量计费,无法有效识别资源浪费和成本使用情况。
解决方案
科研云管理平台建设是结合高校的业务需求和资源特点的重要项目: 有别于传统的单一私有云管理系统,学院之间差异化地基于多公有云环境、自建私有云资源池,能够针对高校各学院资源使用模式,提供"资源共享、弹性扩展、动态运营、按需分配"的云计算资源统一调度、管控与服务能力。科研云管理平台建设完成后,可以实现 4 个方面的目标:
1、统一对接高校目前在用公有云和私有云,实现相关异构混合云计算资源的集中纳管,对云资源进行统一运营和运维,提升云计算资源的使用效率和管理效率。
2、作为统一对外触点为高校各学院提供异构混合云计算资源的服务调度支撑,实现统一平台的服务、流程和数据的打通。
3、构建统一科研云门户,可以面向不同学科打造不同的云服务特色资源包,降低使用门槛,能够让科研团队快速申请科研环境,提高科研效率。
4、整合学校各科研团队公共云资源使用,通过运营平台提升运营管理能力,清晰掌握校内资源需求情况;统一采购,月度统一结算,降低资源采购成本;简化科研团队采购公共云的流程等。
整体业务架构
科研云管平台在基础设施层提供公有云、私有云等混合云资源,在应用场景层提供自服务门户和运营管理平台,基于教师、科研人员、学生、管理者、财务人员等用户视角实现自服务门户的科研环境统一申请和管理,通过运营平台展示资源统计面板,自定义流程管理、统计分析、订/账单管理,实现资源的统一监控。同时可接入校内的消息中心,实现用户和管理者快速处理待办任务。
核心流程
1、科研团队使用算力服务
科研团队主要以科研空间管理,申请算力和使用算力这三个主要场景为主,另外还包含了账单和工单服务。
2、信息中心的运维管控
信息中心的运维管控主要是围绕日常的运维服务和资源管控等工作。
3、 财务中心/校领导的运营管控
财务中心和校领导主要负责科研经费的审核和支付,以及通过项目账单和资源消费情况进行运营分析。
主要场景
1、科研门户
建设高校统一科研云门户,展示各学科科研成果、科研公告、产品服务、科研项目介绍等,接入校园统一身份认证系统,支持校内外用户共同使用。
2、科研环境管理
面向不同学科打造不同的云服务特色资源包,方便科研团队自主根据资源、存储、算力去申请相关科研环境信息。
3、科研项目管理
支持项目立项、申请、团队组建全流程有效管理,以项目维度进行资源的申请、使用、结算及统计分析。
4、科研资源管理
所有云服务均通过统一服务门户提供,自服务门户实现云资源按需申请,在线审批,自动生成并分配,操作便捷。阿里云、华为云、Vmware、物理机等混合云 IT 的统一管理,实现云资源的无差别申请、使用、变配、释放等全生命周期管控。
5、科研费用管理
以项目维度按月统计资源消费情况,支持同步公有云账单和二次计费,以及专有云、虚拟化等产品的自主定价和计费出账。
6、科研看板管理
提供了围绕着科研场景及资源全流程的数据统计,混合云资源管控,更多面向资源和算力的统一监控和管理,降低维护成本,提高资源利用率。
7、资源统一监控
科研云云管理平台提供自定义场景视图、基础设施资源管理、监控告警、安全巡检等运维服务,方便云资源的管理者了解云资源的全貌,提供资源管理和优化的依据。
- 自定义监控视图
用户可以根据不同的视角构建满足不同业务的「场景」,在场景的视图中支持添加 16 种图表类型用于数据报表展示,帮助用户直观地跟踪,分析和显示关键性能指标,使得能够监控整体的运行状况。
- 告警事件
支持一站式查看和审计全部告警事件数据,可以对所有来源触发的事件进行实时监控、统一查询。还可以通过聚合相关事件和匹配关联事件,快速定位异常并高效对异常数据进行分析。
- 基础设施管理
统一高效管控基础设施资源,主动绘制基础设施分布图,让复杂的基础架构以更简单的形式呈现,深入了解基础架构性能。
- 监控管理
实现对各个云平台和云资源(包括虚拟机、GPU 主机、容器、服务器集群、存储空间、交换机、路由器、负载均衡器等)的资源运行状态、资源变更情况、资源配置情况、资源故障情况、资源统计分析报表、租户自身资源操作的监管。
- 安全巡检
全方位安全巡检防护,定期对服务器、应用系统、网络设备、等资产进行安全检查,及时发现各类安全漏洞,提供详细描述和修复建议。
客户案例
客户简介
某大学是国家"211 工程"和"985 工程"重点建设的综合性大学,经过一百多年的建设与发展,已成为一所基础坚实、实力雄厚,在海内外有较大影响的研究型、综合型、创新型大学。
校内自运营 xx 云平台,以云服务的方式,为校内科研团队提供计算与存储能力支持。现有专有云多台机器,一些业务系统部署在其上。另外在 CAD 国家重点实验室拥有大资金投入的 GPU 超算集群,进行科学运算等。
CloudFlux 解决方案
1、基于 CloudFlux 构建统一云管平台,统一纳管校园私有云资源、并接入阿里公有云。
1)所有云服务均通过统一服务门户提供,实现云资源按需申请,在线审批,自动生成并分配,操作便捷。
2)自服务门户:用户能够在"我的订单"中对所有提交的订单进行查看,查看申请云资源的审批进度,是否已生产;需要审批的订单会自动流转到对应节点,审批人员在"我的审批"中对需要其审批的订单进行操作审批;当用户对云平台的使用有疑问时,可以向后台运营人员提交工单进行处理。
3)运营平台:运营人员能够对整个云平台的云资源商品进行自主定价;对用户进行账户创建,信息变更,余额充值等操作;能够根据业务需求,创建不同的审批流。
2、基于观测云搭建监测平台。
1)提供的云资源消费分析与优化监控,帮助用户分析在云资源上的成本支出结构,并根据负载状况及时提供优化建议。
2)提供可视化监控大屏。