阿里云超算集谛优化GPU异构并行性能:GROMACS

本文涉及的产品
云服务器 ECS,每月免费额度200元 3个月
云服务器ECS,u1 2核4GB 1个月
简介: 阿里云超算集谛优化GPU异构并行性能:GROMACS

作者:慕笛
“集谛”是一款内置于阿里云弹性高性能计算(Elastic High Performance Computing,E-HPC)的云上性能监控与分析引擎,支持集群资源利用情况的实时监控和用户作业运行情况的在线分析。对于采用GPU加速的异构计算应用场景,“集谛”除了监控节点host端资源外还能监控GPU device端的资源利用情况,给出GPU利用率、显存利用率和PCI-E数据传输带宽等性能指标随时间的变化,帮助用户更好得了解应用运行状态,指导应用改进。

分子动力学(Molecular Dynamic,MD)模拟是一种基于经典牛顿力学建立分子结构模型,对分子及分子体系的结构和性质进行研究分析的计算机模拟方法,是人类打开微观运动世界的钥匙。作为高性能计算领域的重要研究方向之一,分子动力学模拟在新材料研制、化学工业模拟、生物医药等多个领域被广泛应用,相关研究成果多次入选美国三大工程奖之一的戈登贝尔奖。分子动力学模拟包含了大量分子间相互作用力的计算,计算过程密集且规整,因此非常适合使用CPU向量运算部件和GPU卡进行加速。目前主流的几款分子动力学模拟软件GROMACS、NAMD、LAMMPS均可以采用GPU卡来加速其核心计算过程。下图给出的使用分子动力学模拟方法后得到的生物大分子构型的演变。
image.png

对GPU资源的充分利用是分子动力学软件获取理想模拟效率的关键。本文以GROMACS为例,使用“集谛”对其运行时性能特征进行多方位展示,分析当前性能瓶颈,从而对软件性能进行优化。

“集谛”GPU性能监控介绍

image.png

节点维度:“集谛”按照用户选取的节点构造出多个坐标平面,每个坐标平面对应展示一个节点的GPU资源利用情况。其中,节点内不同GPU卡的性能数据以时间为横轴展示在同一个坐标平面内。这种节点维度的呈现方式有利于用户对比节点内不同GPU卡间的负载情况。
image.png

指标维度:“集谛”根据用户选取的GPU子设备和性能指标构造出多个坐标平面,每个坐标平面对应展示某一GPU子设备&某一性能指标上不同节点的性能表现,方便用户对比节点间的GPU负载情况。
image.png

“集谛”指导GROMACS性能优化

本文在ecs.gn5实例(8 core,16 vCPU,120GB内存,2 P100)上运行分子动力学软件GROMACS的GPU版本,并使用“集谛”监控软件执行过程中的系统资源利用情况。

节点维度:
image.png

指标维度:
image.png

从上图可以看出:

  1. CPU利用率持续保持在85%以上
  2. GPU利用率在45%到70%之间,并且波动较大
  3. GPU显存利用率在25%左右
  4. GPU设备PCI-E传输带宽基本不超过2GB/s

由此可见,CPU端计算资源接近用满,负载较重;而GPU端计算资源、显存和PCI-E带宽均未达到瓶颈,尚有进一步可用的空间。GROMACS软件本身采用“CPU+GPU”的主从协同计算模式,CPU和GPU任一端的性能瓶颈都会拖慢软件的整体性能。因此为了提升GROMACS的软件执行效率,我们选择将CPU端的PME计算过程进一步offload到GPU端。通过这种方式,我们在减少CPU端计算任务的同时又充分利用了GPU端的计算资源,从而使CPU和GPU两端的计算负载更加均衡。完成该步优化后,我们再次使用“集谛”监控GROMACS执行过程中的系统资源利用情况。

节点维度:
image.png

指标维度:
image.png

从上图可以看出,在将PME计算过程offload到GPU端之后:

  1. CPU利用率降到30%~35%之间
  2. GPU利用率基本稳定在70%以上,并且波动较小
  3. GPU显存利用率提升到50%以上
  4. GPU设备PCI-E传输带宽达到3GB/s以上
  5. 相同任务量下,执行时间降为优化前的50%
    由此可见,对于采用“CPU+GPU”主从加速模式的软件,通过平衡CPU端和GPU端的计算负载,能够大幅提升软件的执行效率。

总结

集谛能够从计算、内存、网络、磁盘、加速卡等方面系统地监控集群资源的利用情况并系统地展示给用户,方便用户进行多方位地对比分析,帮助用户迅速定位性能瓶颈,从而为用户应用程序的改进提供指导。

相关实践学习
基于阿里云DeepGPU实例,用AI画唯美国风少女
本实验基于阿里云DeepGPU实例,使用aiacctorch加速stable-diffusion-webui,用AI画唯美国风少女,可提升性能至高至原性能的2.6倍。
目录
相关文章
|
1天前
|
存储 编解码 安全
阿里云服务器计算型、通用型、内存型主要实例性能及选择参考
在阿里云的活动中,属于计算型实例规格的云服务器主要有计算型c7、计算型c7a、计算型c8a、计算型c8y、计算型c8i这几个实例规格,属于通用型实例规格的云服务器有通用型g7、通用型g7a、通用型g8a、通用型g8y、通用型g8i,属于内存型实例规格的云服务器有内存型r7、内存型r8a、内存型r8y、内存型r8i等实例。不同实例规格的云服务器在架构、计算、存储、网络、安全等方面有着不同,因此,其适用场景也有所不同。本文来详细介绍一下阿里云服务器计算型、通用型、内存型主要实例计算、存储等性能及其适用场景,以供参考。
阿里云服务器计算型、通用型、内存型主要实例性能及选择参考
|
1天前
|
负载均衡 固态存储 Linux
阿里云轻量应用服务器、云服务器、gpu云服务器最新收费标准参考
轻量应用服务器、云服务器、gpu云服务器是阿里云服务器产品中,比较热门的云服务器产品类型,不同类型的云服务器产品收费模式与收费标准是不一样的,本文为大家展示这几个云服务器产品的最新收费标准情况,以供参考。
阿里云轻量应用服务器、云服务器、gpu云服务器最新收费标准参考
|
1天前
|
存储 弹性计算 监控
探索阿里云弹性计算:如何优化云服务器ECS的性能与成本
在云时代,【阿里云ECS】的性能优化与成本控制至关重要。利用实例规格选择、自动伸缩、网络和存储配置,可增强性能、减少成本。结合监控工具和优化建议,用户能解决性能问题,提升应用稳定性,实现高效且经济的云计算运营。
20 1
|
1天前
|
存储 弹性计算 运维
深度解读:阿里云服务器ECS经济型e实例配置整理和性能参数表
阿里云推出经济型ECS e系列服务器,适用于个人开发者、学生和小微企业。该系列采用Intel Xeon Platinum处理器,支持多种CPU内存配比,性价比高,2核2G3M配置只需99元/年,新老用户不限量购买且续费不涨价。提供相同可用性SLA和安全标准,具备ESSD Entry云盘等企业级特性。适合中小型网站、开发测试和轻量级应用
|
1天前
|
关系型数据库 Serverless 异构计算
Serverless 应用引擎产品使用之在阿里云函数计算中使用包含GPU的实例并且镜像超过10GB了如何解决
阿里云Serverless 应用引擎(SAE)提供了完整的微服务应用生命周期管理能力,包括应用部署、服务治理、开发运维、资源管理等功能,并通过扩展功能支持多环境管理、API Gateway、事件驱动等高级应用场景,帮助企业快速构建、部署、运维和扩展微服务架构,实现Serverless化的应用部署与运维模式。以下是对SAE产品使用合集的概述,包括应用管理、服务治理、开发运维、资源管理等方面。
49 0
|
1天前
|
机器学习/深度学习 并行计算 TensorFlow
TensorFlow与GPU加速:提升深度学习性能
【4月更文挑战第17天】本文介绍了TensorFlow如何利用GPU加速深度学习, GPU的并行处理能力适合处理深度学习中的矩阵运算,显著提升性能。TensorFlow通过CUDA和cuDNN库支持GPU,启用GPU只需简单代码。GPU加速能减少训练时间,使训练更大、更复杂的模型成为可能,但也需注意成本、内存限制和编程复杂性。随着技术发展,GPU将继续在深度学习中发挥关键作用,而更高效的硬件解决方案也将备受期待。
|
1天前
|
机器学习/深度学习 弹性计算 人工智能
什么是阿里云GPU云服务器?GPU云服务器产品优势及应用场景介绍
GPU云服务器是阿里云的云服务器ECS产品之一,是提供 GPU 算力的弹性计算服务,具有超强的计算能力,服务于深度学习、科学计算、图形可视化、视频处理多种应用场景。本文为大家介绍阿里云GPU云服务器产品优势、应用场景以及阿里云GPU云服务器实例规格有哪些。
什么是阿里云GPU云服务器?GPU云服务器产品优势及应用场景介绍
|
1天前
|
弹性计算 云计算 虚拟化
GPU云服务器_GPU云计算_异构计算_弹性计算-阿里云
阿里云提供多种GPU服务器,包括NVIDIA V100、T4、A10和A100计算卡,其中gn6i实例享有最高3折优惠。包年包月价格如:gn6v实例(16G V100)从4685.20元/月起,gn6i实例(16G T4)从1878.40元/月起。学生无特定GPU服务器优惠,但新用户有折扣活动。GPU服务器计费模式有包年包月和按小时计费,按需选择。详细价格及活动规则见官方链接。
19 0
GPU云服务器_GPU云计算_异构计算_弹性计算-阿里云
|
1天前
|
存储 弹性计算 缓存
阿里云服务器经济型e和通用算力型u1实例性能、适用场景简介及常见问题参考
在2024年阿里云活动中,价格比较优惠的云服务器实例主要有经济型e和通用算力型u1实例,经济型e实例(如2核2G3M,99元/年)适合个人和小型企业建站、开发测试,而通用算力型u1实例(如2核4G5M,199元/年)适合多种企业应用。在目前的活动中,经济型e和通用算力型u1实例还有2核4G、2核8G、4核8G、4核16G、8核16G等配置可选,有的新手用户由于是初次使用阿里云服务器,对于经济型e和通用算力型u1实例的相关性能并不是很清楚,本文为大家做个简单的介绍,以供参考。
阿里云服务器经济型e和通用算力型u1实例性能、适用场景简介及常见问题参考
|
1天前
|
人工智能 芯片 异构计算
台积电董事长预测:未来15年每瓦GPU性能提升1000倍,GPU晶体管数破万亿!
台积电董事长预见到未来15年内GPU性能每瓦提升1000倍,晶体管数量将破万亿,展示半导体行业激动人心的前景。这将增强GPU计算能力,但同时也带来制造工艺复杂性、散热管理和能效提升的挑战。3D集成技术有望解决部分问题,但需克服技术与经济障碍。
28 5
台积电董事长预测:未来15年每瓦GPU性能提升1000倍,GPU晶体管数破万亿!

相关产品

  • GPU云服务器
  • http://www.vxiaotou.com