登录

VASP 的 OpenACC GPU 端口

宝禄,计算 服务器综合讨论

VASP.6.2.0 中,我们正式发布了 VASP 的 OpenACC GPU 端口:正式的意思是我们现在强烈建议使用此 OpenACC 版本在 GPU 加速系统上运行 VASP。

VASP之前的CUDA-C GPU 端口被认为已弃用,不再积极开发、维护或支持。从 VASP.6.3.0 开始,VASP 的 CUDA-C GPU 端口已完全删除。

 

内容

· 1个要求

· 1.1软件栈

· 1.2硬件

· 2个建筑

· 3个特点和限制

· 4个运行 OpenACC 版本

· 5个学分

· 6个相关文章

要求

软件栈

编译器

· 要编译 VASP 的 OpenACC 版本,您需要最新版本的NVIDIA HPC-SDK (>=21.2)。

原则上,任何至少支持 OpenACC 标准 2.6 的编译器都应该可以做到这一点,但我们只尝试和测试了上述编译器。

注意NVIDIA HPC-SDK 版本 22.1 和 22.2 有一个严重的错误,禁止与 OpenMP 线程一起执行 OpenACC 版本。使用这些编译器版本时,您应该在没有 OpenMP 支持的情况下进行编译。此错误已从 NVIDIA HPC-SDK 版本 22.3 开始修复。

图书馆

· 数值库:FFTW、BLAS、LAPACK 和 scaLAPACK。如果您使用的是NVIDIA HPC-SDK,您必须自己安装的唯一数值库是FFTW。后三个(BLAS、LAPACK 和 scaLAPACK)随 SDK 一起提供。或者,您可以链接到提供所有四个的Intel oneAPI MKL库的安装。

· NVIDIA CUDA 工具包(>=10.0)。所有必要的 CUDA 工具包组件都作为 NVIDIA HPC-SDK 的一部分提供。

· MPI 的 CUDA 感知版本。与 NVIDIA HPC-SDK 一起打包的 OpenMPI 安装是 CUDA 感知的。

· NVIDIA 集体通信库 (NCCL) (>=2.7.8)。这个库不是一个严格的要求,但出于性能原因强烈建议使用它。合适的 NCCL 安装作为 NVIDIA HPC-SDK 的一部分提供。

司机

· 您需要一个至少支持 CUDA-10.0 的 CUDA 驱动程序。

硬件

我们仅使用以下 NVIDIA GPU 测试了 VASP 的 OpenACC GPU 端口:

· NVIDIA 数据中心 GPU:P100 (Pascal)、V100 (Volta) 和 A100 (Ampere)。

· NVIDIA Quadro GPU:GP100 (Pascal) 和 GV100 (Volta)。

注意:在其他 NVIDIA GPU(例如“游戏”硬件)上运行 VASP 在技术上是可行的,但不可取:这些 GPU 不太适合,因为它们不提供快速双精度浮点运算 (FP64) 性能,并且通常具有更小的没有纠错码 (ECC) 功能的存储器。

建筑

要构建 VASP 的 OpenACC 端口,最好将您的mak-e-file.include文件基于其中一个原型模板,并根据您系统的具体情况调整这些模板。

特点和限制

· VASP 的大部分功能都已使用 OpenACC 移植到 GPU,但涉及 RPA 的所有功能除外:GW 和 ACFDT。这是正在进行的工作。

· 出于性能原因,应避免使用波函数的并行 FFT ( NCORE >1)。目前,即使在INCAR文件中另有指定,OpenACC 版本也会自动切换到NCORE =1 。

· 由于使用 NCCL,VASP 的 OpenACC 版本只能使用每个可用 GPU 的单个 MPI 等级来执行:

在大多数情况下,使用 NCCL 具有很大的性能优势。但是,我们知道这样一个事实,即对于小型系统上的计算,保留让多个 MPI 级数共享一个 GPU 的能力将很有用,并计划使 NCCL 的使用成为可选的以消除此限制。

运行 OpenACC 版本

1. 每个 GPU 使用单个 MPI 等级(目前,NCCL 的使用排除了每个 GPU 使用多个等级)。

2. 除了 MPI 等级之外,还使用 OpenMP 线程来利用更多可用的 CPU 能力。OpenACC 版本目前仅限于使用 1 个 MPI-rank/GPU,这意味着可能有相当多的 CPU 能力未被使用。由于仍然有部分代码在 CPU 端运行,因此允许每个 MPI 等级使用多个 OpenMP 线程可能是有益的:

要了解如何使用 OpenACCOpenMP 支持构建 VASP,请查看mak-e-file.include.nvhpc_ompi_mkl_omp_acc文件。

注意:这里我们链接了用于 CPU 端 FFTW、BLAS、LAPACK 和 scaLAPACK 调用的英特尔 MKL 库和英特尔 OpenMP 运行时库 ( libiomp5.so )。在为 Intel CPU 编译时强烈建议这样做,尤其是在使用多线程时。为确保 MKL 使用英特尔 OpenMP 运行时库,您需要通过以下方式设置环境变量:

export MKL_THREADING_LAYER=INTEL

或者通过添加:

-x MKL_THREADING_LAYER=intel

作为命令的选项mpirun

OpenMPI 等级和 OpenMP 线程正确放置和固定到 CPU 内核上可能有点棘手,这取决于使用的 MPI 的特定风格。

3. 要获得最佳性能,明智地选择KPARNSIM非常重要。不幸的是,理想值将取决于您系统的具体情况,包括工作负载和硬件,因此您将不得不尝试不同的设置。但是,根据经验,可以说:

KPAR设置为您将要使用的 GPU 数量(= MPI-ranks)。不过,这仅在计算中不可约k点的数量或多或少可被KPAR整除时才有意义,否则 MPI 等级上的工作分布将严重不平衡。这意味着您在选择此参数时的选项有些受限。

NSIM确定在许多电子求解器(例如 RMM-DIIS 和 blocked-Davidson)中同时优化的波段数。作为一项规则,与 CPU 端执行相比,应该选择更大的参数以获得 GPU 上的良好性能。

注意:为了优化 VASP 的 CPU 端执行,通常也会对NCORE进行不同的设置。当在 GPU 上运行时,任何不同于NCORE =1 的东西都会对性能产生不利影响,并且 VASP 将自动切换到NCORE =1,即使在INCAR文件中另有指定也是如此。

 


展开全文
打开APP,一键看同内容文章>

相关推荐

最新问答

查看更多问答
反馈