[分享]Ansys Fluent：全力释放GPU的无限潜力（上）

离线amy_wang

微信号：18010874378欢迎加入！

UID ：115421

注册：2015-03-18
登录：2025-09-30
发帖：3618
等级：值班管理员

0楼发表于: 2022-10-10 15:25:46

Ansys Fluent：全力释放GPU的无限潜力（上）

原创 Ansys中国

本文原刊登于Ansys Blog：《Unleashing the Full Power of GPUs for Ansys Fluent, Part 1》

作者：Steve Defibaugh | Ansys高级产品营销经理

从家到单位的通勤，从纽约到伦敦的航班，公司办公室里始终没升级的老式咖啡机...就像计算流体动力学（CFD）仿真一样，所有这些都会从加速中获益。多年来，加速CFD仿真的一个关键技术就是高性能计算（HPC），并且近年来，HPC已扩展到图形处理单元（GPU）。

将GPU应用于CFD领域已不再是一个新概念，GPU用作CFD加速器已有相当长一段时间了（包括自2014年以来的Ansys Fluent版本）。然而，所获得的加速效果取决于问题本身。最终，未针对GPU优化的代码部分将会影响整体加速性能。这就是为什么我们希望向您展示当在多个GPU上直接运行CFD仿真时GPU所具有的潜力。

本文作为系列博客内容的上半部分，将介绍如何通过GPU缩短仿真时间，降低硬件成本和功耗，将讨论一些层流和湍流问题。

汽车空气动力学提速32倍
首先这个案例，我们先来看看汽车空气动力学仿真，该仿真可以变得非常大和非常快，通常会超过3亿个单元。运行如此大规模的仿真需要数千个核以及很多天（有时甚至是数周）的计算时间。是否有办法将仿真时间从数周减少到几天，或者从几天减少到几小时，同时还能大幅降低功耗？答案是：确实有办法，那就是完全在GPU上运行这些仿真。

可持续性是汽车行业的一个关键问题，全球政府机构都在制定严格的法规。汽车公司针对一些领域开展评估，以达到或超越这些法规要求：
改进空气动力学
减少排放
使用替代燃料
开发混动和电动动力系统

不过，可持续性工作不应局限于最终产品（在本例中为汽车），还应扩展到产品的设计流程，这包括仿真技术，Ansys希望降低仿真过程中的能耗。

汽车空气动力学仿真可通过完全在GPU上运行实现加速

这里所展示的仿真，我们使用Fluent在不同的CPU和GPU配置上运行基准的DrivAer模型，并进行性能对比。从结果可以看出，单个NVIDIA A100 GPU的性能比采用80个Intel® Xeon® Platinum 8380核心的集群高5倍；如果扩展到8个NVIDIA A100 GPU，那么仿真速度可提升30倍以上。

利用GPU进行汽车空气动力学仿真的加速比

在更短的时间内获得结果可提高客户的工作效率，但好处还不止于此：我们还能通过大幅降低仿真运行所需的功耗来减少客户的电费（同时让地球受益）！

我们研究了采用1024个Intel® Xeon® Gold 6242核心的CPU集群的功耗，并注意到其功率为9600 W。而采用6个NVIDIA® V100 GPU的服务器能实现相同的性能，其功耗降低了4倍，仅为2400 W。

上述基准测试结果表明，与同等HPC集群相比，公司选择采用6个NVIDIA® V100 GPU的服务器可将其功耗降低4倍，这甚至还没考虑服务器机房降温所减少的成本。

使用GPU服务器所降低的功耗

在原生GPU求解器上运行仿真可以对公司的可持续工作和减少等待结果的时间产生重大而直接的影响，不仅可以获得任何结果，而且所得的结果都是您可信赖的。过去40多年来，Fluent已在各种应用中得到广泛验证，并以其行业领先的准确性而著称。Fluent中可用的CPU和多GPU（multi-GPU）求解器都基于相同的离散化和数值方法，为用户提供几乎相同的结果。

以下两个典型案例是已经被很好验证的CFD算例，仿真了层流和湍流的基本原理。这两个案例都详细说明了用户在原生GPU上求解时将获得准确的结果。

球体上的层流
大量文献对球体上的流动进行了实验和数值研究，该流动可作为外部空气动力学验证的基准模型。在第一次测试中，我们选择层流条件，其中雷诺数为100，流体预计会环绕球体并在圆柱体后面形成不随时间变化的涡流结构。文献中提到的阻力系数用于将CFD结果与实验数据进行比较。

球体上层流流动的速度流线和压力分布

如表1所示，原生GPU计算的阻力系数非常准确，误差百分比仅为-0.252%。

表1：阻力系数（Cd）对比

后向台阶
后向台阶是用来测试湍流模型的典型问题。看似简单的结构其实包含很多物理方面。在本测试中，我们重新创建了Vogel和Eaton2的实验设置，入口速度为2.3176 m/s。通过将沿通道长度不同平面的速度分布与发布的实验数据进行比较，对CFD代码进行了测试。

后向台阶的速度矢量

在CPU上求解时，Fluent显示与实验结果良好验证3,4。使用原生多GPU（multi-GPU）求解器求解相同的问题时，用户能得到几乎相同的结果，如下所示，因为Fluent中的CPU和GPU求解器都基于相同的离散化和数值方法。

在CPU和GPU上求解时后向台阶的速度剖面结果

这种能兼容所有网格的类型的非结构化、有限体积Navier-Stokes求解器在多GPU（multi-GPU）执行，这确实是一种创新，并为CFD设定了新的标准，而在精度上毫不妥协。

参考资料：
1. Turton, R.; and Levenspiel, O., A short note on the drag correlation for spheres, Powder Technol. ..

未注册仅能浏览部分内容，查看全部内容及附件请先登录或注册

HFSS爱好者活动群：187457936
HFSS爱好者活动群2：453071095
FEKO爱好者群：295126223
论坛微信号：18010874378（微信交流群）
欢迎广大爱好者加入各自爱好的群！

发帖回复