本文提出的用于CFD网格优化的深度学习框架是一种强化学习框架,在该框架中,智能体通过动作与环境交互。当智能体进入状态s后,选择动作a,并导致新的状态s’。此外,每次行动后都会给予奖励r。学习的目标是找到一个行动选择策略,使奖励最大化。度量智能体的状态-动作质量并学习Q函数的一种方法称为Q学习。Q函数的定义如下式所示。因此本研究开发的通用深度强化学习网络被称为深度Q网络(Mesh Deep Q Network,MeshDQN)。
[1] Cooper Lorsung & Amir Barati Farimani. Mesh deep Q network: A deep reinforcement learning framework for improving meshes in computational fluid dynamics [J]. AIP Advances 13, 015026 (2023).