前面的章节已经解释了可微分物理学方法在深度学习中的应用,并给出了一系列例子:从基本的梯度计算到由高级模拟驱动的复杂学习设置。现在是时候退后一步进行评估了:最终,这些方法中的可微分物理学组件并不太复杂。它们主要基于现有的数值方法,重点是有效地利用这些方法不仅进行前向模拟,还要计算梯度信息。在这种情况下,主要令人兴奋的是这些数值方法与深度学习相结合所带来的影响。
14.1 集成
最重要的是,通过可微分物理训练,我们能够无缝地将这两个领域结合起来:我们可以获得混合方法,使用我们可以使用的最佳数值方法进行模拟本身以及训练过程。然后,我们可以使用训练好的模型来改进正向或反向求解。因此,最终我们拥有一个求解器,结合了传统求解器和学习组件,在组合中可以提高数值方法的能力。
14.2 交互
一个关键的方面是让神经网络在训练时与偏微分方程求解器进行交互,这对于这些混合模型的良好运行非常重要。可微分模拟允许训练模型“探索和体验”物理环境,并在求解器迭代过程中接收有针对性的反馈。这种组合很好地适应了可微分编程作为机器学习中更广泛背景的情况。
14.3 泛化
混合方法对于模拟器也具有特别的潜力:它通过让 PDE 求解器处理数据分布的大规模变化,从而提高训练模型的泛化能力,使得学习的模型可以专注于离散化未能捕捉的局部结构。虽然物理模型的泛化能力非常好,但学习模型通常专门针对训练时看到的数据分布。例如,对于上一章减少数值误差的模型,已经证明训练的模型可以处理具有大量不同物理行为的解流形,而简单的训练变体很快在重复时间步骤的过程中恶化。
总结一下, 通过 DP 训练神经网络的优缺点:
✅ 优点:
- 使用物理模型和数值方法进行离散化。
- 所选方法的效率和准确性转移到训练中。
- 物理模型和神经网络可以非常紧密地耦合。
- 通过求解器交互改进泛化。
❌ 缺点:
- 不能兼容所有的模拟器 (需要提供梯度)。
- 需要比前面讨论的方法更多的重型机器 (在框架支持方面)。
展望:随着深度学习领域中软件和 API 的发展速度,关于重型机械的最后一个负面点必将得到极大的改善。然而,目前重要的是要记住,并非每个模拟器都适合直接用于 DP 训练。因此,在本书中,我们将重点关注使用 phiflow 的示例,该软件旨在与深度学习框架进行接口设计。
通过可微物理训练(DP),我们能够将完整的数值模拟集成到深度神经网络的训练中。这也是一种非常通用的方法,适用于各种基于 PDE 模型和深度学习的组合。
在接下来的章节中,我们将首先将 DP 训练与控制问题的无模型替代方案进行比较,然后针对底层学习过程进行目标定位,以获得更好的神经网络状态。