信息表征-损失优化改进的物理信息神经网络求解偏微分方程

张照阳; 王青旺

doi:10.7498/aps.74.20250707

信息表征-损失优化改进的物理信息神经网络求解偏微分方程

张照阳,
王青旺^,

昆明理工大学信息工程与自动化学院, 昆明　650500

作者简介: 张照阳 zhangzhaoyang@stu.kust.edu.cn .

通讯作者: E-mail: wangqingwang@kust.edu.cn

中图分类号: 87.85.dq, 02.60.Cb, 02.30.Jr

allaPINNs: A physics-informed neural network with improvement of information representation and loss optimization for solving partial differential equations

Zhaoyang ZHANG,
Qingwang WANG^,

Faculty of Information Engineering and Automation, Kunming University of Science and Technology, Kunming 650500, China

Corresponding author: E-mail: wangqingwang@kust.edu.cn

MSC: 87.85.dq, 02.60.Cb, 02.30.Jr

摘要: 物理信息神经网络(PINNs)作为人工智能助力科学研究(AI for Science)求解偏微分方程(PDEs)的一种无网格化求解框架, 近年来受到广泛关注. 然而, 传统PINNs存在局限性: 一方面, PINNs网络结构使用单向信息传递的多层感知机(MLPs), 难以有效聚焦序列数据中蕴含的关键特征, 信息表征能力弱; 另一方面, PINNs的损失函数为嵌入物理约束的二次罚函数, 其未受约束而无限膨胀的惩罚因子影响模型训练寻优效率. 为应对上述挑战, 本文提出一种基于信息表征-损失优化改进的PINNs—allaPINNs, 旨在增强模型关键特征提取和训练寻优能力, 提升其求解PDEs数值解的准确性和泛化能力. 在信息表征方面, allaPINNs引入高效线性注意力(LA)增强模型关键特征识别能力, 同时降低权重动态加权的计算复杂度. 在损失优化方面, allaPINNs通过引入增广拉格朗日(AL)函数重构目标损失函数, 利用可学习的拉格朗日乘子和惩罚因子有效调控各损失残差项的相互作用. 由Helmholtz, Black-Scholes, Burgers和非线性Schrödinger四个基准方程验证allaPINNs的有效性. 结果表明, allaPINNs能够有效求解不同类型PDEs, 并展现出卓越的数值解预测精度与泛化能力. 相较于当前先进PINNs, 其预测精度提升一至两个数量级.
- 物理信息神经网络 /
- 线性注意力 /
- 增广拉格朗日函数 /
- 偏微分方程求解
Abstract: Physics-informed neural networks (PINNs) have recently garnered significant attention as a meshless solution framework for solving partial differential equations (PDEs) in the context of AI-assisted scientific research (AI for Science). However, traditional PINNs exhibit certain limitations. On one hand, their network architecture, typically multilayer perceptrons (MLPs) with unidirectional information transfer, struggles to effectively capture key features embedded in sequential data, resulting in weak information characterization. On the other hand, the loss function of PINNs, a quadratic penalty function embedded with physical constraints, has an unconstrained and infinitely inflated penalty factor that affects the efficiency of the model’s training optimization search. To address these challenges, this paper proposes an improved PINN based on information representation and loss optimization, termed allaPINNs, which aims to enhance the model’s key feature extraction capability and training optimization search ability, thereby improving its accuracy and generalization for solving numerical solutions of PDEs. In terms of information characterization, allaPINNs introduces efficient linear attention (LA) to enhance the model’s ability to identify key features while reducing the computational complexity of dynamic weighting. In terms of loss optimization, allaPINNs reconstructs the objective loss function by introducing the augmented Lagrangian (AL) function, utilizing learnable Lagrangian multipliers and penalty factors to efficiently regulate the interaction of each loss residual term. The feasibility of allaPINNs is validated through four benchmark equations: Helmholtz, Black-Scholes, Burgers, and nonlinear Schrödinger. The results demonstrate that allaPINNs can effectively solve various PDEs of different complexities and exhibit excellent numerical solution prediction accuracy and generalization ability. Compared to the current state-of-the-art PINNs, the predictive accuracy is improved by one to two orders of magnitude.
- physics-informed neural networks /
- linear attention /
- augmented Lagrangian functions /
- solving partial differential equations .

图 1 allaPINNs网络结构

Figure 1. allaPINNs network structure.

下载: 全尺寸图片幻灯片

图 2 使用allaPINNs求解基准方程的预测解和解析解对比结果

Figure 2. Comparison of predicted and analytical solutions for solving the benchmark equations using allaPINNs.

下载: 全尺寸图片幻灯片

图 3 使用allaPINNs在$ t = 0,\; 0.3,\; 0.66,\; 0.88 $四个时刻求解非线性Schrödinger方程的振幅快照

Figure 3. Snapshots of amplitudes for solving nonlinear Schrödinger equation at four moments $ t = 0,\; 0.3,\; 0.66,\; 0.88 $ using allaPINNs

下载: 全尺寸图片幻灯片

图 4 使用allaPINNs求解基准方程的逐点绝对误差分布

Figure 4. Pointwise absolute error distributions for solving benchmark equations using allaPINNs.

下载: 全尺寸图片幻灯片

图 5 最优拉格朗日乘子$ \lambda_{*} $的频率直方图, 其中Helmholtz方程包含$ \lambda_{1}^{*} $, Black-Scholes方程包含$ \lambda_{1}^{*}{\text{—}}\lambda_{3}^{*} $, Burgers方程包含$ \lambda_{1}^{*} $和$ \lambda_{2}^{*} $, 非线性Schrödinger方程包含$ \lambda_{1}^{*}{\text{—}}\lambda_{6}^{*} $

Figure 5. Frequency histogram of the optimal Lagrangian multipliers $ \lambda^{*} $, where the Helmholtz equation contains $ \lambda_{1}^{*} $, the Black-Scholes equation contains $ \lambda_{1}^{*}-\lambda_{3}^{*} $, the Burgers equation contains $ \lambda_{1}^{*}, \;\lambda_{2}^{*} $, and nonlinear Schrödinger equation contains $ \lambda_{1}^{*}-\lambda_{6}^{*} $.

下载: 全尺寸图片幻灯片

图 6 惩罚因子σ的学习过程, 其中(a), (b), (c), (d)中的$ \sigma^{*} $分别位于第48665, 49420, 43467和48933轮迭代, 对应的数值分别为2517.21, 35.45, 5.02和52.08

Figure 6. Learning process of the penalty factor σ, where $ \sigma^{*} $ for (a), (b), (c), (d) are located at rounds 48665, 49420, 43467, and 48933, corresponding to values of 2517.21, 35.45, 5.02, and 52.08, respectively.

下载: 全尺寸图片幻灯片

图 7 allaPINNs在训练过程中的$ L^{2} $相对泛化误差

Figure 7. The $ L^{2} $ relative generalization error of allaPINNs during training.

下载: 全尺寸图片幻灯片

表 1 allaPINNs模型和当前先进PINNs模型求解四个基准方程实验的$ L^{2} $相对误差对比结果

Table 1. Comparison of $ L^{2} $ relative errors between allaPINNs model and current state-of-the-art PINNs model for solving the four benchmark equations.

	物理信息神经求解器
求解方程	PINNs^[23]	AL-PINNs^[61]	f-PICNN^[30]	KINN^[31]	allaPINNs (本文)
Helmholtz	5.63 × 10^–2	1.82 × 10^–3	2.51 × 10^–3	1.08 × 10^–3	8.06 × 10^–4
Black-Scholes	7.18 × 10^–2	7.41 × 10^–3	5.24 × 10^–3	4.35 × 10^–3	3.48 × 10^–4
Burgers	7.04 × 10^–2	3.39 × 10^–3	2.49 × 10^–3	3.02 × 10^–3	8.31 × 10^–4
非线性Schrödinger	2.09 × 10^–2	1.55 × 10^–3	4.18 × 10^–3	1.37 × 10^–3	6.71 × 10^–4

下载: 导出CSV

表 2 allaPINNs模型在不同网络结构和损失函数条件下的平均$ L^{2} $相对误差对比结果

Table 2. Comparison of mean $ L^{2} $ relative errors of allaPINNs model with different network structure and loss function conditions.

网络结构	基准方程平均$ L^{2} $相对误差	损失函数	基准方程平均$ L^{2} $相对误差
MLPs	7.26 × 10^–2	罚函数	8.55 × 10^–3
CNN	3.09 × 10^–3	罚函数 (高斯噪声)	1.63 × 10^–3
LA	6.61 × 10^–4	AL	6.61 × 10^–4

下载: 导出CSV

表 B1 各对比模型中超参数配置和求解基准方程时间消耗

Table B1. Hyperparameter configuration and time consumption for solving the benchmark equations in each comparison model.

	物理信息神经求解器
对比指标	PINNs^[23]	AL-PINNs^[61]	f-PICNN^[30]	KINN^[31]	allaPINNs (本文)
网络层数	8	8	6	5	5
神经元数量	200	256	128	80	64
参数学习率	1 × 10^–3	1 × 10^–4	1 × 10^–4	1 × 10^–4	1 × 10^–3
求解Helmholtz时间消耗/s	1476	1520	1529	1606	1513
求解Black-Scholes时间消耗/s	1538	1585	1604	1714	1624
求解Burgers时间消耗/s	1519	1574	1593	1636	1588
求解非线性Schrödinger时间消耗/s	1545	1628	1650	1745	1661

下载: 导出CSV

[1]	Jin X, Cai S, Li H, Karniadakis G E 2021 J. Comput. Phys. 426 109951 doi: 10.1016/j.jcp.2020.109951
[2]	Roul P, Goura V P 2020 J. Comput. Appl. Math. 363 464 doi: 10.1016/j.cam.2019.06.015
[3]	Pu J C, Li J, Chen Y 2021 Chin. Phys. B 30 60202 doi: 10.1088/1674-1056/abd7e3
[4]	Cuomo S, Di Cola V S, Giampaolo F, Rozza G, Raissi M, Piccialli F 2022 J. Sci. Comput. 92 88 doi: 10.1007/s10915-022-01939-z
[5]	Samaniego E, Anitescu C, Goswami S, Nguyen-Thanh V M, Guo H, Hamdia K, Zhuang X, Rabczuk T 2020 Comput. Methods Appl. Mech. Eng. 362 112790 doi: 10.1016/j.cma.2019.112790
[6]	Taylor C A, Hughes T J, Zarins C K 1998 Comput. Methods Appl. Mech. Eng. 158 155 doi: 10.1016/S0045-7825(98)80008-X
[7]	Zhang Y 2009 Appl. Math. Comput. 215 524 doi: 10.1016/j.amc.2009.05.018
[8]	Van Hoecke L, Boeye D, Gonzalez-Quiroga A, Patience G S, Perreault P 2023 Can. J. Chem. Eng. 101 545 doi: 10.1002/cjce.24571
[9]	Hasan F, Ali H, Arief H A 2025 Int. J. Appl. Comput. Math. 11 1 doi: 10.1007/s40819-024-01814-5
[10]	Choo Y S, Choi N, Lee B C 2010 Appl. Math. Modell. 34 14 doi: 10.1016/j.apm.2009.03.022
[11]	Lawrence N D, Montgomery J 2024 R. Soc. Open Sci. 11 231130 doi: 10.1098/rsos.231130
[12]	Si Z Z, Wang D L, Zhu B W, Ju Z T, Wang X P, Liu W, Malomed B A, Wang Y Y, Dai C Q 2024 Laser Photonics Rev. 18 2400097 doi: 10.1002/lpor.202400097
[13]	Fang Y, Han H B, Bo W B, Liu W, Wang B H, Wang Y Y, Dai C Q 2023 Opt. Lett. 48 779 doi: 10.1364/OL.482946
[14]	Li N, Xu S, Sun Y, Chen Q 2025 Nonlinear Dyn. 113 767 doi: 10.1007/s11071-024-10243-4
[15]	Mouton L, Reiter F, Chen Y, Rebentrost P 2024 Phys. Rev. A 110 022612 doi: 10.1103/PhysRevA.110.022612
[16]	Zhu M, Feng S, Lin Y, Lu L 2023 Comput. Methods Appl. Mech. Eng. 416 116300 doi: 10.1016/j.cma.2023.116300
[17]	Li X, Liu Z, Cui S, Luo C, Li C, Zhuang Z 2019 Comput. Methods Appl. Mech. Eng. 347 735 doi: 10.1016/j.cma.2019.01.005
[18]	Wang S, Teng Y, Perdikaris P 2021 SIAM J. Sci. Comput. 43 A3055 doi: 10.1137/20M1318043
[19]	Chew A W Z, He R, Zhang L 2025 Arch. Comput. Methods Eng. 32 399 doi: 10.1007/s11831-024-10145-z
[20]	Bai J, Rabczuk T, Gupta A, Alzubaidi L, Gu Y 2023 Comput. Mech. 71 543 doi: 10.1007/s00466-022-02252-0
[21]	Son S, Lee H, Jeong D, Oh K Y, Sun K H 2023 Adv. Eng. Inf. 57 102035 doi: 10.1016/j.aei.2023.102035
[22]	方泽, 潘泳全, 戴栋, 张俊勃 2024 物理学报 73 145201 doi: 10.7498/aps.73.20240343 Fang Z, Pan Y Q, Dai D, Zhang J B 2024 Acta Phys. Sin. 73 145201 doi: 10.7498/aps.73.20240343
[23]	Raissi M, Perdikaris P, Karniadakis G E 2019 J. Comput. Phys. 378 686 doi: 10.1016/j.jcp.2018.10.045
[24]	Hornik K 1991 Neural Networks 4 251 doi: 10.1016/0893-6080(91)90009-T
[25]	Baydin A G, Pearlmutter B A, Radul A A, Siskind J M 2018 J. Mach. Learn. Res. 18 1
[26]	De Ryck T, Mishra S 2024 Acta Numer. 33 633 doi: 10.1017/S0962492923000089
[27]	Karniadakis G E, Kevrekidis I G, Lu L, Perdikaris P, Wang S, Yang L 2021 Nat. Rev. Phys. 3 422 doi: 10.1038/s42254-021-00314-5
[28]	Ren P, Rao C, Liu Y, Wang J X, Sun H 2022 Comput. Methods Appl. Mech. Eng. 389 114399 doi: 10.1016/j.cma.2021.114399
[29]	Lei L, He Y, Xing Z, Li Z, Zhou Y 2025 IEEE Trans. Ind. Inf. 21 5411 doi: 10.1109/TII.2025.3555981
[30]	Yuan B, Wang H, Heitor A, Chen X 2024 J. Comput. Phys. 515 113284 doi: 10.1016/j.jcp.2024.113284
[31]	Wang Y, Sun J, Bai J, Anitescu C, Eshaghi M S, Zhuang X, Rabczuk T, Liu Y 2025 Comput. Methods Appl. Mech. Eng. 433 117518 doi: 10.1016/j.cma.2024.117518
[32]	Li L L, Zhang Y P, Wang G H, Xia K L 2025 Nat. Mach. Intell. 7 1346 doi: 10.1038/s42256-025-01087-7
[33]	Jahani-Nasab M, Bijarchi M A 2024 Sci. Rep. 14 23836 doi: 10.1038/s41598-024-74711-y
[34]	Yu J, Lu L, Meng X, Karniadakis G E 2022 Comput. Methods Appl. Mech. Eng. 393 114823 doi: 10.1016/j.cma.2022.114823
[35]	Jiao Y, Lai Y, Lo Y, Wang Y, Yang Y 2024 Anal. Appl. 22 57 doi: 10.1142/S021953052350015X
[36]	Yang A, Xu S, Liu H, Li N, Sun Y 2025 Nonlinear Dyn. 113 1523 doi: 10.1007/s11071-024-10235-4
[37]	Li Y, Zhou Z, Ying S 2022 J. Comput. Phys. 451 110884 doi: 10.1016/j.jcp.2021.110884
[38]	Jacot A, Gabriel F, Hongler C 2018 32nd Conference on Neural Information Processing Systems (NIPS 2018) Montreal, Canada, December 3–8, 2018 p8570
[39]	Xiang Z, Peng W, Liu X, Yao W 2022 Neurocomputing 496 11 doi: 10.1016/j.neucom.2022.05.015
[40]	Tancik M, Srinivasan P, Mildenhall B, Fridovich-Keil S, Raghavan N, Singhal U, Ramamoorthi R, Barron J, Ng R 2020 34th Conference on Neural Information Processing Systems (NeurIPS 2020) Vancouver, Canada, December 6–12, 2020 p7537
[41]	Zhang Z, Wang Y, Tan S, Xia B, Luo Y 2025 Neurocomputing 625 129429 doi: 10.1016/j.neucom.2025.129429
[42]	Zhang W, Li H, Tang L, Gu X, Wang L, Wang L 2022 Acta Geotech. 17 1367 doi: 10.1007/s11440-022-01495-8
[43]	Zhang Z, Wang Q, Zhang Y, Shen T, Zhang W 2025 Sci. Rep. 15 10523 doi: 10.1038/s41598-025-92900-1
[44]	Cybenko G 1989 Math. Control Signals Syst. 2 303 doi: 10.1007/BF02551274
[45]	Wang C, Ma C, Zhou J 2014 J. Global Optim. 58 51 doi: 10.1007/s10898-013-0111-9
[46]	Yi K, Zhang Q, Fan W, Wang S, Wang P, He H, An N, Lian D, Cao L, Niu Z 2023 Adv. Neural Inf. Process. Syst. 36 76656 doi: 10.5555/3666122.3669471
[47]	Durstewitz D, Koppe G, Thurm M I 2023 Nat. Rev. Neurosci. 24 693 doi: 10.1038/s41583-023-00740-7
[48]	Chang G, Hu S, Huang H 2023 J. Supercomput. 79 6991 doi: 10.1007/s11227-022-04950-1
[49]	Ocal H 2025 Arabian J. Sci. Eng. 50 1097 doi: 10.1007/s13369-024-09131-1
[50]	Wu H C 2009 Eur. J. Oper. Res. 196 49 doi: 10.1016/j.ejor.2008.03.012
[51]	Curtis F E, Jiang H, Robinson D P 2015 Math. Program. 152 201 doi: 10.1007/s10107-014-0784-y
[52]	Sun D, Sun J, Zhang L 2008 Math. Program. 114 349 doi: 10.1007/s10107-007-0105-9
[53]	Kanzow C, Steck D 2019 Math. Program. 177 425 doi: 10.1007/s10107-018-1261-9
[54]	Rockafellar R T 2023 Math. Program. 198 159 doi: 10.1007/s10107-022-01768-w
[55]	Dampfhoffer M, Mesquida T, Valentian A, Anghel L 2023 IEEE Trans. Neural Networks Learn. Syst. 35 11906 doi: 10.1109/TNNLS.2023.3263008
[56]	Humbird K D, Peterson J L, McClarren R G 2018 IEEE Trans. Neural Networks Learn. Syst. 30 1286 doi: 10.1109/TNNLS.2018.2869694
[57]	Zhang Z, Wang Q, Zhang Y, Shen T 2025 Digital Signal Process. 156 104766 doi: 10.1016/j.dsp.2024.104766
[58]	Zhou P, Xie X, Lin Z, Yan S 2024 IEEE Trans. Pattern Anal. Mach. Intell. 46 6486 doi: 10.1109/TPAMI.2024.3382294
[59]	Rather I H, Kumar S, Gandomi A H 2024 Artif. Intell. Rev. 57 226 doi: 10.1007/s10462-024-10859-3
[60]	Thulasidharan K, Priya N V, Monisha S, Senthilvelan M 2024 Phys. Lett. A 511 129551 doi: 10.1016/j.physleta.2024.129551
[61]	Son H, Cho S W, Hwang H J 2023 Neurocomputing 548 126424 doi: 10.1016/j.neucom.2023.126424
[62]	Song Y, Wang H, Yang H, Taccari M L, Chen X 2024 J. Comput. Phys. 501 112781 doi: 10.1016/j.jcp.2024.112781

图( 8) 表( 3)

计量

文章访问数: 33
HTML全文浏览数: 33
PDF下载数: 2
施引文献: 0

全文HTML

1. 引　言

偏微分方程(PDEs)在物理学和金融数学中具有极为重要的作用和意义, 是描述物理现象和金融模型的核心工具, 广泛应用于流体力学、量化金融和量子力学等多个领域. 例如, 流体力学中的Navier-Stokes方程用于分析流体运动, 为航空航天和船舶设计提供了理论支持^[1]; Black-Scholes方程描述了金融衍生品价格的动态变化过程, 为风险管理和投资决策提供了指导^[2]; Schrödinger方程揭示了微观粒子的概率分布规律, 奠定了半导体物理和凝聚态物理的基础^[3]. PDEs的研究价值不仅在于其对物理和金融现象的精确描述, 还在于其为相关理论的深化与发展提供了强大的数学支持^[4]. 通过对PDEs的研究, 可以发现新的物理现象和规律, 例如孤立子理论的诞生. 然而, 只有少数PDEs具有解析解^[5]. 因此, 建立合适且高效的数值算法以近似求解PDEs显得尤为重要. 这不仅为复杂物理系统的模拟提供了有力支持, 还降低了实验成本, 提高了研究效率. 传统的数值算法包括有限元法(FEM)、有限差分法(FDM)和有限体积法(FVM). 这些非学习类的数值迭代方法^[6-8]通常要求将求解域离散化为一系列网格, 而网格划分的方式及尺寸大小对求解精度与效率有显著影响. 不当的网格选择可能导致数值解难以稳定收敛^[9]. 此外, 针对网格外的数据点, 还需借助额外的插值方法进行修正^[10].

近年来, 人工智能(AI)技术迅猛发展, 并广泛渗透并深度赋能各个研究领域, 尤其在与传统科学深度融合方面(AI for Science^[11]). 众多非线性动力学模型的建模工作借助于基于数据驱动的深度学习方法, 例如对于孤子动力学研究, Si等^[12]和Fang等^[13]采用循环神经网络(RNN)及其变体(如双向长短期记忆网络、BiLSTM)来处理孤子动力学问题, 并着重强调了注意力机制在提升预测精度方面的关键作用. 同时, Li等^[14]展示了傅里叶神经算子(FNO)在高维孤子问题中的应用潜力. 通过利用傅里叶变换捕捉全局变化, FNO有效避免了传统数值方法的复杂性. 在PDEs算子学习(DeepONet)方面, Mouton等^[15]提出了一种量子加速的DeepONet方法, 借助量子计算降低了输入维度的计算复杂度. Fourier-DeepONet通过引入傅里叶变换增强了DeepONet的特征表达能力, 并在复杂的地震波传播问题中展现了出色的预测性能^[16]. 这些研究均验证了深度学习模型的预测结果与实验数据或精确解的一致性, 充分展示了深度学习在超快光学和非线性动力学领域的应用潜力. 计算力学领域也因此受AI for Science启发, 二者融合主要体现在两个方面. 一方面, 通过深度学习方法, 利用真实的实验数据或可靠的数值结果, 构建基于神经网络的推理模型^[17]. 这种方法属于隐式编程, 即通过输入数据, 借助人工智能算法卓越的非线性拟合能力, 输出由神经网络参数组成的程序, 从而避免了为解决特定问题而显式编写程序模式^[18]. 通过数据驱动方式构建端到端的推理模型, 其核心在于利用神经网络对数据间抽象关系进行建模. 如果训练成功且测试集与训练集在数据分布上保持一致, 则该模型通常能够在测试集上表现出较高的计算效率和推理准确性. 然而, 这种数据驱动方法也存在一些限制. 首先, 它依赖于大量高质量数据, 数据质量和数量直接决定模型预测质量. 此外, 由于缺乏物理约束, 模型可解释性欠缺, 导致难以进一步提升模型预测性能. 另一方面, 将物理定律嵌入神经网络训练的损失函数中, 构成了物理信息机器学习(PIML^[19])的核心内容. 其中, 最具代表性且在多个学科中展现出广泛应用潜力^[20-22]的方法是Raissi等^[23]提出的物理信息神经网络(PINNs). 其核心思想是利用连续可微的多层感知器(MLPs)作为通用逼近函数^[24], 并通过自动微分技术^[25]将PDEs的算子和边界约束编码到神经网络损失函数中, 通过网络训练来优化其参数以逼近PDEs目标场函数.

基于PINNs建模思想, 众多学者从细化网络架构、优化目标及损失策略等方面入手, 在该领域开展了大量富有成效的改进工作, 以期提升其鲁棒性并优化性能^[26,27]. 在网络架构优化上, Ren等^[28]专注于卷积核与微分算子之间的内在关联, 开发出更适用于PINNs的卷积结构, 专门用于提取离散化数据分布中的分辨率特征. Lei等^[29]则考虑到诸多真实物理系统的时间相关性, 即系统未来状态依赖于过往状态, 由此融合长短期记忆网络(LSTM), 强化了模型对时序相关特征的挖掘能力. 不过, 该方法的损失函数在多目标优化进程中仍存在平衡性不足. f-PICNN^[30]采用堆叠非线性卷积网络(CNN)以增强对关联特征的捕捉能力, 但该模型欠缺聚焦与捕获隐藏特征中的关键特征. KINN^[31]采用Kolmogorov-Arnold网络(KAN)^[32]完全替代PINNs中MLPs, 这一改进思路具有一定参考价值. 该思路借助了KAN有效学习非线性激活函数的线性组合, 进而提升非线性拟合性能. 然而KINN在训练优化过程中易受到惩罚因子不受控而导致模型训练寻优效率欠佳. 针对优化目标, Jahani-Nasab等^[33]提出一种带有两阶段训练的增强型PINNs. 即先利用边界条件对部分网络权重进行训练, 随后训练算子约束的权重并更新已训练的边界权重, 以此加速模型收敛. 然而, 该方法未能充分兼顾多约束优化之间的整体平衡. 梯度增强法通过引入PDEs的高阶导数作为正则化项来强化PINNs训练, 在许多高维场景下表现较好^[34]. 深度Ritz方法(DRM)则另辟蹊径, 采用PDEs的变分形式作为新的目标函数, 从而规避高阶导数计算^[35]. 在损失策略层面, 由于PDEs描述的物理系统通常需同时满足多个约束条件, 仅依赖PINNs的二次惩罚函数直接优化, 必然会导致不同约束条件下收敛速度不匹配的问题. Yang等^[36]基于Hirota线性方法得到的孤子解, 对PINNs进行了扩展, 并结合损失函数权重衰减策略, 实现了孤子正问题中的传输预测以及逆问题中的参数识别. Li等^[37]提出一种基于隐式多步法和龙格-库塔方法的时间迭代训练方法, 以此补充PINNs的残差项. Wang等^[18]则提出一种自适应学习率的退火算法, 借助模型训练过程中梯度统计信息, 平衡损失函数中不同残差项的相互作用. 进一步地, 基于神经切线核(NTK)理论, Wang等证实PINNs存在频谱偏差, 这使得它们难以收敛到高频分量, 因此Jacot等^[38]提出一种基于NTK的学习率退火方案. 然而, 该方法需额外计算特征值, 从而显著增加了计算成本. 此外, 从多目标优化视角出发, 部分研究人员还提出运用最大似然估计学习模型训练中的高斯噪声, 进而自适应调整不同约束项权重^[39].

上述工作针对网络结构改进的PINNs^[28-31]在模型训练过程中寻优能力不足, 而对于优化策略改进的PINNs^[37-39]则存在关联特征提取与关键特征聚焦能力欠缺的局限. 本文注意到, 在信息表征方面, 传统PINNs仅采用单向信息传递的MLPs作为逼近函数, 难以捕捉序列间的关联特征^[40], 且缺乏对关键特征的识别能力. 同时, 传统注意力机制依赖于softmax函数, 其动态加权计算成本较高^[41]. 在损失优化方面, PINNs的损失函数为嵌入物理约束的二次罚函数, 若惩罚因子未施加约束, 易导致模型训练寻优效率不佳. 为应对上述挑战, 本文提出一种基于信息表征-损失优化的改进PINNs—allaPINNs, 旨在增强模型的关键特征提取能力和训练寻优能力, 提升其求解PDEs数值解的准确性和泛化能力. 具体而言, allaPINNs首先使用门控循环单元(GRU^[42])来捕获输入序列之间的关联特征. 其次, 引入线性注意力(LA)来解耦传统注意力计算中的softmax函数, 增强模型关键特征识别能力, 同时降低权重动态加权的计算复杂度. 最后, 通过MLPs将其映射为目标输出序列. 此外, allaPINNs引入增广拉格朗日(AL)函数重构目标损失函数, 利用可学习的拉格朗日乘子和惩罚因子有效调控各损失残差项的相互作用, 使得模型训练具备更精确的寻优能力.

本文结构安排如下: 第2节首先介绍了PINNs模型, 并详细阐述所提出的allaPINNs模型网络架构, 包括线性注意力计算过程; 同时, 分析PINNs损失函数存在的局限, 并引入增广拉格朗日函数重构其损失函数. 随后, 第3节使用四个基准方程对allaPINNs与当前先进PINNs模型进行对比评估, 以及通过消融实验来验证allaPINNs改进的网络结构和损失函数性能. 最后, 第4节给出本文总结和未来研究方向.

4. 结　论

本文通过引入线性注意力与增广拉格朗日函数优化PINNs求解PDEs, 提出一种基于信息表征-损失优化改进的PINNs—allaPINNs, 旨在提升求解PDEs数值解精度和泛化能力. 以Helmholtz, Black-Scholes和Burgers方程验证所提模型的有效性. 实验结果显示, allaPINNs能够有效求解不同类型的PDEs, 并展现出卓越的数值解预测精度与泛化能力. 相比当前先进PINNs模型, 其预测精度提升一至两个数量级. 此外, 通过不同网络结构和损失策略的消融实验, 验证了LA在聚焦关键特征识别能力以及增广拉格朗日函数在重构损失函数优化方面, 对PINNs预测性能的改进效果最为显著.

尽管本文研究取得一定进展, 但针对PINNs的物理可解释性与优化理论探究仍属起步阶段, 诸多问题亟待深入剖析. 其一, 基于PINNs的改进模型在底层结构设计中仍采用仿射结构的神经元, 且其非线性依赖于全局定义的激活函数. 然而, 这种设计缺乏足够的物理可解释性. 因此, 未来可探索将传统数值方法与神经网络相结合, 为神经元赋予参数化的基函数结构, 从而增强模型在物理层面进行非线性拟合的可解释性. 其二, 当前基于PINNs的优化主要依赖一阶与二阶优化方法交替应用. 然而, 在处理高维非线性及非凸损失面时, 这些优化器常陷入局部极小值或鞍点困境. 因此, 开发更高效的拟牛顿优化方案也是未来研究的重要方向.

附录A. 基准方程

四个基准方程和其各自重构的损失函数如下.

Helmholtz方程

本文选取的第1个基准方程为如下形式的二维Helmholtz方程^[62]:

其中, $ k = 1,\; a_{1} = 1,\; a_{2} = 4 $. 其损失函数被重构为

Black-Scholes方程

本文选取的第2个基准方程是转化为非退化前向时间形式的Black-Scholes方程^[2]:

其边界条件为

其损失函数被重构为

Burgers方程

本文选取的第3个基准方程为如下形式的黏性Burgers方程^[62]:

其中, $ v = {1}/({100 \pi}) $. 其损失函数被重构为

非线性Schrödinger方程

本文选取的第4个基准方程为如下包含狄利克雷和诺伊曼边界条件的非线性Schrödinger方程^[3,37]:

其中, $ \mathrm{i} = \sqrt{-1} $表示虚数单位, $ q(x, t) = u(x, t)+\mathrm{i}v(x, t) $是关于$ t, x $的复值函数, 由实部u和虚部v组成. 因此, 所提模型的输出可表示为$ [u(t, x), v(t, x)] $, 并满足$ |q(x, t)| = \sqrt{(u(x, t))^2+(v(x, t))^2} $, 则方程(A8)可转化为

其损失函数被重构为

附录B. 参数配置

本节详细列出了数值实验部分中所有基准实验的超参数配置, 以及本文所提算法与其他对比方法求解所有基准方程的时间消耗. 表B1汇总了表1中不同神经求解模型共有的超参数选择, 包括网络层数、神经元数量、参数学习率、训练完成后求解所有基准方程的时间消耗. 在所有基准实验中, 求解方程的时空配点序列均通过LHS随机生成, 其中内部配点规模为2048, 边界配点规模为256. 模型训练的迭代次数设置为50000轮, 优化器采用AdamW算法, 所有计算均在单个Nvidia RTX 3060 Ti GPU上完成. 结果表明, 本文提出的模型能够在使用较少网络层数和神经元数量的情况下, 实现更高的预测精度. 与此同时, 各算法训练完成后在推断阶段的时间消耗并无显著差异. 这一结果进一步验证了通过LA注意力汇聚和AL损失重构在优化PINNs方面的显著优势及其应用潜力.

信息表征-损失优化改进的物理信息神经网络求解偏微分方程

作者简介: 张照阳 zhangzhaoyang@stu.kust.edu.cn .

通讯作者: E-mail: wangqingwang@kust.edu.cn

allaPINNs: A physics-informed neural network with improvement of information representation and loss optimization for solving partial differential equations

Corresponding author: E-mail: wangqingwang@kust.edu.cn

计量

信息表征-损失优化改进的物理信息神经网络求解偏微分方程

通讯作者: E-mail: wangqingwang@kust.edu.cn

作者简介: 张照阳 zhangzhaoyang@stu.kust.edu.cn
昆明理工大学信息工程与自动化学院, 昆明　650500

English Abstract

allaPINNs: A physics-informed neural network with improvement of information representation and loss optimization for solving partial differential equations

Corresponding author: E-mail: wangqingwang@kust.edu.cn

全文HTML

2.1. 准备工作

2.2. allaPINNs网络结构

2.3. allaPINNs损失函数

目录

信息表征-损失优化改进的物理信息神经网络求解偏微分方程

作者简介: 张照阳 zhangzhaoyang@stu.kust.edu.cn .

通讯作者: E-mail: wangqingwang@kust.edu.cn

allaPINNs: A physics-informed neural network with improvement of information representation and loss optimization for solving partial differential equations

Corresponding author: E-mail: wangqingwang@kust.edu.cn

计量

出版历程

信息表征-损失优化改进的物理信息神经网络求解偏微分方程

通讯作者: E-mail: wangqingwang@kust.edu.cn

作者简介: 张照阳 zhangzhaoyang@stu.kust.edu.cn 昆明理工大学信息工程与自动化学院, 昆明 650500

English Abstract

allaPINNs: A physics-informed neural network with improvement of information representation and loss optimization for solving partial differential equations

Corresponding author: E-mail: wangqingwang@kust.edu.cn

全文HTML

2.1. 准备工作

2.2. allaPINNs网络结构

2.3. allaPINNs损失函数

目录

作者简介: 张照阳 zhangzhaoyang@stu.kust.edu.cn
昆明理工大学信息工程与自动化学院, 昆明　650500