Sujet de Thèse
Titre :
Identification de systèmes non linéaires guidée par la physique pour l'apprentissage par renforcement
Dates :
2023/10/01 - 2026/09/30
Etudiant :
Description :
La modélisation et la simulation de systèmes sont toujours d'une importance capitale pour caractériser la dynamique sous-jacente d'un système non linéaire
variant dans le temps. Une solution récente a été d'exploiter les méthodes émergentes de l'apprentissage automatique et de l'apprentissage profond.

Pour identifier les systèmes dynamiques non linéaires variants dans le temps, les réseaux de neurones informés par la physique (PINN) sont apparus comme
un paradigme hybride d'apprentissage profond qui exploite les modèles de connaissance issus de la Physique (Raissi et al. 2019). Dans ce paradigme, les
réseaux de neurones sont formés pour résoudre des tâches d'apprentissage supervisé tout en respectant les lois de la Physique (Stiasny et al. 2021). En outre,
l'approche basée sur l'opérateur Koopman pour l'identification des dynamiques non linéaires a suscité une attention considérable au cours des cinq dernières
années (Bevanda et al. 2021). La théorie de l'opérateur de Koopman a des liens de longue date avec la théorie des systèmes dynamiques. Lorsqu'ils sont
développés en conjonction avec des réseaux neuronaux profonds, les opérateurs de Koopman profonds ont montré des résultats remarquables pour
l'identification de dynamiques non linéaires (Lusch et al. 2018 ; Mauroy et Goncalves 2019). Cependant, jusqu'à présent, le potentiel de la combinaison des
PINN avec les opérateurs Deep Koopman pour l'identification des systèmes dynamiques non linéaires n'a pas été totalement exploré de manière détaillée.
L'utilisation de l'approche basée sur les opérateurs de Koopman avec les PINN devrait permettre d'obtenir des modèles réduits et de haute fidélité qui
correspondent bien aux propriétés physiques généralement connues et qui sont donc plus facilement " interprétables ".

D'autre part, les progrès récents dans le domaine de la programmation dynamique adaptative et de l'apprentissage par renforcement (ADP-RL) ont permis
d'obtenir des résultats remarquables dans la conception de commandes optimales pour les systèmes non linéaires en l'absence de connaissance du système
(complète ou partielle) (Kiumarsi et al. 2017). L'apprentissage par renforcement est un domaine mature avec des bases mathématiques bien établies pour le
contrôle optimal (sous-optimal) des systèmes dynamiques non linéaires en temps continu et discret, dans lequel la synthèse du contrôle optimal est
largement basée sur la solution itérative de l'équation non linéaire de Hamilton-Jacobi-bellman (HJB) en utilisant une structure basée sur un réseau neuronal
(Mu et al. 2016). Cependant, alors que les approches existantes fournissent des performances asymptotiques exceptionnelles, l'apprentissage par
renforcement basé sur la méthode essai-erreur souffre de l'inefficacité des données, c'est-à-dire qu'il nécessite une quantité excessive de données d'essai pour
la formation. Cela nuit à la qualité de la formation et conduit à des performances semi-globales. De plus, il n'y a pas d'aperçu/explication du modèle de
système appris par les agents RL de manière implicite. Il en va de même pour la politique de contrôle non linéaire apprise dans le cadre du RL, c'est-à-dire
qu'il n'y a que très peu ou pas de compréhension de la dynamique de la politique de contrôle apprise. Ces facteurs obligent à s'entraîner avec des données
excessives et des durées d'entraînement (épisodes) nécessairement longues. Des efforts très récents ont été faits en représentant la dynamique de
l'environnement comme un système dynamique linéaire dans un espace à haute dimension (Han et al. 2020), où la théorie de l'opérateur de Koopman permet
d'incorporer des méthodes de contrôle optimal efficaces pour produire des essais de haute qualité, accélérant ainsi l'apprentissage (Shi et Meng 2022).



Alors que la première phase de la thèse visera le développement d'approches basées sur l'opérateur Koopman profond pour l'identification de systèmes non
linéaires, la deuxième phase étudiera l'intégration et l'exploitation appropriées de ces modèles dans le cadre de l'apprentissage par renforcement profond afin
de rendre le processus d'apprentissage de contrôle (sous-)optimal efficace en termes de données et interprétable. Globalement, l'objectif sera d'utiliser les
récentes méthodes d'identification basées sur les données et la théorie de Koopman pour construire des modèles adaptatifs qui peuvent être intégrés dans des
stratégies de contrôle par apprentissage par renforcement. Le cadre applicatif privilégié sera la robotique.



Références

Bevanda, Petar, Stefan Sosnowski, and Sandra Hirche. 2021. "Koopman Operator Dynamical Models: Learning, Analysis and Control." Annual Reviews in
Control 52: 197-212.

Kiumarsi, Bahare, Kyriakos G Vamvoudakis, Hamidreza Modares, and Frank L Lewis. 2017. "Optimal and Autonomous Control Using Reinforcement
Learning: A Survey." IEEE Transactions on Neural Networks and Learning Systems 29 (6): 2042-62.

Lusch, Bethany, J Nathan Kutz, and Steven L Brunton. 2018. "Deep Learning for Universal Linear Embeddings of Nonlinear Dynamics." Nature
Communications 9 (1): 1-10.

Mu, Chaoxu, Zhen Ni, Changyin Sun, and Haibo He. 2016. "Data-Driven Tracking Control with Adaptive Dynamic Programming for a Class of
Continuous-Time Nonlinear Systems." IEEE Transactions on Cybernetics 47 (6): 1460-70.

Raissi, Maziar, Paris Perdikaris, and George E Karniadakis. 2019. "Physics-Informed Neural Networks: A Deep Learning Framework for Solving Forward
and Inverse Problems Involving Nonlinear Partial Differential Equations." Journal of Computational Physics 378: 686-707.

Shi, Haojie, and Max Q-H Meng. 2022. "Deep Koopman Operator with Control for Nonlinear Systems." IEEE Robotics and Automation Letters 7 (3):
7700-7707.

Stiasny, Jochen, George S Misyris, and Spyros Chatzivasileiadis. 2021. "Physics-Informed Neural Networks for Non-Linear System Identification for Power
System Dynamics." In 2021 IEEE Madrid PowerTech, 1-6.
Mots clés :
Identification des systèmes, apprentissage profond, apprentissage par renforcement
Département(s) : 
Contrôle Identification Diagnostic