Sujet de Thèse
Titre :
Synthèse de loi de commande non supervisée sûr de fonctionnement en présence de dégradations de composants
Dates :
2021/10/08 - 2024/10/07
Etudiant :
Description :
Contexte :
Les systèmes dynamiques doivent réaliser leur mission avant l'occurrence de défauts/défaillances des composants, ce qui est inévitable
si les composants subissent des dégradations progressives [1]. Ainsi dans ce récent domaine d'études, défini en anglais comme le
"Health Aware control framework"[2], la conception de lois de commande vise un compromis optimal entre la performance souhaitée
du système et la durée de vie résiduelle des composants critiques (RUL - Remaining Useful Life). Dans ce contexte, il est important de
mettre en exergue les caractéristiques typiques suivantes :
- les modèles de dégradation du composant sont généralement inconnus et les modèles mathématiques sont rarement disponibles
pour la conception d'une loi de commande. Les modèles du système global sont également incertains et les modèles précis sont
rarement disponibles. Les données historiques des défaillances et/ou données des tests de dégradation doivent être combinées
efficacement avec le système global(incertain) ;
- la dynamique de dégradation est généralement très différente de celle du système global. Il s'agit là d'un problème d'échelle de temps
différent à prendre en compte dans la synthèse ;
-La dégradation est un phénomène physique irréversible, un processus monotone qui nécessite une approche spécifique pour la
conception des lois de commande du système affecté.
Les éléments susmentionnés seront étudiés dans le cadre de programmation dynamique approximative où la politique (loi) de
commande (sous-)optimale est obtenue en minimisant une fonction de coût appropriée [3]. La théorie de la commande optimale est
bien fondée sur la programmation dynamique et est tout à fait adaptée pour aborder les systèmes à la dynamique parfaitement définie.
Il est important de noter que la solution(s) exacte obtenue par minimisation itérative de la fonction de coût quadratique sur un horizon
infini en utilisant la programmation dynamique est équivalente à celle obtenue par la solution de Riccati suivant la théorie classique de
la commande optimale, comme développée dans [4]. A noter que des solutions approximatives (« non exactes ») peuvent être
obtenues dans le cadre de la Reinforcement Learning à l'aide de la programmation dynamique approximative [5].
Objectifs :
Dans une première étape, la problématique de la synthèse d'une loi de commande non supervisée sûr de fonctionnement en présence
de dégradations de composants sera abordée pour les systèmes linéaires en temps discret. L'extension aux systèmes non linéaires
affines en la commande sera à considérer dans une seconde étape. Pour conduire une telle synthèse de loi commande non supervisée
et optimale (sous-optimal) sans modèle physique de dégradation, le travail de recherche devra fournir des solutions aux questions
suivantes :
- Quelles sont les architectures efficaces et nouvelles, pour combiner la base de données des défaillances/dégradations des
composants, avec le modèle de système global établi à partir d'un apprentissage non-supervisé ? Nous utiliserons notre récent résultat
dans lequel la prédiction de la RUL a été intégrée dans la fonction de coût pour l'apprentissage non-supervisé dans le cadre de la RL à
l'aide de l'algorithme de Q-Learning [6]. La stabilité du système en présence de dégradation monotone croissante devrait être étudiée
de préférence à l'aide de l'analyse du modèle de contraction (solution de point fixe) [7], ainsi que l'analyse de commandabilité
(dérivation d'ensembles d'états atteignable et/ou commandable). Nous devrons résoudre le problème lié à la dynamique du système en
présence de différentes échelles de temps.
- Comment effectuer l'apprentissage de la loi de commande efficacement en présence d'un grand espace d'état (ou base de données de
dégradation) ? Il a été établi qu'en présence de grands espaces des états, des approximateurs de fonction peuvent être utilisés pour
approximer la loi de commande de manière efficace [8][9]. Nous avons récemment montré une amélioration de la capacité
d'apprentissage en utilisant la prédiction de RUL dans un algorithme approximatif de Q-Learning [10].
Les algorithmes développés seront appliqués/validés sur un benchmark de dégradation de roulements disponible au CRAN (soutien
pôle scientifique AM2I de l'Université, 2018-2019).
Références bibliographiques :
[1] M. S. Jha, G. Dauphin-Tanguy, and B. Ould-Bouamama, "Particle filter based hybrid prognostics for health monitoring of uncertain
systems in bond graph framework," Mech. Syst. Signal Process., 2015.
[2] J. C. Salazar, P. Weber, F. Nejjari, R. Sarrate, and D. Theilliol, "System reliability aware model predictive control framework," Reliab.
Eng. Syst. Saf., vol. 167, pp. 663-672, 2017.
[3] F. L. Lewis and D. Liu, Reinforcement learning and approximate dynamic programming for feedback control, vol. 17. John Wiley &
Sons, 2013.
[4] D. P. Bertsekas, D. P. Bertsekas, D. P. Bertsekas, and D. P. Bertsekas, Dynamic programming and optimal control, vol. 1, no. 2. Athena
scientific Belmont, MA, 1995.
[5] D. P. Bertsekas and J. N. Tsitsiklis, Neuro-dynamic programming, vol. 5. Athena Scientific Belmont, MA, 1996.
[6] M. S. Jha, P. Weber, D. Theilliol, J.-C. Ponsart, and D. Maquin, "A Reinforcement Learning Approach to Health Aware Control
Strategy," in 2019 27th Mediterranean Conference on Control and Automation (MED), 2019, pp. 171-176.
[7] D. P. Bertsekas, Abstract dynamic programming. Athena Scientific, 2018.
[8] V. Mnih et al., "Human-level control through deep reinforcement learning," Nature, vol. 518, no. 7540, p. 529, 2015.
[9] G. Dulac-Arnold et al., "Deep reinforcement learning in large discrete action spaces," arXiv Prepr. arXiv1512.07679, 2015.
[10] M. S. Jha, D. Theilliol, G. Biswas, and P. Weber, "Approximate Q-learning approach for Health Aware Control Design," in 4th
International Conference on Control and Fault-Tolerant Systems (SYSTOL), 18-20 September 2019, Casablanca, Morocco, 2019.
Mots clés :
commande optimale,Apprentissage par renforcement, programmation dynnamique approximative,
Département(s) : 
Contrôle Identification Diagnostic