Sujet de Thèse
Titre :
Méthodes tensorielles pour la fusion de données avec des caractéristiques partagées et distinctes : Application à l'identification de sous-groupes dans des données d'IRMf multi-sujets
Dates :
2023/10/01 - 2026/09/30
Encadrant(s) : 
Autre(s) encadrant(s) :
Tulay Adali (adali@umbc.edu)
Description :
Contexte :
La découverte de caractéristiques partagées et distinctes (DCCD) dans plusieurs ensembles de données est un problème fondamental dans différentes disciplines, notamment dans l'analyse de données d'imagerie par résonance magnétique fonctionnelle (IRMf) multi-tâches [1] ou dans la fusion d'images multimodales [2]. Les caractéristiques distinctes de chaque ensemble de données peuvent provenir, par exemple, de conditions d'acquisition non-contrôlées [3], ou de caractéristiques
spécifiques à chaque sujet dans les données médicales [4]. La DCCD est un grand défi, car ce problème dépasse la capacité des modèles classiques et nécessite le développement de méthodes plus flexibles. La DCCD dans les données d'IRMf multi-sujets peut avoir un impact sociétal significatif par le biais de la médecine personnalisée en trouvant des caractéristiques partagées par des sous-groupes d'individus qui peuvent prédire des maladies neurologiques [1]. Les études longitudinales telles que l'ABCD [5], qui font l'acquisition des données d'IRMf ainsi qui des données de non-neuro-imagerie (p. ex., scores cognitifs, consommation de substances) sur les mêmes sujets, présentent une opportunité particulière. Il est donc nécessaire de développer des méthodes permettant d'identifier des sous-groupes homogènes de sujets dans les données longitudinales d'IRMf et de non-neuro-imagerie, afin de révéler l'évolution des processus cognitifs et de caractériser les sous-types de maladies et les groupes à risque pour des comportements addictifs au tout début de l'étude. L'identification du sous-groupe auquel appartient un individu peut constituer une étape importante vers la médecine personnalisée.

Défis :
La neuro-imagerie soulève des questions méthodologiques fondamentales. Elle nécessite des algorithmes axés sur les données, hautement interprétables (par exemple, avec des garanties d'identifiabilité) et reproductibles, ce qui a fait des approches basées sur la décomposition matricielle et tensorielle et l'analyse en composantes indépendantes la référence dans le domaine. Cependant, l'étude de l'unicité de factorisations plus flexibles en est encore à ses débuts. L'unicité des décompositions tensorielles couplées n'a été étudiée pour la première fois que récemment [6]. Des algorithmes prenant en compte les composantes partagées et distinctes ont été proposés dans [7] sans garantie d'identifiabilité. L'identifiabilité de la décomposition tensorielle couplée avec des composants individuels partagés pour la fusion d'images a été récemment établie dans [2].

Programme de recherche :
Le(a) candidat.e se concentrera sur le développement de nouvelles méthodes flexibles de décomposition matricielle/tensorielle avec des composants partagés et distincts avec une application à la neuro-imagerie. Les objectifs comprennent :
1) Développer des méthodes couplées de décomposition de tenseurs de rang faible avec des composantes partagées et distinctes applicables à la neuro-imagerie et étudier leur identifiabilité ;
2) développer des décompositions physiquement interprétables qui prennent en compte les données longitudinales et des différentes modalités (par exemple, non-neuroimagerie) ; 3) valider les méthodes pour l'identification de sous-groupes homogènes dans les données longitudinales d'IRMf multi-sujets pour la médecine personnalisée.

Références

[1] M. Akhonda et al., "Disjoint subspaces for common and distinct component analysis: Application to the fusion of multi-task FMRI data," Journal of Neuroscience Methods, vol. 358, p. 109214, 2021.
[2] R. A. Borsoi et al., "Coupled tensor decomposition for hyperspectral and multispectral image fusion with inter-image variability," IEEE Journal of Selected Topics in Signal Processing, vol. 15, no. 3, pp. 702-717, 2021.
[3] A. K. Smilde et al., "Common and distinct components in data fusion," Journal of Chemometrics, vol. 31, no. 7, p. e2900, 2017.
[4] E. S. Finn et al., "Functional connectome fingerprinting: identifying individuals using patterns of brain connectivity," Nature Neuroscience, vol. 18, no. 11, pp. 1664-1671, 2015.
[5] B. J. Casey et al., "The adolescent brain cognitive development (ABCD) study: imaging acquisition across 21 sites," Developmental Cognitive Neuroscience, vol. 32, pp. 43-54, 2018.
[6] M. Sørensen and L. D. De Lathauwer, "Coupled canonical polyadic decompositions and (cou-pled) decompositions in multilinear rank-(lr,n,lr,n,1) terms-part I: Uniqueness," SIAM Journal on Matrix Analysis and Applications, vol. 36, no. 2, pp. 496-522, 2015.
[7] E. Acar et al., "Structure-revealing data fusion," BMC Bioinformatics, vol. 15, no. 1, pp. 1-17, 2014.
Mots clés :
Apprentissage Automatique, Fusion de données, Méthodes Tensorielles, Neuro-imagerie
Conditions :
Thèse en 36 mois à la Faculté de Sciences et Technologies (UL), en collaboration étroite avec le Machine Learning for Signal Processing Lab (MLSP Lab), University of Maryland Baltimore County (UMBC), USA.

Profil attendu: étudiant.e en MASTER (niveau bac + 5), compétences dans l'un ou plusieurs des domaines suivants : analyse de données, traitement du signal, apprentissage automatique, et/ou mathématiques appliquées. Bonne capacité de communication en anglais.
Département(s) : 
Biologie, Signaux et Systèmes en Cancérologie et Neurosciences
Financement :
Thèse internationale ou CD UL