Sujet de stage
Titre :
Caractéristiques des algorithmes MRDM : Une comparaison entre RCA, PCA et Graph-FCA
Dates :
2022/11/15 - 2023/05/15
Encadrant(s) : 
Description :
L'exploration de données multi-relationnelles (MRDM) [1] est le processus de découverte de connaissances ou de modèles à partir de
quantités massives de données (exploration de données), lorsque les données proviennent de sources hétérogènes liées (multi-
relationnelles). De plus, l'apprentissage non supervisé est le nom donné au processus d'extraction de modèles à partir de données non
étiquetées. Plusieurs cadres mathématiques ont été proposés pour traiter cette tâche, chacun ayant ses forces et ses faiblesses.
Dans ce travail, nous visons à étudier, d'un point de vue informatique, les caractéristiques des cadres d'analyse de concepts
relationnels (RCA), d'analyse de concepts polyadiques (PCA) et d'analyse de concepts graphiques formels (G-FCA). En particulier,
nous sommes intéressés à rassembler les différences entre leurs principaux algorithmes en termes de complexité temporelle et
spatiale, d'efficacité pratique dans différents scénarios et, enfin, les différences entre leurs résultats.
L'objectif de cette étude est de fournir des indications sur le moment et la raison pour lesquels il est opportun d'utiliser l'une ou l'autre
de ces approches. En outre, nous discuterons des limites des algorithmes mis en oeuvre et fournirons des suggestions sur les
possibilités d'amélioration. Enfin, nous avons pour objectif de fournir une mise en oeuvre open source des cadres.
Le projet comprendra les étapes suivantes :
1. Collecter la bibliographie requise et comprendre le contexte théorique de base de chaque cadre.
2. Mettre en oeuvre au moins un algorithme de chaque cadre en utilisant le même langage de programmation afin que
l'expérimentation croisée ait un sens.
3. Concevoir et proposer des expériences pour obtenir des comparaisons intéressantes entre les implémentations.
4. Tirer une conclusion de l'étude.

References
[1] Saso Dzeroski. "Multi-relational data mining: an introduction". In: ACM SIGKDD Explorations Newsletter 5.1 (July 2003), pp.
1-16. issn: 1931-0145. doi: 10.1145/959242.959245. url: https://doi.org/10.1145/959242.959245 (visited on 04/04/2022).
Mots clés :
Formalisation de la connaissance, Fouille de données multi relationnelles, RCA, PCA, G-FCA
Conditions :
Le contrat sera de six mois, du 15/11/2022 au 15/05/2023
L'employeur sera l'Université de Lorraine
La rémunération est de 600 euros par mois
Le Profil attendu est celui d'un étudiant capable de coder avec différents langages de programmation et avec des très solides bases en
mathématique avancé.
Département(s) : 
Ingénierie des Systèmes Eco-Techniques
Financement :
Le financement provient d'un projet de thèse CIFRE.