Sujet de Thèse
Titre :
Méthodes formelles d'extraction et de réutilisation des connaissances provenant de sources hétérogènes pour l'interopérabilité sémantique des architectures distribuées
Dates :
2021/11/24 - 2024/11/23
Etudiant :
Encadrant(s) : 
Autre(s) encadrant(s) :
TESTE Laurent (Laurent.Teste@snmsf.com)
Description :
Descriptif du thème de recherche et du sujet de thèse associé :
Thème et problématique de recherche
Ce travail porte sur la création des modèles mathématiques et l'implantation de capteurs intelligents, Systèmes
Cyber Physiques (CPS) pour enrichir la couche de données qui remonte du terrain. L'un des défis scientifiques les
plus pertinents est le manque de formalisation (en d'autres termes mathématiques) des modèles de systèmes et
des systèmes d'information qui en découlent, ainsi que la définition de la sémantique des concepts et des
relations qu'ils appliquent, afin d'assurer leur compréhension commune et de faciliter leur interopérabilité en
minimisant les pertes sémantiques ;
État de l'art scientifique
Pour apporter à ce projet, déjà en marche, des contributions scientifiques précises et concrètes on utilisera une
approche de l'ingénierie des systèmes interopérables (Ramos, 2011) et (Morel, 2003) qui consiste à s'appuyer sur
différents types et niveaux d'abstraction ou de modèles. Ces modèles doivent exprimer et formaliser non
seulement l'aspect "structurel" des composants du système, mais aussi leur comportement (Maier, 1998), qui
peut être limité par les exigences spécifiques du domaine du système (règles commerciales). Un autre type de
contrainte peut être induit par le ou les protocoles d'interopérabilité qui peuvent imposer des règles strictes pour
doter les systèmes interopérables de propriétés telles que l'autonomie, la confidentialité et la transparence.
L'objectif de ce projet de recherche est double : d'une part, modéliser des données provenant de sources
hétérogènes et, d'autre part, étudier les problèmes posés par l'ingénierie dirigée par les modèles dans les
systèmes coopératifs. Impliquant une coopération concernant les "systèmes d'acteurs" désireux d'interopérer. Les
systèmes collaboratifs sont désormais organisés en réseaux, soit sous forme de systèmes complexes.
Les systèmes complexes envisagés seront composés de réseaux de CSP, des capteurs intelligents, qui récupéreront
des données en insérant le contexte et formeront ainsi des réseaux d'information (Cardin, 2016).
Le challenge scientifique est ainsi de mettre à disposition des langages et des outils de modélisation adaptés à
chaque projet de systèmes avec architecture distribuée, et ce malgré l'hétérogénéité des compétences métier et
la pluridisciplinarité des domaines. Ce challenge possède deux dimensions : d'une part, celle de la capacité de la
modélisation à outiller les démarches métier, ce qui nécessite la définition et la formalisation de leurs invariants ;
d'autre part, l'étude des conditions d'usage des modèles dans la pratique, toujours évolutive et incertaine.
L'analyse des concepts formels (FCA) (Priss, 2006) est un instrument utile et puissant pour décrire formellement
les liens entre des objets quelconques (qui forment un contexte), en particulier entre des objets véhiculant la
connaissance. Cette méthode se base sur la théorie des treillis (Wille, 2009), qui peut être utilisée pour résoudre
des problématiques d'évaluation d'interopérabilité entre systèmes d'information au sein des entreprises.
Une extension des mécanismes de la FCA a été introduite dans (Rouane-Hacene et al. 2013) et appelée Analyse
des Concepts Relationnelles (RCA) où le focus est sur les ensembles des données compatibles avec les Modèles
Entités Relations (Chen, 1976) ou, alternativement, avec le Resource Description Framework (RDF) (Miller,
1998). Les Linked Open Data a été reconnu comme une source précieuse pour obtenir des informations générales
sur l'exploration des données et les graphs de connaissance sont une méthode pour formaliser cette
connaissance (Ristoski, 2016). Cela constitue une méthode pour extraire de la connaissance conceptuelle à partir
de données multi-relationnelles. L'extraction d'information est une partie du domaine d'étude appelé fouille de
données (Manning et al, 2008), les informations qui peuvent être mis en relation entre eux peuvent être étudiés à
travers les méthodes de l'exploration de données multi-relationnelles (MRDM) (Džeroski, 2003) qui traite les
données multi contextuelles. La méthode RCA ne se limite pas à l'extraction de connaissance de contextes séparés
elle vise à exprimer des connaissances en inter opérant la sémantique de différents contextes, c'est-à-dire qu'en
plus d'extraire la connaissance d'un contexte précis, les données contenues dans les autres contextes sont
utilisées dans le but d'enrichir l'extraction de connaissances.
Verrous scientifiques adressés par la thèse
Face à ce défi les verrous scientifiques concernent : Le manque de formalisation (en autres mathématique) de
l'agglomération des informations dans les modèles de systèmes et des systèmes d'informations qui en émergent,
ainsi que la définition de la sémantique des concepts et des relations qu'ils mettent en oeuvre, pour assurer leur
compréhension commune, et faciliter leur interopération en minimisant les pertes sémantiques;
L'adaptation (voire l'extension) des outils de nature algébrique et/ou géométrique (théorie des treillis, théorie
des catégories, algèbre homologique) dans le contexte de l'analyse des concepts formels, pour le traitement de
donnés hétérogènes en constante évolution. Ce qui constitue une approche récente qui n'a pas encore été
pleinement développé (même du point de vue mathématique) pour ce type de données.
Objectifs et contribution aux axes R&D du SNMSF :
La thèse proposée entre dans le cadre du Domaine d'Expertise Stratégique « Industrie 4.0 ». Les précédents
travaux ont démontré l'intérêt d'une approche holistique de l'ensemble des ressources informationnelles et ont
permis le développement d'une méthodologie focalisée sur l'optimisation de la gestion de connaissance. La
présente proposition vise donc à poursuivre les travaux engagés par l'élaboration d'une méthode formelle
d'extraction et de réutilisation des connaissances provenant de sources hétérogènes pour l'interopérabilité
sémantique des architectures distribuées. Cette méthode sera intégrée comme brique méthodologique au
processus de gestion des ressources d'information aptes à l'aide à la décision. Il constitue ainsi un élément
structurant pour le projet d'une grande plateforme « Mon séjour en Montagne » du SNMSF.
Mots clés :
Formalisation de la connaissance, Fouille de données multi relationnelles
Département(s) : 
Modélisation Pilotage des Systèmes Industriels