05/03/2024
Publier un article de données ou data paper : retour d'expérience de deux ambassadrices des données

L’atelier de la donnée ADOC Lorraine a recueilli les retours d’expérience d’Audrey Knauf (maîtresse de conférences au CREM) et de Marine Amouroux (ingénieure de recherche au CRAN), ambassadrices des données pour leur laboratoire, suite à la publication de leur data paper respectif. Envie d’en savoir plus ? Rendez-vous les 11 et 15 mars pendant la Love Data Week de l’Université de Lorraine, dates auxquelles sont organisés des événements sur les data papers (sur inscription).

Quelles données avez-vous publiées ?

AK : Un corpus de données, représentant douze années de publications au sein de la revue internationale d’intelligence économique (R2IE).

MA : Le jeu de données publié correspond à des spectres lumineux (optiques) acquis sur des patients porteurs de cancers de la peau. Concrètement ces "spectres" prennent la forme de tableaux de données au format Excel. Ils ont été acquis sur 132 patients pendant 5 ans entre novembre 2016 et mars 2021 au sein du bloc opératoire du service de chirurgie plastique du CHR Metz-Thionville. L'objectif de l'acquisition de ces données est de constituer une base d'entraînement de méthodes d'intelligence artificielle dans le but de développer un nouveau dispositif médical pour aider le chirurgien à mieux diagnostiquer pour optimiser la chirurgie des cancers de la peau (aide au diagnostic en temps réel).

Pourquoi avoir choisi d’écrire un data paper ?

AK : C’est suite à un appel à communication de la RFSIC (Revue française des sciences de l’information et de la communication). Cela m’a permis de bénéficier d’un espace pour déposer (DOREL) et rendre exploitable ces données, et ainsi de mieux appréhender les enjeux de la science ouverte. C’était aussi de proposer un autre format d’article que celui habituellement prescrit en SIC (et plus largement en SHS) et enfin, par ce jeu de données mis à disposition, de rendre compte de la dynamique scientifique qui se crée au sein d’une revue qualifiante mais aussi, de questionner la réutilisation de ses données de recherche d'un point de vue pédagogique et scientifique : pour des étudiants, apprendre à exploiter un jeu de données en le manipulant sous différentes formes et prendre connaissance d’un champ disciplinaire, à travers ses auteurs, ses concepts, etc. Sur le versant recherche, faciliter l’exploitation de ces données pour alimenter ses propres réflexions sur le champ disciplinaire couvert, pour les compléter avec d’autres données. En termes d’enjeux pour la science ouverte, il pourrait ainsi s’agir d’élaborer une base de connaissances recensant les auteurs et les mots clés qui leur sont associés, et dans laquelle puiser pour tout projet de recherche ou de composition d’un comité scientifique, et ainsi renforcer l’activité de la communauté scientifique et identifier par exemple, ses forces et ses faiblesses.

MA : Publier ce data paper me semblait utile pour expliquer les circonstances expérimentales d’acquisition de ces données car elles ont été acquises avec un dispositif innovant, breveté, développé au CRAN. Le data paper permet de faire le lien entre le brevet d’une part, et le jeu de données d’autre part, tout en étant plus accessible pour le lecteur que ne l’est le brevet, description très technique du dispositif. Le data paper permet également d’apporter des informations sur le contexte clinique d’acquisition de ces données : les sites anatomiques sur lesquels ces données ont été acquises et le nombre de répétitions d’acquisitions par exemple. Enfin, il est de notoriété publique que les données cliniques sont très difficiles à acquérir : le dispositif pour générer ces données a été construit entre 2014 et 2016, l’essai clinique a duré de 2016 à 2021, le jeu de données a été publié en 2023 et le data papervient de paraître en février 2024. Alors si ces données peuvent permettre aux chercheurs en intelligence artificielle d’avancer dans leurs travaux de recherche sans qu’ils n’aient à patienter 10 ans avant de parvenir à générer ce jeu de données eux-mêmes, autant que ce jeu de données soit le plus utile possible. De mon côté, j’ai besoin que les chercheurs en traitement de signal (IA) progressent pour permettre à ce type de données très complexes d‘être un jour traitées avec efficacité. Je pense que mon travail en faveur de la publication de ces données et de leur mise en lumière au travers de ce data paper contribuera à l’avancée des connaissances dans mon domaine de recherche.

Comment s’est déroulé le processus de publication ?

AK : Cela a commencé par le dépôt du jeu de données sur DOREL, accompagné par ADOC Lorraine (notamment pour la saisie des métadonnées), puis l’envoi du papier mentionnant l’emplacement du jeu de données et les caractéristiques techniques et de réutilisation. Le papier présentait un caractère « hybride », à savoir une approche formalisée propre au data paper (contexte et méthode d’analyse, différents usages, description des données) et ensuite une étude avec son analyse et ses résultats, telle que communément présentée dans un papier dit « classique » en SHS. La conformité des données et du dépôt a été validée par ADOC Lorraine, la « conformité » du papier dans son ensemble (méthodologie, cohérence de l’étude, analyse, etc...) a été évaluée en double aveugle par le comité scientifique de la RFSIC. Après plusieurs aller/retours, le papier a pu être publié en ligne.

MA : Deux stagiaires de Master 2 (Ingénierie de la Santé) pour l’un, et de dernière année d’école d’ingénieur (ENSEM) pour l’autre, ont été recrutés pour programmer la base de données en langage SQLite : la recherche et l’enseignement avancent donc main dans la main notamment grâce au programme Orion qui a financé les gratifications de stages dans les 2 cas. Une fois mis en forme (organisé, pseudonymisé), le jeu de données a été publié en juillet 2023 à l’aide du réseau des curateurs des données de l’UL coordonné par Thomas Jouneau. Puis j’ai pris contact avec l’atelier de la donnée de l’UL afin de savoir quel journal ils pouvaient me conseiller. Laetitia Bracco m’a conseillé le journal Data in Brief qui proposait un compromis acceptable entre frais de publication (APC) et thématique généraliste adaptée au cas des données publiées. J’ai soumis la 1ère version à l’éditeur le 2 octobre 2023 et le data paper a été publié en ligne le 14 février 2024. Le processus de publication a donc été un peu long (presque 4 mois et demi) : le premier retour des deux experts a pris 2 mois. Les réponses aux experts ont été envoyées à l’éditeur le 21 décembre ; le retour des experts et de l’éditeur pour indiquer que nos réponses permettaient la publication du papier nous a été envoyé le 31 janvier, induisant encore un délai très long pour cette étape habituellement plus rapide. Il est à présent en ligne.

L’atelier de la donnée ADOC Lorraine est là vous pour accompagner à toutes les étapes de publication de votre data paper. Rendez-vous sur la page dédiée du service pour en savoir plus.

Contact : donnees-recherche@univ-lorraine.fr
Article source : Factuel