Utilisation d'ontologies pour la recherche de jeux de données météorologiques.

 
CONTINUER À LIRE
Utilisation d'ontologies pour la recherche de jeux de données météorologiques.
Université de Toulouse

Utilisation d’ontologies pour la recherche
  de jeux de données météorologiques.
   Rédigé par:                            Superviseurs:
   Alexandre Champagne         Nathalie Aussenac-Gilles
   Spécialité:                          Cassia Trojahn
   M2 Données et                        Amina Annane
   Connaissances                           Laboratoire:
   Durée du stage:                     MELODI - IRIT
   29 Mars 2021 au 1er            Tutrice universitaire:
   Septembre 2021                        Lynda Tamine

              Année Universitaire 2020-2021
Utilisation d'ontologies pour la recherche de jeux de données météorologiques.
Table des matières
Liste des tableaux                                                                                                         iii

Liste des schémas                                                                                                          iv

   Résumé                                                                                                                   1

   Abstract                                                                                                                 2

   Remerciements                                                                                                            3

1 Introduction                                                                                                              4

2 Contexte                                                                                                                  7

3 Présentation du sujet                                                                                                     9

4 Démarche méthodologique                                                                                                  11

5 État de l’art                                                                                                            13
  5.1 Principes FAIR . . . . . . . . . . . . . . . . . . . . . . .     .   .   .   .   .   .   .   .   .   .   .   .       13
  5.2 Recherche de jeux de données . . . . . . . . . . . . . . .       .   .   .   .   .   .   .   .   .   .   .   .       15
  5.3 Recherche sémantique . . . . . . . . . . . . . . . . . . .       .   .   .   .   .   .   .   .   .   .   .   .       18
  5.4 Étude de vocabulaires de représentation des métadonnées          .   .   .   .   .   .   .   .   .   .   .   .       19
      5.4.1 Data Catalog Vocabulary . . . . . . . . . . . . .          .   .   .   .   .   .   .   .   .   .   .   .       19
      5.4.2 RDF Data Cube Vocabulary . . . . . . . . . . .             .   .   .   .   .   .   .   .   .   .   .   .       22
      5.4.3 CSVW Namespace Vocabulary Terms . . . . . . .              .   .   .   .   .   .   .   .   .   .   .   .       23
  5.5 Portails de données . . . . . . . . . . . . . . . . . . . .      .   .   .   .   .   .   .   .   .   .   .   .   .   24
      5.5.1 European data portal . . . . . . . . . . . . . . . .       .   .   .   .   .   .   .   .   .   .   .   .   .   24
      5.5.2 Dataosu . . . . . . . . . . . . . . . . . . . . . . .      .   .   .   .   .   .   .   .   .   .   .   .   .   24
      5.5.3 Google dataset search . . . . . . . . . . . . . . .        .   .   .   .   .   .   .   .   .   .   .   .       25
      5.5.4 Harvard Dataverse . . . . . . . . . . . . . . . . .        .   .   .   .   .   .   .   .   .   .   .   .       25
      5.5.5 DRIIHM . . . . . . . . . . . . . . . . . . . . . . .       .   .   .   .   .   .   .   .   .   .   .   .       26
      5.5.6 AIR BREIZH . . . . . . . . . . . . . . . . . . . .         .   .   .   .   .   .   .   .   .   .   .   .       26
      5.5.7 Récapitulatif des portails . . . . . . . . . . . . . .     .   .   .   .   .   .   .   .   .   .   .   .   .   27

6 Travaux réalisés                                                                               28
  6.1 Étude de l’existante : les fonctions de recherche dans la      plate-forme DataNooS        28
  6.2 Spécifications . . . . . . . . . . . . . . . . . . . . . . .   . . . . . . . . . . . . .   28
      6.2.1 Diagramme de composant . . . . . . . . . . . .           . . . . . . . . . . . . .   29
      6.2.2 Maquette interface de recherche . . . . . . . . .        . . . . . . . . . . . . .   30
      6.2.3 Cas d’utilisations . . . . . . . . . . . . . . . . .     . . . . . . . . . . . . .   30
  6.3 Implémentation . . . . . . . . . . . . . . . . . . . . . .     . . . . . . . . . . . . . . 31
      6.3.1 Interface de recherche . . . . . . . . . . . . . . .     . . . . . . . . . . . . . . 31
      6.3.2 Recherche par facette . . . . . . . . . . . . . . .      . . . . . . . . . . . . .   33
      6.3.3 Recherche sémantique . . . . . . . . . . . . . .         . . . . . . . . . . . . .   35

7 Conclusion                                                                                                               39
  7.1 Bilan des résultats . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .                                39
      7.1.1 Atteinte des objectifs . . . . . . . . . . . . . . . . . . . . . . . . . . . .                                 39

                                                i
Utilisation d'ontologies pour la recherche de jeux de données météorologiques.
7.1.2 Apport du travail . . . .     .   .   .    .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   39
        7.1.3 Perspectives d’évolution      .   .   .    .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   39
  7.2   Bilan personnel . . . . . . . . .   .   .   .    .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   40
  7.3   Ouverture . . . . . . . . . . . .   .   .   .    .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   40

Glossaire                                                                                                                                            41

Acronymes                                                                                                                                            42

References                                                                                                                                           43

                                                        ii
Utilisation d'ontologies pour la recherche de jeux de données météorologiques.
Liste des tableaux
  Table 5.1 Tableau synthétisant les critères de recherches sur les sites ex-
      istants. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .   27

                                               iii
Utilisation d'ontologies pour la recherche de jeux de données météorologiques.
Liste des schémas
  3.1    Modèle Ontologique de Semantics4Fair . . . . . . . . . . . . . . . . . . . . . .         9
  3.2    Modules de Template et de Recherche de Données . . . . . . . . . . . . . . . .          10
  4.1    Diagramme de Gantt du stage . . . . . . . . . . . . . . . . . . . . . . . . . . .       12
  5.1    Les principes FAIR (selon [8]). . . . . . . . . . . . . . . . . . . . . . . . . . . .   13
  6.1    Diagramme de composants pour la gestion de template et recherche de jeux de
         données . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .   29
  6.2    Maquette originale de l’interface de recherche . . . . . . . . . . . . . . . . . . .    31
  6.3    Diagramme de séquence pour le premier cas d’utilisation "Recherche par facette"         31
  6.4    Diagramme de séquence pour le deuxième cas d’utilisation "Recherche sémantique"         32
  6.5    Interface de recherche sur la plate-forme DatanooS . . . . . . . . . . . . . . .        32
  6.6    Requête SPARQL sur GraphDB . . . . . . . . . . . . . . . . . . . . . . . . . .          33
  6.7    Résultat partiel de requête SPARQL sur GraphDB . . . . . . . . . . . . . . . .          34
  6.8    Recherche par facette avec un seul type de de critère . . . . . . . . . . . . . . .     34
  6.9    Recherche par facette avec plusieurs type de de critères . . . . . . . . . . . . .      35
  6.10   Exemple d’une hiérarchie pour la ville de Toulouse . . . . . . . . . . . . . . . .      35
  6.11   Recherche pour la France et visualisation des suggestions proposées . . . . . .         36
  6.12   Recherche sémantique suggérée pour l’Europe . . . . . . . . . . . . . . . . . . .       37
  6.13   Paramètre atmosphérique "température" lié à l’ontologie AWS grâce à qb:concept          37
  6.14   Propriétés de l’instanciation air_temperature . . . . . . . . . . . . . . . . . . .     37
  6.15   Instances du concept "Temperature" dans AWS (différents types de température)           38
  6.16   Paramètres atmosphériques liés au concept "air" dans l’ontologie AWS. . . . .           38

                                                iv
Utilisation d'ontologies pour la recherche de jeux de données météorologiques.
Résumé
    Les communautés scientifiques de recherche produisent de grandes quantités de données
qui peuvent être traitées au sein de diverses applications. Ainsi, le centre de recherche de
MétéoFrance rend disponible une partie de ses jeux de données sur le Web. Cependant, rendre
les données ouvertes et accessibles nécessite des efforts considérables si on veut garantir la
qualité des données et leur respect des principes Faciles à trouver, Accessibles, Interopérable, et
Réutilisables (FAIR).
    Le domaine de la recherche de jeux de données est très actif dans la mesure où énormément
de portails de données sont aujourd’hui disponibles. Le projet Semantics4fair se focalise sur
des jeux de données particuliers : ceux produits par les chercheurs. Il propose d’implémenter
une approche qui facilite leur réutilisation au service la science ouverte et dans le respect des
principes FAIR. Pour cela, le projet a fait le choix d’implémenter un service de recherche des
jeu de données grâce à une recherche par facette s’appuyant sur des métadonnées sémantiques.
    L’originalité de l’approche proposée dans ce projet est double : (i) mise en oeuvre d’une
démarche ergonomique pour le recueil des besoins et des vocabulaires des utilisateurs ; (ii)
une approche sémantique pour relever le défi de la "findability" (rendre les données faciles à
retrouver).
    Le cas d’étude support du projet Semantics4FAIR porte sur des données météorologiques,
dont on veut améliorer la facilité à les retrouver, y compris par des scientifiques venant d’autres
domaines, comme des botanistes spécialistes des pollens. En effet, les données produites par
MétéoFrance sont en parties publiques et ouvertes, comme s’y engagent tous les organismes
gouvernementaux. Malgré cela, il reste difficile, pour un non spécialiste de ces données, de les
retrouver, mais aussi, parmi toutes celles offertes, de sélectionner le jeu de données pertinent
pour une étude ciblée.
    Les objectifs du stage sont d’implémenter un Module de Recherche de Données (MRD) qui
suppose que les jeux de données sont décrits avec des métadonnées sémantiques, c’est-à-dire
faisant référence aux concepts et propriétés définis dans une ontologie. Le premier objectif
est d’étudier différents portails de données offrant des données météorologiques ouvertes et les
possibilités de recherche sur ces portails. Le second objectif est d’implémenter des fonctions,
interfaces et patrons de requêtes SPARQL facilitant la recherche de jeux de données selon des
critères associés aux méta-données sémantiques.
    Dans de ce rapport, nous rendons compte du travail réalisé lors du stage en 2 parties
qui répondent à chacun des objectifs. La première partie est un état de l’art, au cours de
cet état de l’art, différents sujets seront abordés comme les principes FAIR, la recherche de
jeux de données, la recherche sémantique, des portails de jeux de données ou bien encore des
vocabulaires d’ontologies. Les supports consultés correspondent à des articles scientifiques, des
documentations et des portails de données. La seconde partie présente ma contribution qui tient
compte de l’état de l’art afin de réaliser le MRD. La première partie présente la spécification de
ce système, la deuxième partie les choix d’implémentation concernant l’interface et les méthodes
de recherche.
    Enfin nous faisons un bilan sur le sujet dans une conclusion.

                                                1
Abstract
    Scientific research communities produce large amounts of data that can be processed in
various applications. For example, the MétéoFrance research center makes part of its data
available on the Web. However, making data open and accessible requires considerable effort
if one wants to guarantee the quality of the data and their respect for the principles of data
protection.
    The field of research is very active as a lot of data is available today. The Semantics4fair
project focuses on particular jeux de données: those produced by researchers. It proposes to
implement an approach that facilitates their reuse in the service of open science and in respect
of the principles of fairness. To do this, the project has chosen to implement a search service for
the jeu de données thanks to a search by facet based on semantic métadonnées.
    The originality of the approach proposed in this project is twofold: (i) implementation of an
ergonomic approach for the collection of users’ needs and vocabularies; (ii) a semantic approach
to meet the challenge of "findability" (making data easy to find).
    The case study of the Semantics4FAIR project concerns meteorological data, for which we
want to improve the ease of retrieval, including by scientists coming from other domains, such
as botanists specialized in pollens. Indeed, the data produced by MétéoFrance are partly public
and open, as all governmental organizations are committed to do. Despite this, it remains
difficult for a non-specialist of these data to find them, but also, among all those offered, to
select the relevant data set for a targeted study.
    The objectives of the internship are to implement a system that assumes that datasets
are described with semantic metadata, i.e. referring to concepts and properties defined in an
ontology. The first objective is to study different portals offering open weather data and the
search possibilities on these portals. The second objective is to implement functions, interfaces
and SPARQL query patterns facilitating the search of portails de données according to criteria
associated with semantic metadata.
    In this report, we report on the work done during the internship in 2 parts that meet each
of the objectives. The first part is a state of the art, during this state of the art, various
subjects will be approached like the principles FAIR, the search of jeux de données, the recherche
sémantique, portals of data sets or even vocabularies of ontologies. The consulted supports
correspond to scientific articles, documentations and portails de données. The second part
presents my contribution which takes into account the state of the art in order to realize the
MRD. The first part presents the specification of this system, the second part the choices of
implementation concerning the interface and the search methods.
    Finally, we make an assessment of the subject in a conclusion.

                                                2
Remerciements

   Je tiens dans un premier temps à remercier ma professeure, Mme Trojahn Cassia qui m’a
aidé dans ma recherche de stage et m’a permis d’obtenir le stage sur Semantics4Fair. Ses conseils
à un moment où il y avait peu de stages disponibles à cause du COVID-19, m’ont permis de
trouver ce stage qui était totalement en accord avec mes capacités.

   Je remercie également ma tutrice universitaire Mme Lynda Tamine pour m’avoir fait confi-
ance. L’écoute et l’accompagnement dont j’ai bénéficié m’ont permis de passer un stage sans
soucis quelconques.

   Je souhaiterais remercier tout particulièrement Mme Nathalie Aussenac-Gilles et Mme Amina
Annane mes tutrices de stage, qui m’ont épaulé et conseillé et qui m’ont surtout transmis leur
expertise dans le domaine du web sémantique.

    Je tiens également à remercier l’équipe du projet DataNoos et les stagiaires avec qui j’ai pu
collaborer pour les échanges enrichissant que l’on a eus sur le projet.

   D’autre part, je remercie le corps enseignant du Master Données et Connaissances qui m’a
appris les connaissances nécessaires afin de réaliser ce stage.

   Enfin je n’oublie pas non plus mes proches qui m’ont sans cesse soutenu dans la réalisation
du stage et m’ont aidé à chaque étape de ce rapport de stage.

                                               3
A. Champagne                                                                      1. Introduction

1         Introduction
        Présentation succinte

    Des millions de jeux de données sont disponibles sur le web afin d’être exploités ou réutilisés
par d’autres utilisateurs. Cependant, en l’absence de métadonnées qui les documentent en
indiquant leur contenu, leur indexation par les moteurs de recherche ne suffit pas pour les
retrouver. À l’heure de l’ouverture des données de la recherche, beaucoup de jeux de données
restent difficilement accessibles, et il faut déployer des efforts considérables pour retrouver les
données qui répondent à un besoin. De la part des producteurs de données, des améliorations
doivent être apportées afin de garantir la qualité des données et leur conformité aux principes
FAIR (Faciles à trouver, Accessibles, Interopérables and Réutilisables).
    Le projet Semantics4FAIR1 a pour but de faciliter la tâche de recherche et d’accès aux
données scientifiques résultant à la fois de la recherche et de la production par une communauté
scientifique afin de soutenir le développement de nouveaux usages par d’autres communautés.
L’originalité de l’approche proposée est double :

        • une méthode basée sur l’ergonomie visant à saisir les besoins et le vocabulaire des utilisa-
          teurs;

        • une approche sémantique, basée sur l’utilisation d’ontologies standards et de vocabulaires
          contrôlés, pour relever le défi de la découverte des données (findability)

    L’approche sémantique choisie dans Semantics4FAIR consiste à définir un vocabulaire formel
(ou ontologie) qui organise et structure les métadonnées associées aux jeux de données, en
prenant en compte la différence de conceptualisation entre les producteurs de données et les
utilisateurs recherchant ces données.
    Enrichir les jeux de données par des métadonnées est un préalable nécessaire pour retrouver
plus rapidement des jeux de données pertinents avant leur utilisation à grande échelle par
des algorithmes d’Intelligence Artificielle (IA). De plus, l’utilisation de vocabulaires standards
et formalisés pour représenter ces métadonnées permet de réduire les ambiguïtés lors de la
formulation des requêtes pour exprimer des besoins et retrouver les jeux de données y répondant.

    Le cas d’étude support du projet Semantics4FAIR porte sur des données météorologiques,
dont on veut améliorer la facilité à les retrouver, y compris par des scientifiques venant d’autres
domaines, comme des botanistes spécialistes des pollens. En effet, les données produites par
Météo France sont en parties publiques et ouvertes, comme s’y engagent tous les organismes
gouvernementaux et académiques. Malgré cela, il reste difficile, pour un non-spécialiste de
ces données, de les retrouver, mais aussi, parmi toutes celles offertes, de sélectionner le jeu de
données pertinent pour une étude ciblée.

   Cette problématique est traitée de manière plus générale par le chantier DataNooS2 , un projet
toulousain qui veut rendre plus visibles les données de la recherche à l’échelle de l’université
de Toulouse, et faciliter leur réutilisation de manière interdisciplinaire. Dans le cadre de ce
projet, des cas d’usage servent de terrain d’expérimentation et de production de solutions
conceptuelles et techniques. Le projet Semantics4FAIR est un de ces projets. À titre de preuve
de concept, DataNooS met en place une plateforme de gestion de jeux de données de recherche,
qui respecte les critères FAIR et fournit un catalogue de jeux de données. Ce travail est en
    1
        https://www.irit.fr/semantics4fair/
    2
        https://datanoos.univ-toulouse.fr/

Août, 2021                                                                            Page 4 of 43
A. Champagne                                                                 1. Introduction

cours de réalisation. Il sert aussi de contexte à notre travail.

    Concernant les objectifs demandés, le stage doit contribuer à une solution méthodologique
et à des logiciels pour faciliter la recherche de jeux de données de Météo France au sein d’un
référentiel dans lequel ceux-ci sont décrits à l’aide de métadonnées adaptées à une démarche
FAIR et aux données météorologiques.
    Pour cela, le stage a comporté les tâches suivantes :

   • étudier différents portails offrant des données météorologiques ouvertes et les possibilités
     de recherche sur ces portails ;

   • s’approprier les travaux effectués dans DataNooS et les premières études menées dans
     Semantics4FAIR ;

   • implémenter des fonctions, interfaces et patrons de requêtes SPARQL facilitant la recherche
     de jeux de données selon les scénarios identifiés.

   Intérêts du stage

    Ce stage offre l’opportunité d’approfondir les connaissances acquises lors du second semestre
de Master 2 en Ontologies, qui est la matière où j’avais le plus de lacunes. Donc c’est une
bonne opportunité d’améliorer mes compétences. Il porte également sur un nouveau domaine
d’application qui m’intéresse, la météorologie. C’est un domaine que je n’ai pas eu la chance de
côtoyer lors de mes études alors que c’est, avec l’aviation, un des domaines prédominants sur la
région toulousaine.
    Le stage a pour but de répondre à la problématique d’accès aux données de recherche dans le
cadre du projet Semantics4FAIR. Il est complémentaire du stage de Louis Mendy qui a consisté
à définir des formulaires de saisie de métadonnées pour décrire des jeux de données d’un même
domaine. Ces formulaires utilisent des vocabulaires contrôlés et des ontologies qui permettent
une représentation sémantique des méta-données.
    En effet, l’objectif du projet est de développer des algorithmes de recherche sémantique
basés sur le modèle ontologique développé pour ce même projet, selon lequel les données
météorologiques sont décrites. On souhaite ainsi améliorer l’adhérence de ces données au critère
"Findable" (Facile à trouver) des principes FAIR. Cela répond en partie aux spécifications
requises par le projet Semantics4FAIR pour permettre à Météo France ainsi qu’aux chercheurs
scientifiques d’autre domaines (non-spécialistes en météorologie) de retrouver plus sûrement et
plus rapidement des jeux de données.

   Plan du mémoire

   Le reste de ce rapport est organisé comme suit:

   • D’abord, nous présentons le contexte du stage, en présentant notamment l’équipe de
     recherche MEthodes et ingénierie des Langues, des Ontologies et du DIscours (MELODI)
     au sein de laquelle s’est déroulé le stage, et les deux projets scientifiques Semantics4FAIR
     et DataNooS dans lesquels le stage s’inscrit.

   • Ensuite, nous décrivons le sujet du stage et ses objectifs d’une manière plus détaillée.

   • Après cela, nous abordons la démarche méthodologique qui a été suivie tout au long de ce
     stage.

Août, 2021                                                                        Page 5 of 43
A. Champagne                                                                1. Introduction

   • Le travail réalisé sera ensuite présenté de manière chronologique en suivant la démarche
     méthodologique.

   • Enfin, nous concluons ce rapport en présentant le bilan des résultats obtenus, ainsi qu’un
     bilan personnel.

   Le Glossaire qui reprend la liste des mots clés et la liste des acronymes utilisés dans ce
rapport sont présentés après la conclusion pour les personnes qui ne sont pas très familières
avec le Web sémantique.

Août, 2021                                                                      Page 6 of 43
A. Champagne                                                                        2. Contexte

2         Contexte
    Nous avons effectué notre stage au sein de l’équipe MELODI, une équipe de chercheurs
scientifiques basée à l’Institut de Recherche en Informatique de Toulouse (IRIT).
C’est une équipe qui travaille dans plusieurs domaines des sciences informatiques: l’Ingénierie
des connaissances, les Ontologies, le Web Sémantique ainsi que le Traitement Automatique du
Langage Naturel.
    L’équipe s’appuie sur une variété d’approches de recherche, allant de l’étude théorique
des fondements linguistiques de la sémantique et de sa représentation formelle, des structures
d’interaction et de discours, à des travaux plus expérimentaux basés sur des développements
logiciels, sur la construction de ressources (telles que des corpus annotés, des lexiques ou des
ontologies) et des expériences basées sur des corpus.

    Le stage s’inscrit dans le cadre du projet de recherche Semantics4FAIR3 . Le but de ce
projet est de faciliter la tâche de recherche et d’accès aux données scientifiques résultant à
la fois de la recherche et de la production par une communauté scientifique donnée, afin de
soutenir le développement de nouveaux usages par d’autres communautés. L’approche adoptée
est basée sur l’utilisation des ontologies pour la représentation des métadonnées des jeux de
données. Semantics4FAIR repose sur la collaboration d’un laboratoire d’informatique (IRIT
équipe MELODI) et en facteurs humains (Maison des Sciences de l’Homme et de la Société de
Toulouse (MSH-T)) avec des communautés scientifiques souhaitant rendre leurs ensembles de
données FAIR et des communautés scientifiques souhaitant réutiliser ces données pour leurs
propres projets de recherche.
    Plus particulièrement, le projet propose un travail conjoint avec la communauté scientifique
de l’atmosphère (Centre National de Recherche en Météorologie (CNRM) et Observatoire Midi
Pyrénée (OMP)) en tant que fournisseur de données de météorologie et avec la communauté des
palynologues (Géosciences Environnement Toulouse (GET)) et les services opérationnels de la
météorologie (MétéoFrance) qui seront les deux communautés utilisatrices de données.
    D’autre part, le projet Semantics4FAIR s’intègre à un autre projet intitulé DataNooS. Le pro-
jet DataNoos est une alliance académique regroupant chercheur.e.s, enseignant.e.s chercheur.e.s,
ingénieur.e.s, postdoctorant.e.s, étudiant.e.s en Doctorat/Master/Licence autour du partage
de ressources numériques (les données, les plateformes de capture/simulation de données, les
plateformes de calcul et de stockage, les outils de traitement, d’analyse et de visualisation) et
des pratiques de la connaissance.
    Le projet DataNooS travaille sur plusieurs cas d’étude notamment sur le croisement des
données en sciences de l’environnement, et plus précisément à la difficulté de trouver les bonnes
données produites par différentes disciplines pour répondre à un besoin précis et à des usages
particuliers. Ainsi, il contribue à définir les conditions nécessaires pour que des jeux de données
soient véritablement conformes aux principes FAIR, y compris pour des personnes d’autres dis-
ciplines que celle des données. Une plateforme qui porte le même nom que le projet "DataNoos"
est en cours de développement afin de récupérer et comparer les expériences scientifiques et les
données de recherche de plusieurs acteurs scientifiques au niveau de Toulouse et ses alentours
tout en prenant en compte le fait qu’elles peuvent être multi-disciplinaire.

        La plateforme a plusieurs objectifs :

        • Favoriser l’ouverture et le partage des données, notamment celles provenant de différents
          domaines de la recherche ;
    3
        https://www.irit.fr/semantics4fair/

Août, 2021                                                                          Page 7 of 43
A. Champagne                                                                       2. Contexte

  • Garantir que les données partagées suivent les principes FAIR ;

  • Faciliter le référencement croisé de multiples sources de données ;

  • Préparer les données afin qu’elles soient utilisées pour être analysées ou exploitées par des
    algorithmes d’apprentissage automatique en IA.

  Afin de remplir ces objectifs, le projet DataNooS mène 3 différents types d’actions :

  • Collecter des informations provenant de questionnaires, état de l’art, recommandations à
    adopter, évolution des méthodes ;

  • Promouvoir des preuves de concepts ou des démonstrations ;

  • Intégrer les résultats de recherche sur le partage de jeux de données ainsi que des expériences
    provenant de cas d’utilisation.

Août, 2021                                                                         Page 8 of 43
A. Champagne                                                            3. Présentation du sujet

3         Présentation du sujet
    Le sujet du stage consiste à spédifier et implémenter une fonction de recherche de jeux
de données au sein d’un portail de jeux de données. Cette recherche doit exploiter sur les
métadonnées qu’ils possèdent en s’appuyant sur le modèle ontoogique Semantics4Fair[1] que
l’on peut voir ci-dessous:

                           Figure 3.1: Modèle Ontologique de Semantics4Fair

    Le modèle ontologique de Semantics4Fair est assez complexe, et il est composé de plusieurs
modules représentés par les concepts encadrés dans la figure 3.1. En effet, il a pour vocation de
décrire toutes les métadonnées au mieux possibles afin de répondre au problème que sont les
sciences ouvertes et respecter un maximum les principes FAIR.
Ce modèle est une agrégation de différents vocabulaires ontologiques (en orange sur l’image) et
les additions de Semantics4Fair (en vert sur l’image).Chaque vocabulaire permet de décrire un
pan des métadonnées qui leur sont spécifiques. Les principaux vocabulaires standards réutilisés
seront approfondis et expliqués dans la partie de l’état de l’art.

        Des problèmes se présentent donc:
        • comment implémenter des algorithmes de recherche efficaces?

        • comment représenter et manipuler des métadonnées au format Resource Description
          Framework (RDF)4 ?
        Les objectifs du stage consistent à répondre à ces questions.
    4
        https://www.w3.org/RDF/

Août, 2021                                                                          Page 9 of 43
A. Champagne                                                          3. Présentation du sujet

   En effet, le premier objectif est d’étudier différents portails offrant des données météorologiques
ouvertes et les possibilités de recherche sur ces portails. Il s’agit d’un travail de recherche et de
documentation. Il permettra de répondre au premier problème que l’on se pose.

    Le second objectif est d’implémenter des fonctions, interfaces et patrons de requêtes SPARQL
facilitant la recherche de jeux de données selon les scénarios identifiés. Ce travail comporte
une partie documentaire, une phase de spécification mais la majeure partie consiste à réaliser
le développementdu MRD présenté sur la figure 3.2. Ce module s’intègrera à la plateforme
Datanoos en se basant sur le Modèle de Sémantics4Fair.

                  Figure 3.2: Modules de Template et de Recherche de Données

Août, 2021                                                                          Page 10 of 43
A. Champagne                                                        4. Démarche méthodologique

4         Démarche méthodologique
   Les objectifs du sujet ont été les principaux facteurs pour déterminer la démarche adoptée
tout au cours stage.

   Dans un premier temps, le but était de scinder le stage en deux phases égales en terme de
charge de travail:

        • Une première partie pour réaliser l’état de l’art, et étudier la documentation concernant
          Semantics4Fair, en apprendre plus sur le modèle en lui-même ainsi que les différents
          vocabulaires ontologiques. Ce travail a permis une compréhension approfondie du sujet.
          Ainsi, j’ai mieux compris les attentes de mes tuteurs de stage. Un travail d’analyse a
          également été effectué sur différents portails de données afin de déterminer les métadonnées
          et les critères les plus utilisés pour la recherche. L’analyse a aussi porté sur la manière dont
          les interfaces de recherche sont implémentées. De manière complémentaire, des articles
          scientifiques ont permis d’identifier les méthodes de recherche les plus utilisées et les plus
          efficaces pour la recherche de jeux de données.
          Toute cette première partie est une base pour la seconde car ces analyses vont permettre
          de faire des choix concernant l’interface et les méthodes de recherche à implémenter. Ces
          choix vont déterminer les développements à effectuer.

        • La deuxième partie est consacrée au second objectif, c’est-à-dire à réaliser l’implémentation
          du MRD.Elle est elle-même composée de deux parties, une consacrée à la spécification et
          à la documentation et une autre au développement.
          La documentation est nécessaire, car les deux environnements de travail utilisés sur la
          plate-forme Datanoos (Vue.js5 et Django6 ) me sont inconnus J’ai donc dû apprendre les
          bases de ces environnements pour pouvoir travailler efficacement. Comme une partie de la
          plate-forme existait déjà, les nouveaux développements doivent s’adapter aux informations
          décrites dans la documentation sur GitHub7 . Après avoir pris en main les outils, le
          développement devait commencer avec la création de l’interface graphique puis la création
          de méthodes et d’algorithmes de recherche en s’appuyant sur l’interface.

    Ceci était le plan de travail initial. Au cours du stage, intégrer la plate-forme DataNooS
au serveur utilisé pour les développements s’est avéré plus difficile que prévu. Il a donc été
décidé de commencer la seconde partie plus tôt pour ne pas être pris de cour dans le cas où
des problèmes surviendraient.Les deux parties se chevauchent donc comme on peut le voir sur
la figure 4.1. On peut noter que le rapport a été maintenu à jour tout au long du stage : dès
qu’une étude était terminée ou qu’une fonction était réalisée, sa description était immédiatement
intégrée au rapport.
    Cela a eu plusieurs effets bénéfiques :

        • lorsque l’on doit se remémorer des informations concernant sur une partie qui avait déjà
          été étudiée il suffisait d’aller chercher les informations nécessaires dans le rapport.

        • comme le rapport était souvent mis à jour, la rédaction finale a été plus rapide.
    5
      https://vuejs.org/
    6
      https://www.djangoproject.com/
    7
      https://github.com/

Août, 2021                                                                              Page 11 of 43
A. Champagne                                                    4. Démarche méthodologique

                            Figure 4.1: Diagramme de Gantt du stage

    Enfin, concernant l’organisation, les conditions de travail ont été compliquées par les obliga-
tions liées au COVID-19. Il a donc fallu s’adapter en conséquence. Quand le travail en présentiel
était possible, il a été choisi de venir 2 jours par semaine sur le site de l’IRIT pour collaborer
avec Louis Mendy qui travaille sur le Module de construction de Template de Semantics4Fair.
Sur place, j’ai pu aussi poser des questions directement aux encadrantes de Semantics4Fair en
cas de difficultés rencontrées.
En plus de cela, il y avait une réunion en visioconférence par semaine avec les encadrantes afin de
leur montrer les avancées réalisées, poser des questions si nécessaire et définir les futurs objectifs
au fur et à mesure. Une autre réunion était organisée chaque semaine en visioconférence avec
les encadrantes, les membres du projet DataNooS et 4 autres stagiaires travaillant sur le projet
afin de faire part de nos avancées et définir comment intégrer les différentes parties dans un
ensemble cohérent.

Août, 2021                                                                          Page 12 of 43
A. Champagne                                                                                                             5. État de l’art

5         État de l’art
    Dans cette section, nous présentons une synthèse des travaux de l’état de l’art que nous
avons étudiés. Nous avons regroupé ces travaux selon les axes suivants : (i) les principes
FAIR, (ii) la recherche de jeux de données, (iii) la recherche sémantique, (iv) les vocabulaires de
représentation des métadonnées, (v) les portails de données. Le format des supports consultés
ne se limite pas aux articles scientifiques ; des documentations et des plateformes de données
ont également été consultées.
    La lecture d’articles a été facilitée grâce au cours dispensé en M1 Données et Connaissances:
Travaux d’Initiation à la Recherche (TIR). En effet, ce cours m’a aidé à parcourir et à extraire
les informations les plus pertinentes de ces articles. Des outils comme Zotero8 ont également
permis un ajout simple et rapide des références au rapport.
    L’état de l’art de ce stage n’a pas pour but de proposer une étude détaillée de la recherche
sémantique de jeux de données, mais plutôt de prendre connaissances des systèmes existant afin
de s’en inspirer, d’en faire la base des "Travaux réalisés" .

5.1          Principes FAIR
    Le projet Semantics4FAIR a pour but de faciliter la réutilisation des données météorologiques
en améliorant leur degré de FAIRisation. Une bonne maîtrise de ces principes était donc nécessaire
pour mener à bien ce stage.
    Les principes FAIR ont été proposés pour répondre de façon globale à la problématique
de partage des données en vue de leur réutilisation [8]. Ils consistent en un ensemble de
15 recommandations pour rendre les données faciles à (re)trouver (Findable), accessibles
(Accessible), intéropérables (Interoperable) et réutilisables (Reusable) (Fig. 5.1).

                        Findable (re-trouvable)                                                Accessible (Accessible)
        • F1. Les (méta)données sont associées à un identifiant unique et     • A1. Les (méta)données sont accessibles par leur identifiant, via un
          pérenne.                                                              protocole standardisé.
        • F2. Les (méta)données sont décrites avec des métadonnées                    • A1.1 Le protocole utilisé est ouvert, libre et peut être
          riches.                                                                       implémenté de manière universelle.
        • F3.Les métadonnées incluent clairement et explicitement                     • A1.2 Le protocole utilisé permet l’accès par autorisation
          l'identifiant des données qu'elles décrivent                                  et authentification si besoin.
        • F4. Les (meta)données sont enregistrées ou indexées dans un                 • A2. Les métadonnées restent accessibles même si les
          dispositif permettant de les rechercher.                                      données ne le sont pas ou plus.

                      Interoperable (Interopérable)                                              Reusable (Réutilisable)
        • I1. Les (méta)données utilisent un langage formel, accessible,      • R1. Les (méta)données ont des attributs multiples et pertinents.
          partagé et largement applicable pour la représentation des                  • R1.1. Les (méta)données sont mises à disposition selon
          connaissances.                                                                 une licence explicite et accessible.
        • I2. Les (méta)données utilisent des vocabulaires qui adhèrent aux           • R1.2. Les (méta)données sont associées à leur
          principes FAIR.                                                                provenance.
        • I3. Les (méta)données ont des liens documentés vers d’autres                • R1.3 Les (méta)données sont conformes aux standards
          (méta)données.                                                                 des communautés indiquées.

                                              Figure 5.1: Les principes FAIR (selon [8]).

   L’acronyme est un jeu de mot avec le mot anglais "FAIR" qui signifie "équitable" et qui
correspond au fait que tous les chercheurs peuvent avoir accès aux données déposées d’une
manière plus équitable en suivant ces principes.
   Dans ce qui suit, nous présentons brièvement chacun des principes FAIR :
        • Facile à trouver : Les métadonnées et les données doivent être faciles à trouver, tant
          pour les humains que pour les ordinateurs. Les métadonnées lisibles par machine sont
    8
        https://www.zotero.org/

Août, 2021                                                                                                                    Page 13 of 43
A. Champagne                                                                 5.1   Principes FAIR

         essentielles pour la découverte automatique de ensembles de données et de services. Par
         ailleurs, il essentiel d’affecter un identifiant persistant et unique à chaque jeu de données.

       • Accessible : Une fois les données trouvées, l’utilisateur a besoin de savoir comment accéder
         à ces données, éventuellement avec des mécanismes d’authentification et d’autorisation.
         Notez que des données FAIR ne sont pas forcément des données gratuites.

       • Interoperable : leurs métadonnées des jeux de données doivent être représentées avec des
         langages de représentation de connaissances qui soient formels, accessibles, et largement
         adoptés par la communauté. La mise en œuvre courante de ce principe est l’utilisation
         des technologies du web sémantique (RDF, Web Ontology Language (OWL)9 , Simple
         Knowledge Organization System (SKOS)10 , etc.) pour représenter et lier les données et
         les métadonnées. Cependant, les principes FAIR ne sont pas liés à ces technologies, et
         d’autres approches peuvent être mises en œuvre. En effet, les principes FAIR sont des
         lignes directrices et non une norme [5].

       • Réutilisable : La réutilisation est le but ultime des principes FAIR. Il est implémenté
         principalement via le renseignement de la license d’utilisation de chacun des jeux de
         données, ainsi que des métadonnées riches décrivant la provenance des données, leur
         contenu, peur format et leur structuration, etc.

    Depuis leur introduction en 2016, les principes FAIR ont suscité beaucoup d’intérêt de la
part des scientifiques mais aussi des gouvernements qui veulent rendre leurs données publiques
et transparentes. Néanmoins, et même si tout le monde est d’accord sur le but de ces principes
(maximiser la réutilisation des données), ils sont souvent mal interprétés et confondus avec
d’autres principes. Pour éviter les mauvaises interprétations, dans [6], les auteurs ont précisé ce
que sont les principes FAIR et ce qu’ils ne le sont pas en définissant chacun des principes et
discutant ses possibles implémentations. Notamment, les auteurs ont expliqué que les principes
FAIR:

       • Ne sont pas un standard.

       • Ne sont pas dépendants ou équivalents aux technologies du Web sémantique, au web des
         données, ni à l’utilisation du langage RDF pour représenter les (méta)données.

       • N’ont pas pour objectif que les données soient retrouvées et réutilisée uniquement par
         les humains, les machines aussi doivent être en mesure de retrouver les données et les
         exploiter.

       • Ne sont pas synonymes des données ouvertes/gratuites.

       • Ne sont pas réservés aux données en sciences de la vie.

   Notre compréhension des principes FAIR est conforme à ces affirmations et la vocation de
notre stage est bien de faciliter la réutilisation des données. Pour réaliser cela, le projet prévoit
de décrire les jeux de données avec le plus de métadonnées possible grâce au modèle onotlogique
de Semantics4Fair.

   9
       https://www.w3.org/OWL/
  10
       https://www.w3.org/2004/02/skos/

Août, 2021                                                                            Page 14 of 43
A. Champagne                                            5.2   Recherche de jeux de données

5.2    Recherche de jeux de données
   La recherche de jeux de données se réalise sur des portails de données. Il en existe énormé-
ment et leur diversité est tout aussi grande. Ils varient en terme de portée (mondial, continental,
national, régional) et également en terme de domaines de jeux de données ; certains sont
spécifiques à un domaine précis alors que d’autres englobent tous les jeux de données possibles.
Leur étude va fortement influencer l’implémention du MRD par la suite.

   Plusieurs composants d’une recherche sont étudiés dans les travaux analysés :

   • les différentes méthodes de recherche utilisées par les portails de données ;

   • les métadonnées utilisées comme critères pour réaliser la recherche ;

   • les problèmes liés à la recherche de données et comment les éviter.

    Prenons dans un premier temps l’exemple de Google Dataset Search et les méthodes qu’il
emploie [7]. Il y a des millions de jeux de données éparpillés partout sur le web. Google Dataset
Search a pour but de regrouper les métadonnées de ces jeux de données et un lien pour accéder
à ces jeux de données sur leur plate-forme d’origine.

   Il est assez compliqué de trouver des jeux de données sur le web pour différentes raisons :

   • Il y a de plus en plus d’éditeurs de données différents et à différents niveaux. Ddonc quand
     une personne recherche des jeux de données particuliers, il se peut qu’elle doive parcourir
     des dizaines de sites avant de trouver ce qu’elle cherche.

   • La plupart des jeux de données sont trouvés à partir de requêtes dans des portails de
     données, mais il est très difficile de les trouver à partir de moteurs de recherches du web.

   • Les scientifiques travaillent souvent dans un seul domaine et ont besoin de critères précis
     lors de leur recherche. Plusieurs portails de données spécifiques à certains domaines
     existent pour permettre à ces communautés de savoir ce qui existe. Mais de ce fait, pour
     chercher des jeux de données de plusieurs domaines, il faut consulter plusieurs portails. Ou
     si on cherche des données d’un domaine qu’on connaît mal, on ne connaît pas l’existence
     des portails ni les bons mots clés pour y effectuer des recherches. De ce fait, la tâche
     devient plus compliquée.

    Les constats ci-dessus montrent que les portails de jeux de données ne satisfont pas les
principes FAIR. C’est donc un défi important à relever que de proposer un MRD qui fonctionne
en respectant les principes FAIR.

   Réaliser un outil qui regroupe les métadonnées et les liens vers des jeux de données présentés
sur plusieurs portails de données soulève plusieurs verrous techniques :

   • La qualité des métadonnées est importante car elle est au coeur de la recherche. Et de
     nombreux jeux de données ne sont pas conformes aux standards qu’utilise Google Dataset
     Search. Il est alors extrêmement difficile de les scruter.

   • On trouve des doublons dans les métadonnées lors des recherches.

   • On trouve de doublons des jeux de données en entier quand ils sont présents sur différents
     portails de données.

Août, 2021                                                                        Page 15 of 43
A. Champagne                                            5.2    Recherche de jeux de données

      • Il se peut qu’un site qui contenait des jeux de données n’existe plus, ou que le jeu de
        données se trouve sur une page qui existe mais n’est pas référencée par le portail de
        données.

      • Le classement pour ordonner les jeux de données répondant à une recherche se fait
        majoritairement grâce aux métadonnées., alors que les classements actuels sur le web ne
        les prennent pas en compte.

      • Plusieurs standards de données sont utilisés (notamment Schema.org et Data Catalog
        Vocabulary (DCAT)) ce qui ne permet pas un accès unique et oblige à reformuler la
        recherche pour chaque standard utilisé.

      Voici comment se déroule l’algorithme de recherche de Google Dataset Search:

  1. L’utilisateur sélectionne les triplets RDF qui l’intéressent (Dataset de schema.org11 ,DataCatalog
     de schema.org12 , et Dataset de DCAT13 ) dans les portails de données.

  2. L’algorithme normalise et nettoie les métadonnées.

  3. Il regroupe les métadonnées sous forme de graphe de connaissances

  4. L’algorithme cherche les doublons pour les regrouper et remplir (si possible) des métadon-
     nées qui n’étaient pas présentes.

  5. Adaptation du backend

  6. On indexe et utilise des algorithmes du web pour classer les résultats des recherches couplés
     avec la qualité des métadonnées.

    L’utilisation de vocabulaire comme DCAT par Google Dataset Search nous conforte sur le
fait que c’est une bonne solution d’utiliser GeoDCAT-AP (version plus restrictive de DCAT)
dans Semantics4Fair. Plus il y a de jeux de données définis par un même modèle plus c ses jeux
de données sont faciles à retrouver, et respectent mieux les critères FAIR.On voit également que
des algorithmes web classiques sont utilisés.
    La recherche sémantique n’est pas utilisée pour la recherche de jeux de données. C’est donc
un point innovant dans le projet Semantics4Fair .
    Ensuite on s’intéresse à l’étude des requêtes et des critères de recherche effectués sur les
portails de données, plus précisément sur 4 portails nationaux [4].
    La plupart des personnes qui ont consulté un portail de données l’on fait à partir d’un moteur
de recherche externe. De plus, les requêtes sont très courtes. Ça peut s’expliquer par le fait que
l’utilisateur, ne voulant pas rendre la requête confuse, donne juste les informations minimales
pour trouver ce qu’il cherche. Les critères les plus fréquents lors des recherches sont les critères
spatiaux, temporels, type de données ainsi que la granularité (résolution temporelle et spatiale).

    Ces informations vont être très utiles lors de la phase de spécification du MRD. En identifiant
les critères les plus utilisés, on détermine également les métadonnées importantes et utilisées en
priorité pour la recherche.

 11
    http://schema.org/Dataset
 12
    http://schema.org/DataCatalog
 13
    http://www.w3.org/ns/dcatDataset

Août, 2021                                                                         Page 16 of 43
A. Champagne                                             5.2   Recherche de jeux de données

    Les méthodes de recherche web ne sont pas très efficaces. Les méthodes de recherche ver-
ticales semblent mieux adaptées car elles prennent en compte les informations additionnelles
et métadonnées des ressources.En effet, les méthodes de recherche comme la recherche par
facette sont plus populaires au niveau des portails de données. Comme elles tirent parti des
métadonnées. C’est une plus-value concernant les principes FAIR.

    Les données des portails sont majoritairement utilisées pour la recherche. Donc il est im-
portant de voir qui est le public cible, ce qu’il recherche et justement ce qu’il n’arrive pas
à trouver. En effet, la plupart des recherches effectuées sur les portails sont réalisées car la
ressource n’est pas trouvable ou les métadonnées liées à la ressource sont erronées ou insuffisantes.

    Pur terminer, nous avons identifié des problèmes ouverts concernant la recherche sur les jeux
de données et des options possibles pour essayer de les résoudre [3].
    Un utilisateur va faire une recherche contenant des mots-clés et possiblement définir un
sous-ensemble grâce à différents filtres. Ces mots-clés vont ensuite être utilisés pour rechercher
des similarités dans les métadonnées des jeux de données et produire un résultat. C’est pour
cette raison qu’il est important de bien ajouter les métadonnées lorsqu’on ajoute la ressource,
notamment grâce à DCAT. Or la création et la maintenance de métadonnées nécessite actuelle-
ment un grand volume de ressources.

    Les architectures de recherche générique sont basées sur la Recherche de l’Information (RI)
et le Web sémantique. Pour ce type de recherche, on sélectionne des jeux de données à partir
d’une requête. Parmi les jeux de données résultats, on utilise d’autres méthodes pour déterminer
les plus pertinents.

   Dans les portails de données ouverts, la plate-forme la plus populaire pour les portails
gouvernementaux est la Comprehensive Knowledge Archive Network (CKAN) qui indexe les
documents grâce à Lucene14 .

      Les problèmes les plus fréquents sont les suivants :

      • Manque d’informations sur le fait que certaines données existent et sont disponibles ;

      • Manque de clarté concernant qui a l’autorité sur la ressource ;

      • Manque de clarté sur les termes utilisés ;

      • Données disponibles uniquement dans certains formats et par conséquent difficiles à
        exploiter

 14
      https://lucene.apache.org/

Août, 2021                                                                          Page 17 of 43
A. Champagne                                                       5.3   Recherche sémantique

5.3    Recherche sémantique
    La recherche sémantique est la plus-value qu’offre le projet Semantics4Fair par rapport
aux autres portails de données. Elle permet d’améliorer la recherche originale lancée par un
utilisateur grâce à des structures de données comme des ontologies ou bien des fichiers Extensible
Markup Language (XML).
    Ici, on va se consacrer à la recherche sémantique à base d’ontologies et son utilisation possible
pour le futur [2].
    Voici comment la recherche est implémentée. Dans un premier temps le modèle classique de
recherche d’information, le modèle vectoriel couplé avec tf/idf est utilisé. Ensuite, la navigation
sémantique et ses atouts notamment grâce à la relation d’héritage est utilisée.
    Pour proposer une nouvelle méthode de recherche utilisant les propriétés sémantiques et
se basant sur le modèle de recherche classique, il faut dans un premier temps connaître trois
paramètres :

   • le seuil de pertinence ( si le score est supérieur au seuil le résultat est valide)

   • le nombre de documents pertinents souhaités

   • la requête.

    On commence ensuite par faire une recherche “simple”. Si le nombre de résultats est atteint,
l’algorithme s’arrête et retourne les résultats. Si ce n’est pas le cas, on étend la recherche grâce
à la navigation sémantique puis on réitère jusqu’à avoir assez de résultats ou qu’un délais expire.
    Dans notre cas, il est peu probable que l’on couple la recherche sémantique à une recherche
de RI classique. En effet, on traite des jeux de données donc il est plus probable que le couplage
se fasse avec une recherche par facette.

Août, 2021                                                                          Page 18 of 43
Vous pouvez aussi lire