Retraitement de données, construction d'un SGBDR puis d'une application de gestion de Collections paléontologiques - DataBFC2

La page est créée Patrick Perez
 
CONTINUER À LIRE
Retraitement de données, construction d'un SGBDR puis d'une application de gestion de Collections paléontologiques - DataBFC2
Colloque
Les données de la Recherche et la Science Ouverte
jeudi 21 novembre 2019

                  Retraitement de données,
                   construction d’un SGBDR
               puis d’une application de gestion
               de Collections paléontologiques
                                Brigitte Barchasz
      (Laboratoire de Géologie de Lyon - Terre, Planètes, Environnement – UMR 5276)
                                                    Colloque Dijon Donnees Ouvertes - 21nov2019 - Brigitte Barchasz   1
Retraitement de données, construction d'un SGBDR puis d'une application de gestion de Collections paléontologiques - DataBFC2
Plan

• 1 - Contexte des Collections géologiques de Lyon

• 2 - Que fait l’application                            ?

• 3 - La démarche d’ingéniérie aboutissant par hasard à une
  application de gestion des collections géologiques

                                      Colloque Dijon Donnees Ouvertes - 21nov2019 - Brigitte Barchasz   2
Retraitement de données, construction d'un SGBDR puis d'une application de gestion de Collections paléontologiques - DataBFC2
Laboratoire de Géologie de Lyon,      Terre-Planètes-Environnement (LGL-TPE) – UMR 5276
INSU                       Service des Collections Géologiques de Lyon

                 - nées en 1808 avec la création de la ’Faculté des Sciences de Lyon’
                 - 9 millions de fossiles stockés dans 14 salles, avec compactus
                 - parmi les 20 premières collections universitaires mondiales
                 - Aussi dépositaires des Collections de l’Ecole des Mines

                 - plateforme scientifique au service des chercheurs paléontologues
                                                                                                                      Ammonite

                             1 Ing. Recherche CNRS : Emmanuel Robert
               BAP F
                              1 Ing. d’Etudes CNRS : Brigitte Barchasz

                                      + des bénévoles géologues
                                   + des stagiaires Master et Licence

                                                           Colloque Dijon - Données Ouvertes - 21nov2019 - Brigitte Barchasz   3
Retraitement de données, construction d'un SGBDR puis d'une application de gestion de Collections paléontologiques - DataBFC2
Long PROCESSUS DE TRAVAIL (semaines, mois, années, décennies…) :
Arrivée du matériel          Fossile doit être :
                                                                                           Depuis +200 ans :
(fossiles) à l’état BRUT :   « dégagé »,
                             nettoyé,
                                                                                           étiquettes
                             étudié,                                                       à l’encre de Chine
                             caractérisé,
                             publié,
                             étiqueté,                                               informatisation
                             mis en boîte,
                                                                                     (depuis 60 ans)
                             stocké,
                                                                                     - avant projet = env. 350
                             conservé,...                                            fichiers fossiles, dits « bases
                             catalogué dans                                          de données » ; données et
                             une BDD.                                                structures hétérogènes ;
                                                                                     - projet actuel = 1 BDD.

                                                   Colloque Dijon Donnees Ouvertes - 21nov2019 - Brigitte Barchasz   4
Retraitement de données, construction d'un SGBDR puis d'une application de gestion de Collections paléontologiques - DataBFC2
Exemple d’un OURSIN ramené de Patagonie par DARWIN en 1836,
  puis traité scientifiquement par Desor en 1847 (Monophoraster darwinii)

1836                                                      •Localisation géographique ? Gisement ?
                                                          •Stratigraphie (âge) ?
                                                          •Taxonomie (classification des espèces) ?
                                                          •Bibliographie ?

                               2018
                                              Colloque Dijon Donnees Ouvertes - 21nov2019 - Brigitte Barchasz   5
Retraitement de données, construction d'un SGBDR puis d'une application de gestion de Collections paléontologiques - DataBFC2
Comment gérer 9 millions de fossiles ?

         Devise du service (Emmanuel Robert) :

         L’inachevé permanent

                                             Seule une partie est informatisée 

                                                 Colloque Dijon Donnees Ouvertes - 21nov2019 - Brigitte Barchasz   6
Retraitement de données, construction d'un SGBDR puis d'une application de gestion de Collections paléontologiques - DataBFC2
l’informatique pour gérer des centaines de milliers de specimens :
                                                                   3 étapes historiques
 • Années 1960… : Louis David
       1965 : met au point l’utilisation de cartes perforées pour les Bryozoaires, avec des
       « zones à codification numérique » - codes toujours existants dans nos données :

 • 1990-2010 : Abel Prieur, anc. Resp. des Collections géologiques de Lyon
       Acquisition de Filemaker Pro ; 30 ans de travail de catalogage
        330.000 références dont les fossiles et vertébrés => 350 fichiers Filemaker

 • 2015-16 : Brigitte Barchasz, expertise ces 350 fichiers descriptifs de fossiles,
       Conception, Réalisation BDD unique et relationnelle (SGBDR) ; dévt des
       fonctionnalités sous Filemaker ; invente l’application de gestion des Collections :

 Colloque Dijon Donnees Ouvertes - 21nov2019 - Brigitte Barchasz                              7
Retraitement de données, construction d'un SGBDR puis d'une application de gestion de Collections paléontologiques - DataBFC2
(Rappel) SGBDR = Système de Gestion de Bases de Données Relationnelles
TABLES de données RELIEES                 3 PRINCIPALES FONCTIONS :
 Suppression de la redondance, des
                                          • Saisie, Catalogage
  doublons ou occurrences inutiles
                                          • Requêtes (booléennes, Filemaker+++)
 Optimisation de la cohérence
 Sécurité, (clés), unicité, robustesse   • Edition de Rapports croisés de données. Statistiques, calculs.
 Pertinence des résultats                   Formatages personnalisés des données = « modèles »

                                                                              Ici retraitement de données
                                                                               et fonctionnement logiciel
                                                                               incidences architecturales

                                                           Colloque Dijon Donnees Ouvertes - 21nov2019 - Brigitte Barchasz   8
Retraitement de données, construction d'un SGBDR puis d'une application de gestion de Collections paléontologiques - DataBFC2
Gestion de 2 interfaces :
 Administrateur (anc. Bac à sable) // Utilisateur sécurisée (ConsultationSaisie)
  1er onglet =
Gestion fiche

Sécurité ? Droits des utilisateurs ?
Gestion de Filemaker Server
                                            Colloque Dijon Donnees Ouvertes - 21nov2019 - Brigitte Barchasz   9
Retraitement de données, construction d'un SGBDR puis d'une application de gestion de Collections paléontologiques - DataBFC2
L’interface
à onglets

                                                                     personnes physiques
                                                                     ET personnes morales

         Colloque Dijon Donnees Ouvertes - 21nov2019 - Brigitte Barchasz       10
Bibliographie
développement 2019

 lien 1 => N (1 specimen => N publis)

                   Structure 5 tables   Colloque Dijon Donnees Ouvertes - 21nov2019 - Brigitte Barchasz   11
Saisie par Lot :
invention 2019
Fruit de l’observation des pratiques des chercheurs
= Evolution sur le catalogage de specimen à l’unité

- LOT DE FICHES Specimens, puis SOUS-LOT à
  caractéristiques communes
- saisie de données thématiques communes :

= Programme complexe impliquant de nombreuses fonctionnalités
Objectif : optimiser la saisie + cohérence des données
                                                                Colloque Dijon Donnees Ouvertes - 21nov2019 - Brigitte Barchasz   12
Dévt de nombreux outils et fonctionnalités

• Assistance à la saisie par exploitation des tables de données, ou par création
• Panier historique des dernières saisies à réutiliser
 Dans  la même session : alléger les recherches répétitives et dans de
lourdes tables de données (ici index de 60.700 VILLES !)

• Espaces personnalisés pour les utilisateurs, dans leur contexte de travail et sur des
 sujets de recherche en cours de chantier (Oiseaux, Ammonites, Montagne Noire, Codes géographiques…)

• Editions de rapports croisés avec calculs statistiques

                                                                      Colloque Dijon Donnees Ouvertes – 21nov2019 - Brigitte Barchasz   13
Base de Données et application
   Avant                     //          Après 2015-2016 :
   FILEMAKER PRO V11        //           V18 2019
   350 fichiers de données //            1 seule BDD
   Monotable façon excel //              multitables SGBDR
   Monoposte             //              multipostes grâce à Filemaker Server + Advanced
   Forte hétérogénéité //                harmonisation des données
   sans développement //                 avec développement : programmes, scripts => application

   grande modernisation et outil professionnel
   Base 410 MO (sans photos).

   + amélioration de la sécurité : les clés, les N sauvegardes quotidiennes
Filemaker vs Données ouvertes ?
Filemaker Pro = Outil de dévt de BDD permettant de développer des projets personnalisées ;
Langage de programmation propriétaire, mais a développé une API permettant l’interopérabilité.
                                                                    Colloque Dijon Donnees Ouvertes - 21nov2019 - Brigitte Barchasz   14
Ingéniérie projet pour la Base de Données et l’application

1.   « Diagnostic » (novembre 2015)  3 préconisations : (a) FUSION (b) SGBDR (c) SERVEUR multipostes
2.   Chantier FUSION = 350 fichiers Filemaker hétérogènes  BASE DE DONNEES UNIQUE, MONOTABLE
3.   « AUDIT détaillé » (2016, 260 pages) Fouille de données-calculs-statistiques ; simulations ….
4.   Structure SGBDR. Résolution de problèmes. Nettoyages. 1ères normes et procédures.
5.   Fouille de données + Recherches de référentiels pour alimenter les TABLES de données
6.   Maîtrise d’œuvre : Prestations informatiques*                    certifié Filemaker

7.   Fonctionnalités Utilisateur … peu à peu SGBDR devenu progiciel, baptisé 2019
8.   DOCUMENTATION PROJET et documenter les scripts / programmes !
9.   SPECIFICATIONS FONCTIONNELLES, PLANS DE TESTS, TESTS…. en conditions critiques

                    * Prestations informatiques  transfert de compétences
                                              (scripts et outils)
Base de Données et application

Volumes en 2019
 • 260.000 enregistrements table principale Specimens (hors autres tables)
 • 410 MO (hors images)
 • 17 millions de données
 • Architecture : 30 tables + des dizaines d’occurrences de tables
 • 550 rubriques ou champs de données (renseignés ou non)
 • 300 scripts

 • 1800 DOCUMENTS DE PROJET : excel, word, pdf, tests Excel et Filemaker

                                        Colloque Dijon Donnees Ouvertes - 21nov2019 - Brigitte Barchasz   16
Recherche de référentiels pluridisciplinaires
En parallèle à la Fouille de données dans la BDD
(vs. Absence de règles de saisie et données de références)

+ Recherches cartographiques et bibliographiques en français-anglais-espagnol
Référentiel actualisé pour la stratigraphie + modélisation SGBDR
     Charte stratigraphique BRGM 1966

                                                                                                      17
                                    Colloque Dijon Donnees Ouvertes - 21nov2019 - Brigitte Barchasz
Bibliographie  SGBDR :
 Revue, Issue, Document, Auteur publi, Détails publications
 imports et restructuration des données Recolnat
39,000 lignes Excel
de données Recolnat
Restructurées =>
SGBDR 5 tables

                                                                     e-ReColNat = programme
                                                                     national regroupant les données et
                                                                     images des collections naturalistes
   Colloque Dijon Donnees Ouvertes - 21nov2019 - Brigitte Barchasz   françaises                            18
NETTOYAGES des TERMES doublons ou répétition d’occurrences, faute de tables de données
                       6 descripteurs géographiques            Test :
                       + 5 index stratigraphiques              seulement 11 valeurs stockées
                                                               dans des tables !
                                                               au lieu de 414.000 occurrences

  NETTOYAGES des NOMS de PERSONNES, N versions orthographiques,
  Eclatement des dates-années. Gestion des homonymes.

                                                      Colloque Dijon Donnees Ouvertes - 21nov2019 - Brigitte Barchasz   19
Données géographiques codées, issues de cartes perforées
codification perdue => solution lourde : manutention et relecture-saisie d’étiquettes
                                                               table d’équivalence intermédiaire         nvx descripteurs géographiques :

                                                                            encore 23.700 codes géographiques à traiter ! moyens RH ?!

 Pbl Géolocalisation – territorialité - cartographie de qualité inégale
    Algérie, période de la colonisation française                                       Translittération de l’alphabet arabe
                                                                                         cas de double orthographe

 Colloque Dijon Donnees Ouvertes - 21nov2019 - Brigitte Barchasz                             20
Codes de cartes
                                                                                                                                           perforées pour
CHAMPS MULTIVALUES (taxonomie) non modélisables                                                                                            la TAXONOMIE

•   coelenterata, scyphozoa, conulata, conulariina, conulariidae, conulariinae [d'après
    treatise on invertebrate paleontology, R. C. Moore ed. (1956), part F]
•   Mollusca, Cephalopoda, Ammonoidea, Ammonitina, Perisphinctaceae, Perisphinctidae,
    Leptosphinctinae
•   MOLLUSCA, CEPHALOPODA, AMMONOIDEA, PERISPHINCTIDAE, VIRGATOSPHINCTINAE
•   MOLLUSCA, CEPHALOPODA, AMMONOIDEA, OPPELIIDAE, HECTICOCERATINAE
•   Cephalopoda, Ammonoidea, Ammonitina, Haplocerataceae, Oppeliidae, Streblitinae
•   Mollusca, Bivalvia, Heterodonta, Veneroida, Mactracea, Mactridae, Lutrariinae
•   Bivalvia, Anomalodesmata, Pholadomyoida, Pholadomyacea, Pholadomyidae

CHAMPS MULTIVALUES (stratigraphie + lithostratig. + biostratig.) qui ont pu être retraités par calculs
• mesozoïque, jurassique, tithonien, schistes de spiti, calcaires a malagasites
• SECONDAIRE, JURASSIQUE MOYEN, DOGGER, CALLOVIEN, CALLOVIEN INFERIEUR
• Secondaire, jurassique supérieur, kimméridgien inférieur, zone à Hypselocyclum, sous-zone à Lothari
• Paléozoïque, Cambrien moyen, Série 3, Etage 5, Languedocien inférieur, Formation de Coulouma
  (niveau E), Zone à Solenopleuropsis (S.)
                                                            éclatement dans 12 champs de données
                                                                         Colloque Dijon Donnees Ouvertes - 21nov2019 - Brigitte Barchasz       21
Base de Données et application
Nous rencontrons un pbl majeur sur une partie des NUMEROS D’INVENTAIRE doublons :
1 BLOC ROCHEUX ou 1 BOITE = N FOSSILES

 solutions techniques 3 sous-champs + discrimination par les suffixes + programme de
création automatique des suffixes alphabétiques
 solution humaine (moyens RH géologue)
pour vérifier fiches / specimens et les discriminer scientifiquement

  Colloque Dijon Donnees Ouvertes - 21nov2019 - Brigitte Barchasz                   22
Zoom résumé
  sur ce travail structurel, logiciel, données :

         restructuration des contenus,
requalification et harmonisation des données,
   résolution d’innombrables problèmes,
         modernisation du catalogage,    Le système d’information (SGBDR)
                   cohérence,            + la COUCHE LOGICIELLE
                    sécurité,            = fonctionnalités personnalisées
    pertinence des résultats de requêtes
         qualité des données
                                        Colloque Dijon Donnees Ouvertes - 21nov2019 - Brigitte Barchasz   23
Voir et être vus ? Objectif OPEN DATA
Communauté scientifique nationale, internationale :
• chercheurs
• MNHN Museum National d’Histoire Naturelle                                      Laboratoire de Géologie de Lyon, UMR 5276
• Universités / Collections : réseau en Europe et dans le Monde (ex :
  Espagne, Maroc…)                                                               Collections Géologiques de Lyon
• Musées en Europe et dans le Monde (ex : Confluence, British
  Museum…)

• intégrer cette culture nouvelle ; faire des choix face au manque de moyens ; N chantiers en cours
• Métadonnées + Directive Inspire pour la Géolocalisation : Expertise externe ? Améliorations ?
• STANDARDS : suivons le Darwin Core
• Recolnat  visibilité d’une partie de nos données (specimens avec biblio)
• Principes FAIR (Findable, Accessible : en interne 75%, en bonne voie vers le 100%,
                 Interoperable, Reusable : 0%)
• Objectif INTEROPERABILITE (API FILEMAKER) : Importer des données du réseau + ouvrir nos
  données et les rendre interrogeables par des bases distantes
• Objectif de rédiger un Data Management Plan ou Plan de Gestion des Données (DMP ou PGD)
                                                                        Colloque Dijon Donnees Ouvertes - 21nov2019 - Brigitte Barchasz   24
Merci pour votre écoute !
Et pour votre indulgence à cette grande première
communication à un colloque ;

Merci aux collègues qui m’ont aidée à mieux la synthétiser ;

Merci aux stagiaires-cobayes des dernières fonctionnalités
développées, qui ont testé l’outil avec enthousiasme.

Colloque Dijon Donnees Ouvertes - 21nov2019 - Brigitte Barchasz   25
Vous pouvez aussi lire