Retraitement de données, construction d'un SGBDR puis d'une application de gestion de Collections paléontologiques - DataBFC2
←
→
Transcription du contenu de la page
Si votre navigateur ne rend pas la page correctement, lisez s'il vous plaît le contenu de la page ci-dessous
Colloque Les données de la Recherche et la Science Ouverte jeudi 21 novembre 2019 Retraitement de données, construction d’un SGBDR puis d’une application de gestion de Collections paléontologiques Brigitte Barchasz (Laboratoire de Géologie de Lyon - Terre, Planètes, Environnement – UMR 5276) Colloque Dijon Donnees Ouvertes - 21nov2019 - Brigitte Barchasz 1
Plan • 1 - Contexte des Collections géologiques de Lyon • 2 - Que fait l’application ? • 3 - La démarche d’ingéniérie aboutissant par hasard à une application de gestion des collections géologiques Colloque Dijon Donnees Ouvertes - 21nov2019 - Brigitte Barchasz 2
Laboratoire de Géologie de Lyon, Terre-Planètes-Environnement (LGL-TPE) – UMR 5276 INSU Service des Collections Géologiques de Lyon - nées en 1808 avec la création de la ’Faculté des Sciences de Lyon’ - 9 millions de fossiles stockés dans 14 salles, avec compactus - parmi les 20 premières collections universitaires mondiales - Aussi dépositaires des Collections de l’Ecole des Mines - plateforme scientifique au service des chercheurs paléontologues Ammonite 1 Ing. Recherche CNRS : Emmanuel Robert BAP F 1 Ing. d’Etudes CNRS : Brigitte Barchasz + des bénévoles géologues + des stagiaires Master et Licence Colloque Dijon - Données Ouvertes - 21nov2019 - Brigitte Barchasz 3
Long PROCESSUS DE TRAVAIL (semaines, mois, années, décennies…) : Arrivée du matériel Fossile doit être : Depuis +200 ans : (fossiles) à l’état BRUT : « dégagé », nettoyé, étiquettes étudié, à l’encre de Chine caractérisé, publié, étiqueté, informatisation mis en boîte, (depuis 60 ans) stocké, - avant projet = env. 350 conservé,... fichiers fossiles, dits « bases catalogué dans de données » ; données et une BDD. structures hétérogènes ; - projet actuel = 1 BDD. Colloque Dijon Donnees Ouvertes - 21nov2019 - Brigitte Barchasz 4
Exemple d’un OURSIN ramené de Patagonie par DARWIN en 1836, puis traité scientifiquement par Desor en 1847 (Monophoraster darwinii) 1836 •Localisation géographique ? Gisement ? •Stratigraphie (âge) ? •Taxonomie (classification des espèces) ? •Bibliographie ? 2018 Colloque Dijon Donnees Ouvertes - 21nov2019 - Brigitte Barchasz 5
Comment gérer 9 millions de fossiles ? Devise du service (Emmanuel Robert) : L’inachevé permanent Seule une partie est informatisée Colloque Dijon Donnees Ouvertes - 21nov2019 - Brigitte Barchasz 6
l’informatique pour gérer des centaines de milliers de specimens : 3 étapes historiques • Années 1960… : Louis David 1965 : met au point l’utilisation de cartes perforées pour les Bryozoaires, avec des « zones à codification numérique » - codes toujours existants dans nos données : • 1990-2010 : Abel Prieur, anc. Resp. des Collections géologiques de Lyon Acquisition de Filemaker Pro ; 30 ans de travail de catalogage 330.000 références dont les fossiles et vertébrés => 350 fichiers Filemaker • 2015-16 : Brigitte Barchasz, expertise ces 350 fichiers descriptifs de fossiles, Conception, Réalisation BDD unique et relationnelle (SGBDR) ; dévt des fonctionnalités sous Filemaker ; invente l’application de gestion des Collections : Colloque Dijon Donnees Ouvertes - 21nov2019 - Brigitte Barchasz 7
(Rappel) SGBDR = Système de Gestion de Bases de Données Relationnelles TABLES de données RELIEES 3 PRINCIPALES FONCTIONS : Suppression de la redondance, des • Saisie, Catalogage doublons ou occurrences inutiles • Requêtes (booléennes, Filemaker+++) Optimisation de la cohérence Sécurité, (clés), unicité, robustesse • Edition de Rapports croisés de données. Statistiques, calculs. Pertinence des résultats Formatages personnalisés des données = « modèles » Ici retraitement de données et fonctionnement logiciel incidences architecturales Colloque Dijon Donnees Ouvertes - 21nov2019 - Brigitte Barchasz 8
Gestion de 2 interfaces : Administrateur (anc. Bac à sable) // Utilisateur sécurisée (ConsultationSaisie) 1er onglet = Gestion fiche Sécurité ? Droits des utilisateurs ? Gestion de Filemaker Server Colloque Dijon Donnees Ouvertes - 21nov2019 - Brigitte Barchasz 9
L’interface à onglets personnes physiques ET personnes morales Colloque Dijon Donnees Ouvertes - 21nov2019 - Brigitte Barchasz 10
Bibliographie développement 2019 lien 1 => N (1 specimen => N publis) Structure 5 tables Colloque Dijon Donnees Ouvertes - 21nov2019 - Brigitte Barchasz 11
Saisie par Lot : invention 2019 Fruit de l’observation des pratiques des chercheurs = Evolution sur le catalogage de specimen à l’unité - LOT DE FICHES Specimens, puis SOUS-LOT à caractéristiques communes - saisie de données thématiques communes : = Programme complexe impliquant de nombreuses fonctionnalités Objectif : optimiser la saisie + cohérence des données Colloque Dijon Donnees Ouvertes - 21nov2019 - Brigitte Barchasz 12
Dévt de nombreux outils et fonctionnalités • Assistance à la saisie par exploitation des tables de données, ou par création • Panier historique des dernières saisies à réutiliser Dans la même session : alléger les recherches répétitives et dans de lourdes tables de données (ici index de 60.700 VILLES !) • Espaces personnalisés pour les utilisateurs, dans leur contexte de travail et sur des sujets de recherche en cours de chantier (Oiseaux, Ammonites, Montagne Noire, Codes géographiques…) • Editions de rapports croisés avec calculs statistiques Colloque Dijon Donnees Ouvertes – 21nov2019 - Brigitte Barchasz 13
Base de Données et application Avant // Après 2015-2016 : FILEMAKER PRO V11 // V18 2019 350 fichiers de données // 1 seule BDD Monotable façon excel // multitables SGBDR Monoposte // multipostes grâce à Filemaker Server + Advanced Forte hétérogénéité // harmonisation des données sans développement // avec développement : programmes, scripts => application grande modernisation et outil professionnel Base 410 MO (sans photos). + amélioration de la sécurité : les clés, les N sauvegardes quotidiennes Filemaker vs Données ouvertes ? Filemaker Pro = Outil de dévt de BDD permettant de développer des projets personnalisées ; Langage de programmation propriétaire, mais a développé une API permettant l’interopérabilité. Colloque Dijon Donnees Ouvertes - 21nov2019 - Brigitte Barchasz 14
Ingéniérie projet pour la Base de Données et l’application 1. « Diagnostic » (novembre 2015) 3 préconisations : (a) FUSION (b) SGBDR (c) SERVEUR multipostes 2. Chantier FUSION = 350 fichiers Filemaker hétérogènes BASE DE DONNEES UNIQUE, MONOTABLE 3. « AUDIT détaillé » (2016, 260 pages) Fouille de données-calculs-statistiques ; simulations …. 4. Structure SGBDR. Résolution de problèmes. Nettoyages. 1ères normes et procédures. 5. Fouille de données + Recherches de référentiels pour alimenter les TABLES de données 6. Maîtrise d’œuvre : Prestations informatiques* certifié Filemaker 7. Fonctionnalités Utilisateur … peu à peu SGBDR devenu progiciel, baptisé 2019 8. DOCUMENTATION PROJET et documenter les scripts / programmes ! 9. SPECIFICATIONS FONCTIONNELLES, PLANS DE TESTS, TESTS…. en conditions critiques * Prestations informatiques transfert de compétences (scripts et outils)
Base de Données et application Volumes en 2019 • 260.000 enregistrements table principale Specimens (hors autres tables) • 410 MO (hors images) • 17 millions de données • Architecture : 30 tables + des dizaines d’occurrences de tables • 550 rubriques ou champs de données (renseignés ou non) • 300 scripts • 1800 DOCUMENTS DE PROJET : excel, word, pdf, tests Excel et Filemaker Colloque Dijon Donnees Ouvertes - 21nov2019 - Brigitte Barchasz 16
Recherche de référentiels pluridisciplinaires En parallèle à la Fouille de données dans la BDD (vs. Absence de règles de saisie et données de références) + Recherches cartographiques et bibliographiques en français-anglais-espagnol Référentiel actualisé pour la stratigraphie + modélisation SGBDR Charte stratigraphique BRGM 1966 17 Colloque Dijon Donnees Ouvertes - 21nov2019 - Brigitte Barchasz
Bibliographie SGBDR : Revue, Issue, Document, Auteur publi, Détails publications imports et restructuration des données Recolnat 39,000 lignes Excel de données Recolnat Restructurées => SGBDR 5 tables e-ReColNat = programme national regroupant les données et images des collections naturalistes Colloque Dijon Donnees Ouvertes - 21nov2019 - Brigitte Barchasz françaises 18
NETTOYAGES des TERMES doublons ou répétition d’occurrences, faute de tables de données 6 descripteurs géographiques Test : + 5 index stratigraphiques seulement 11 valeurs stockées dans des tables ! au lieu de 414.000 occurrences NETTOYAGES des NOMS de PERSONNES, N versions orthographiques, Eclatement des dates-années. Gestion des homonymes. Colloque Dijon Donnees Ouvertes - 21nov2019 - Brigitte Barchasz 19
Données géographiques codées, issues de cartes perforées codification perdue => solution lourde : manutention et relecture-saisie d’étiquettes table d’équivalence intermédiaire nvx descripteurs géographiques : encore 23.700 codes géographiques à traiter ! moyens RH ?! Pbl Géolocalisation – territorialité - cartographie de qualité inégale Algérie, période de la colonisation française Translittération de l’alphabet arabe cas de double orthographe Colloque Dijon Donnees Ouvertes - 21nov2019 - Brigitte Barchasz 20
Codes de cartes perforées pour CHAMPS MULTIVALUES (taxonomie) non modélisables la TAXONOMIE • coelenterata, scyphozoa, conulata, conulariina, conulariidae, conulariinae [d'après treatise on invertebrate paleontology, R. C. Moore ed. (1956), part F] • Mollusca, Cephalopoda, Ammonoidea, Ammonitina, Perisphinctaceae, Perisphinctidae, Leptosphinctinae • MOLLUSCA, CEPHALOPODA, AMMONOIDEA, PERISPHINCTIDAE, VIRGATOSPHINCTINAE • MOLLUSCA, CEPHALOPODA, AMMONOIDEA, OPPELIIDAE, HECTICOCERATINAE • Cephalopoda, Ammonoidea, Ammonitina, Haplocerataceae, Oppeliidae, Streblitinae • Mollusca, Bivalvia, Heterodonta, Veneroida, Mactracea, Mactridae, Lutrariinae • Bivalvia, Anomalodesmata, Pholadomyoida, Pholadomyacea, Pholadomyidae CHAMPS MULTIVALUES (stratigraphie + lithostratig. + biostratig.) qui ont pu être retraités par calculs • mesozoïque, jurassique, tithonien, schistes de spiti, calcaires a malagasites • SECONDAIRE, JURASSIQUE MOYEN, DOGGER, CALLOVIEN, CALLOVIEN INFERIEUR • Secondaire, jurassique supérieur, kimméridgien inférieur, zone à Hypselocyclum, sous-zone à Lothari • Paléozoïque, Cambrien moyen, Série 3, Etage 5, Languedocien inférieur, Formation de Coulouma (niveau E), Zone à Solenopleuropsis (S.) éclatement dans 12 champs de données Colloque Dijon Donnees Ouvertes - 21nov2019 - Brigitte Barchasz 21
Base de Données et application Nous rencontrons un pbl majeur sur une partie des NUMEROS D’INVENTAIRE doublons : 1 BLOC ROCHEUX ou 1 BOITE = N FOSSILES solutions techniques 3 sous-champs + discrimination par les suffixes + programme de création automatique des suffixes alphabétiques solution humaine (moyens RH géologue) pour vérifier fiches / specimens et les discriminer scientifiquement Colloque Dijon Donnees Ouvertes - 21nov2019 - Brigitte Barchasz 22
Zoom résumé sur ce travail structurel, logiciel, données : restructuration des contenus, requalification et harmonisation des données, résolution d’innombrables problèmes, modernisation du catalogage, Le système d’information (SGBDR) cohérence, + la COUCHE LOGICIELLE sécurité, = fonctionnalités personnalisées pertinence des résultats de requêtes qualité des données Colloque Dijon Donnees Ouvertes - 21nov2019 - Brigitte Barchasz 23
Voir et être vus ? Objectif OPEN DATA Communauté scientifique nationale, internationale : • chercheurs • MNHN Museum National d’Histoire Naturelle Laboratoire de Géologie de Lyon, UMR 5276 • Universités / Collections : réseau en Europe et dans le Monde (ex : Espagne, Maroc…) Collections Géologiques de Lyon • Musées en Europe et dans le Monde (ex : Confluence, British Museum…) • intégrer cette culture nouvelle ; faire des choix face au manque de moyens ; N chantiers en cours • Métadonnées + Directive Inspire pour la Géolocalisation : Expertise externe ? Améliorations ? • STANDARDS : suivons le Darwin Core • Recolnat visibilité d’une partie de nos données (specimens avec biblio) • Principes FAIR (Findable, Accessible : en interne 75%, en bonne voie vers le 100%, Interoperable, Reusable : 0%) • Objectif INTEROPERABILITE (API FILEMAKER) : Importer des données du réseau + ouvrir nos données et les rendre interrogeables par des bases distantes • Objectif de rédiger un Data Management Plan ou Plan de Gestion des Données (DMP ou PGD) Colloque Dijon Donnees Ouvertes - 21nov2019 - Brigitte Barchasz 24
Merci pour votre écoute ! Et pour votre indulgence à cette grande première communication à un colloque ; Merci aux collègues qui m’ont aidée à mieux la synthétiser ; Merci aux stagiaires-cobayes des dernières fonctionnalités développées, qui ont testé l’outil avec enthousiasme. Colloque Dijon Donnees Ouvertes - 21nov2019 - Brigitte Barchasz 25
Vous pouvez aussi lire