BIG DATA À LA BNF : GESTION DE LA PRÉSERVATION DES COLLECTIONS NUMÉRIQUES 18 JUIN 2013

La page est créée Amelie Dumas
 
CONTINUER À LIRE
BIG DATA À LA BNF : GESTION DE LA PRÉSERVATION DES COLLECTIONS NUMÉRIQUES 18 JUIN 2013
Big Data à la BnF :
gestion de la préservation des
   collections numériques

         18 juin 2013
BIG DATA À LA BNF : GESTION DE LA PRÉSERVATION DES COLLECTIONS NUMÉRIQUES 18 JUIN 2013
Ordre du jour
•   La BnF
•   SPAR à la BnF
•   Les métadonnées dans SPAR
•   Problématique liée à la volumétrie
•   Solution pour la modélisation : le RDF
•   Usages
•   Perspectives

                         SPAR                2
BIG DATA À LA BNF : GESTION DE LA PRÉSERVATION DES COLLECTIONS NUMÉRIQUES 18 JUIN 2013
La Bibliothèque nationale de France

                         Richelieu

              Opéra                  Avignon
Tolbiac
BIG DATA À LA BNF : GESTION DE LA PRÉSERVATION DES COLLECTIONS NUMÉRIQUES 18 JUIN 2013
Missions de la bibliothèque
Missions :                   Dépôt légal :
  – constituer les collections,   – depuis 1537 pour les
  – les conserver et              imprimés
    communiquer au public,        –1648 : gravures et plans
  – produire un catalogue de      –1793 : partitions
    référence,                    –1925 : photographies
  – coopérer avec les autres      –1938 : phonogrammes
    institutions,                 –1975 : vidéogrammes
  – participer à des              –1992 : documents
    programmes de                 électroniques
    recherche
                                  –2006 : archives du Web
                                                          4
BIG DATA À LA BNF : GESTION DE LA PRÉSERVATION DES COLLECTIONS NUMÉRIQUES 18 JUIN 2013
Environnement institutionnel
• BnF, établissement public administratif dépendant du
  Ministère de la Culture et de la Communication
• Dès 2004, la BnF a entamé la réflexion sur la mise en œuvre
  d’un système de préservation du numérique à long terme.
• Elle s’appuie sur les normes internationales, plus
  particulièrement sur la norme OAIS (ISO-14721:2003)
      •   Modèle de référence pour un Système ouvert d’archivage d’information

• Prise en compte de certaines directives de la norme NF Z42-
  013
      •   Spécifications relatives à la conception et à l’exploitation de systèmes
          informatiques en vue d’assurer la conservation et l’intégrité des documents stockés
          dans ces systèmes

• La BnF est pour ses propres archives, y compris numériques,
  sous la tutelle scientifique et technique du SIAF (code du
  patrimoine)
                                          SPAR                                             5
BIG DATA À LA BNF : GESTION DE LA PRÉSERVATION DES COLLECTIONS NUMÉRIQUES 18 JUIN 2013
Ordre du jour
•   La BnF
•   SPAR à la BnF
•   Les métadonnées dans SPAR
•   Problématique liée à la volumétrie
•   Solution pour la modélisation : le RDF
•   Usages
•   Perspectives

                         SPAR                6
BIG DATA À LA BNF : GESTION DE LA PRÉSERVATION DES COLLECTIONS NUMÉRIQUES 18 JUIN 2013
Enjeu de la préservation
     Voici un document             De quoi s’agit-il, déjà ?
     numérique que j’ai            Est-ce bien ce qui est
     créé en 1998.                 indiqué sur la disquette
                                   ?                               Je l’ai enregistré sur
                                  Métadonnées descriptives
                                                                   une disquette, est-    Support
                                                                   elle toujours en bon
             Ça marche !                                           état ?

        Mais j’ai perdu toute
        ma mise en forme …
Authenticité / Intégrité

                                                                      Mon portable, acheté en
                                                                      2004, n’a pas de lecteur de
                                                                      disquette. Où en trouver
                                                                      un ? Environnement matériel
                  J’ai trouvé le logiciel,
                  mais puis-je l’installer
                  et l’utiliser sous
                  Windows XP ?                 J’ai créé ce document
          Système d’exploitation               avec Claris Works.
                                               Comment vais-je      Environnement logiciel /
                                               retrouver ce logiciel ? Formats du fichier

                                                 SPAR                                               7
BIG DATA À LA BNF : GESTION DE LA PRÉSERVATION DES COLLECTIONS NUMÉRIQUES 18 JUIN 2013
Le projet SPAR : contexte

                                                                                                                                                     Applications de diffusion de données
Applications de production de données

                                                Numérisation de
                                                 conservation
                                                                                                                                         Gallica
                                                                                         Planification de la Préservation

                                                                                             Gestion de données

                                                                    Versement                  Administration               Accès
                                                                                                                                           ….
                                         Production
                                        administrative                                            Stockage
                                           Record
                                         Management

                                                                           Service d’Abstraction du Stockage (SAS)
                                                                    SPAR - Réalisation
                                                                                                                                     Production
                                                                                                                                    administrative
                                                 Archives du WEB    SPAR - Infrastructure

                                                                   SPAR
                                                         …                                                                                  …

                                                                                                   SPAR                                                     8
SPAR en chiffres

• Ouverture de l’exploitation : mai 2010
   – Préservation de la numérisation courante de la BnF, de la
     collecte du web et des données de tiers
   – Stockage répliqué sur deux sites
• >1 000 000 paquets archivés, >100 000 000 objet-
  données (fichiers), 770 To de données brutes
• soit plus de 750 millions de triples de métadonnées
• Des manuscrits très volumineux ont été versés (paquets
  de taille supérieure à 100 Go)
• Première migration technologique réalisée : nouvelle
  génération de bande
• Filières disponibles : monographies, périodiques, lots
  d’image, audio, vidéo, archivage du web, tiers archivage

                                SPAR                             9
Enjeu technique : l’explosion du numérique

• De la numérisation de valorisation à la numérisation
  de préservation
  – Création d’une bibliothèque numérique en expansion
  – Disparition progressive des moyens de productions de microformes
  – Numérisation suite à l'obsolescence voire la disparition des
    équipements de restitution
• Dépôt légal de substitution
  – Affiches de grand format, presse quotidienne régionale
• Documents nés numériques
  – Production administrative
  – Dépôt légal du Web (1er août 2006)
  – E-books

                                SPAR                              10
Objectif SPAR
• SPAR : Système de Préservation et d’Archivage
  Réparti
• Un système conçu selon la norme OAIS
• Un système qui garantit
   – la pérennisation des données numériques
   – et l’accès à ces données
• Un système centralisé qui prend en compte la
  diversité des données numériques archivées
  (réparties en filières)
• Un système de confiance agréé par le SIAF
  pour les archives publiques
• Un système capable de fournir un service de
  tiers-archivage à des partenaires
                          SPAR                    11
Ordre du jour
•   La BnF
•   SPAR à la BnF
•   Les métadonnées dans SPAR
•   Problématique liée à la volumétrie
•   Solution pour la modélisation : le RDF
•   Usages
•   Perspectives

                         SPAR                12
Que préserve-t-on?
• Un document numérisé ou né numérique c’est :
  –   Une description (métadonnées) : titre, auteur, date…
  –   Des fichiers texte, image, …
  –   Une structure physique (les fichiers sont ordonnés)
  –   Une structure numérique
  –   Les formats des fichiers
  –   Les opérations effectuées…
• Tout cela dans un paquet complet et autonome
  qui est une enveloppe structurée englobant des
  données structurées ou non structurées             premis:object xsi:type="premis:file">

• La même approche s’applique pour un
                                                     
                                                     master.1

  document d’archive, pour un film, pour un livre

                             SPAR                                                    13
Les schémas de métadonnées utilisés dans
SPAR
                                                                        Schémas de
                         Types d’information
                                                                        métadonnées
 Informations techniques ou de représentation (format de
 données, caractéristiques des fichiers)
                                                                     MPEG-7
 Informations d’intégrité (taille du fichier, empreintes, état des
 support de stockage)
 Informations de provenance

 Information de contexte et d’environnement matériel et logiciel

 Informations descriptives ou bibliographiques (titres, auteurs,
 dates, sujets…)
 Informations de structure (arborescence ou carte des différents
 niveaux de granularité et des relations)
 Informations sur la structure numérique (liste des fichiers)

 Information de référence (identifiants, URI…)

                                                SPAR                                  14
Ordre du jour
•   La BnF
•   SPAR à la BnF
•   Les métadonnées dans SPAR
•   Problématique liée à la volumétrie
•   Solution pour la modélisation : le RDF
•   Usages
•   Perspectives

                         SPAR                15
Le versement d’un paquet

             Pré-Versement                  Versement

Producteur                                                 Planification
                                                              de la         Administration

                                                           préservation

                                                                                             Accès
                                                          Gestion des données

                                                                           Stockage

                                                                            SAS
                                     SPAR - Réalisation

             SPAR - Infrastructure                             SSP             SSB

             SPAR

                                                           SPAR                                      16
Accords de Qualité de service

                  Quelle est la
                 taille maximum                                        rdf
      P           d’un paquetPlanification
                              ?
     Ar quel                                                      Dois-je
  format                        de la      Administration
      é ai-je                                                 journaliser les
     droit?                 préservation
      -                                                       demandes de
      v                                                rdf Accèspaquets ?
                 versement
      e                        GestionCombien
                                         des données
                                                  de
      r                                copies dois-je
             SIP           mets                                             DIP
      s                               faire, sur quels
      e                                 supports ?
                                      Stockage
     m
      e                    AIP                             AIP
      n
      t                 Service d’abstraction du stockage

                                   SPAR                                           17
Number of packages

                                       20000
                                                         40000
                                                                            60000
                                                                                               80000

                             0
                                                                                                              100000
                                                                                                                           120000
                   2010-05
                   2010-06
                   2010-07
                   2010-08
                   2010-09
                   2010-10
                   2010-11
                   2010-12
                   2011-01
                   2011-02
                   2011-03
                   2011-04
                   2011-05
                   2011-06
                   2011-07
                   2011-08
                   2011-09
                   2011-10
                   2011-11

numberOfPackages
                   2011-12
                   2012-01
                   2012-02
                   2012-03
                   2012-04
                   2012-05
Size in GB

                   2012-06
                   2012-07
                   2012-08
                                                                                                                                      Evolution des flux d’entrée

                   2012-09
                   2012-10
                   2012-11
                   2012-12
                   2013-01
                   2013-02
                   2013-03
                   2013-04
                             0,00
                                    10000,00
                                                  20000,00
                                                                 30000,00
                                                                                    40000,00
                                                                                                   50000,00
                                                                                                                60000,00
                                                                                                                           70000,00

                                                             Size (GB)
Ordre du jour
•   La BnF
•   SPAR à la BnF
•   Les métadonnées dans SPAR
•   Problématique liée à la volumétrie
•   Solution pour la modélisation : le RDF
•   Usages
•   Perspectives

                         SPAR                19
Catalogue des informations en RDF

                    Préservation    Administration

       versement              INDEXATION               Accès
                         Gestion des données

                              Stockage

                   Service d’abstraction du stockage

                                                               20
Le module Gestion de données

                 Gestion de données

         Entrepôt de métadonnées                         Données de référence

    Complet         Sélection
                                   Référence

                                Procédure de reconstruction
                                                                                21
Interroger ces données

• Un modèle pour les décrire : RDF
• Un protocole pour les interroger : SPARQL
  – Toute information présente en RDF peut être
    • Interrogée
    • Comptée
    • Croisée avec d’autres informations
• Permet de récupérer des listes de
  documents en fonction de caractéristiques

                         SPAR                     22
Différence entre les deux :

• Modélisation XML (METS) :         • Modélisation RDF :
   – l’information est structurée       – l’information libérée de la notion
   – mais enfermée dans chaque paquet     de paquet
                                        – tout en gardant sa forme et sa
                                          structure

                                           par Steve Kay
                                        – … elle est donc plus librement
      par smin
                                          accessible

                                                                           23
Ordre du jour
•   La BnF
•   SPAR à la BnF
•   Les métadonnées dans SPAR
•   Problématique liée à la volumétrie
•   Solution pour la modélisation : le RDF
•   Usages
•   Perspectives

                         SPAR                24
Qui a besoin d’interroger SPAR ? Les
 rôles                         Quels sont
                                                               les derniers
                                                               périodiques
       Quels sont les                   Quels sont              conservés
          paquets                      les paquets                 dans
       audités en juin                  contenant                SPAR?
       de plus 2Mo?                     des HTML
                                           mal
                                         formés?

Administrateur           Expert de préservation      Chargé de collections
                                                         numériques
                              Expertise de               Expertise des
       Expertise
                             conservation +           chargés de collection
    informatique +
                             cohérence des               + producteurs
   gestionnaire des
                                données                   d’information
       magasins
                              numériques                   numérique
      numériques
                                                                              25
Exemples d’interrogations
• Dans un contexte de gestion de collections numériques :
   – Je veux les paquets
       • Où une ou plusieurs pages sont décrites comme table des matières
       • Mais sans fichier de table des matières en XML
       Permet de planifier un chantier rétrospectif de réalisation de tables
         des matières en XML
• Dans un contexte d’exploitation et de pilotage :
   – Je veux, pour chaque trimestre depuis 1 an :
       • les paquets entrés dans SPAR
       • le nombre total de fichiers image
       • le nombre total de fichiers OCR
       Permet d’évaluer le rythme d’accroissement courant
• Dans un contexte de préservation :
   – Je veux les paquets
       • Comprenant des fichiers HTML mal formés
       • (Et donc difficiles à préserver)

                                                                                26
Ordre du jour
•   La BnF
•   SPAR à la BnF
•   Les métadonnées dans SPAR
•   Problématique liée à la volumétrie
•   Solution pour la modélisation : le RDF
•   Usages
•   Perspectives

                         SPAR                27
Difficultés rencontrées

• Niveau de maturité de la technologie : nécessité d’un
  benchmark technique
• Nécessité de formation des intervenants (développeur,
  exploitation)
• Gestion de la transaction lors des insertions dans les
  différents entrepôts
• Ajout d’informations d’agrégation (distinct, min, max)
• Optimisation des requêtes, en particulier pour celles de
  type statistique

                                                             28
Gains apportées

• Une seule solution pour répondre à tous les besoins
• Technologie dimensionnée pour répondre au Web
  (plusieurs milliards de triples)
• Forte scalabilité de la solution
• Ensemble de la solution standardisée par le W3C

                                                        29
Interrogations croisées

• Mouvement de l’Open Data:
  – Données publiques partagées
  – En France, mission Etalab
  – A l’international, mouvement d’ouverture des données (gov.uk,
    .gov, …)
  – Possibilité d’utiliser toutes ses données :
     • les informations bibliographiques de la BnF : data.bnf.fr
     • le fichier d'autorité international virtuel (VIAF) : effort international pour
       mutualiser les informations sur les personnes et les collectivités
     • DBPedia : exposition des données de wikipedia en RDF
     • des registres de format : UDFR, Pronom

                                        SPAR                                            30
Merci de votre attention

      Questions ?

                    Thomas Ledoux         31
                thomas.ledoux_AT_bnf.fr
Vous pouvez aussi lire