BIG DATA À LA BNF : GESTION DE LA PRÉSERVATION DES COLLECTIONS NUMÉRIQUES 18 JUIN 2013
←
→
Transcription du contenu de la page
Si votre navigateur ne rend pas la page correctement, lisez s'il vous plaît le contenu de la page ci-dessous
Ordre du jour • La BnF • SPAR à la BnF • Les métadonnées dans SPAR • Problématique liée à la volumétrie • Solution pour la modélisation : le RDF • Usages • Perspectives SPAR 2
Missions de la bibliothèque Missions : Dépôt légal : – constituer les collections, – depuis 1537 pour les – les conserver et imprimés communiquer au public, –1648 : gravures et plans – produire un catalogue de –1793 : partitions référence, –1925 : photographies – coopérer avec les autres –1938 : phonogrammes institutions, –1975 : vidéogrammes – participer à des –1992 : documents programmes de électroniques recherche –2006 : archives du Web 4
Environnement institutionnel • BnF, établissement public administratif dépendant du Ministère de la Culture et de la Communication • Dès 2004, la BnF a entamé la réflexion sur la mise en œuvre d’un système de préservation du numérique à long terme. • Elle s’appuie sur les normes internationales, plus particulièrement sur la norme OAIS (ISO-14721:2003) • Modèle de référence pour un Système ouvert d’archivage d’information • Prise en compte de certaines directives de la norme NF Z42- 013 • Spécifications relatives à la conception et à l’exploitation de systèmes informatiques en vue d’assurer la conservation et l’intégrité des documents stockés dans ces systèmes • La BnF est pour ses propres archives, y compris numériques, sous la tutelle scientifique et technique du SIAF (code du patrimoine) SPAR 5
Ordre du jour • La BnF • SPAR à la BnF • Les métadonnées dans SPAR • Problématique liée à la volumétrie • Solution pour la modélisation : le RDF • Usages • Perspectives SPAR 6
Enjeu de la préservation Voici un document De quoi s’agit-il, déjà ? numérique que j’ai Est-ce bien ce qui est créé en 1998. indiqué sur la disquette ? Je l’ai enregistré sur Métadonnées descriptives une disquette, est- Support elle toujours en bon Ça marche ! état ? Mais j’ai perdu toute ma mise en forme … Authenticité / Intégrité Mon portable, acheté en 2004, n’a pas de lecteur de disquette. Où en trouver un ? Environnement matériel J’ai trouvé le logiciel, mais puis-je l’installer et l’utiliser sous Windows XP ? J’ai créé ce document Système d’exploitation avec Claris Works. Comment vais-je Environnement logiciel / retrouver ce logiciel ? Formats du fichier SPAR 7
Le projet SPAR : contexte Applications de diffusion de données Applications de production de données Numérisation de conservation Gallica Planification de la Préservation Gestion de données Versement Administration Accès …. Production administrative Stockage Record Management Service d’Abstraction du Stockage (SAS) SPAR - Réalisation Production administrative Archives du WEB SPAR - Infrastructure SPAR … … SPAR 8
SPAR en chiffres • Ouverture de l’exploitation : mai 2010 – Préservation de la numérisation courante de la BnF, de la collecte du web et des données de tiers – Stockage répliqué sur deux sites • >1 000 000 paquets archivés, >100 000 000 objet- données (fichiers), 770 To de données brutes • soit plus de 750 millions de triples de métadonnées • Des manuscrits très volumineux ont été versés (paquets de taille supérieure à 100 Go) • Première migration technologique réalisée : nouvelle génération de bande • Filières disponibles : monographies, périodiques, lots d’image, audio, vidéo, archivage du web, tiers archivage SPAR 9
Enjeu technique : l’explosion du numérique • De la numérisation de valorisation à la numérisation de préservation – Création d’une bibliothèque numérique en expansion – Disparition progressive des moyens de productions de microformes – Numérisation suite à l'obsolescence voire la disparition des équipements de restitution • Dépôt légal de substitution – Affiches de grand format, presse quotidienne régionale • Documents nés numériques – Production administrative – Dépôt légal du Web (1er août 2006) – E-books SPAR 10
Objectif SPAR • SPAR : Système de Préservation et d’Archivage Réparti • Un système conçu selon la norme OAIS • Un système qui garantit – la pérennisation des données numériques – et l’accès à ces données • Un système centralisé qui prend en compte la diversité des données numériques archivées (réparties en filières) • Un système de confiance agréé par le SIAF pour les archives publiques • Un système capable de fournir un service de tiers-archivage à des partenaires SPAR 11
Ordre du jour • La BnF • SPAR à la BnF • Les métadonnées dans SPAR • Problématique liée à la volumétrie • Solution pour la modélisation : le RDF • Usages • Perspectives SPAR 12
Que préserve-t-on? • Un document numérisé ou né numérique c’est : – Une description (métadonnées) : titre, auteur, date… – Des fichiers texte, image, … – Une structure physique (les fichiers sont ordonnés) – Une structure numérique – Les formats des fichiers – Les opérations effectuées… • Tout cela dans un paquet complet et autonome qui est une enveloppe structurée englobant des données structurées ou non structurées premis:object xsi:type="premis:file"> • La même approche s’applique pour un master.1 document d’archive, pour un film, pour un livre SPAR 13
Les schémas de métadonnées utilisés dans SPAR Schémas de Types d’information métadonnées Informations techniques ou de représentation (format de données, caractéristiques des fichiers) MPEG-7 Informations d’intégrité (taille du fichier, empreintes, état des support de stockage) Informations de provenance Information de contexte et d’environnement matériel et logiciel Informations descriptives ou bibliographiques (titres, auteurs, dates, sujets…) Informations de structure (arborescence ou carte des différents niveaux de granularité et des relations) Informations sur la structure numérique (liste des fichiers) Information de référence (identifiants, URI…) SPAR 14
Ordre du jour • La BnF • SPAR à la BnF • Les métadonnées dans SPAR • Problématique liée à la volumétrie • Solution pour la modélisation : le RDF • Usages • Perspectives SPAR 15
Le versement d’un paquet Pré-Versement Versement Producteur Planification de la Administration préservation Accès Gestion des données Stockage SAS SPAR - Réalisation SPAR - Infrastructure SSP SSB SPAR SPAR 16
Accords de Qualité de service Quelle est la taille maximum rdf P d’un paquetPlanification ? Ar quel Dois-je format de la Administration é ai-je journaliser les droit? préservation - demandes de v rdf Accèspaquets ? versement e GestionCombien des données de r copies dois-je SIP mets DIP s faire, sur quels e supports ? Stockage m e AIP AIP n t Service d’abstraction du stockage SPAR 17
Number of packages 20000 40000 60000 80000 0 100000 120000 2010-05 2010-06 2010-07 2010-08 2010-09 2010-10 2010-11 2010-12 2011-01 2011-02 2011-03 2011-04 2011-05 2011-06 2011-07 2011-08 2011-09 2011-10 2011-11 numberOfPackages 2011-12 2012-01 2012-02 2012-03 2012-04 2012-05 Size in GB 2012-06 2012-07 2012-08 Evolution des flux d’entrée 2012-09 2012-10 2012-11 2012-12 2013-01 2013-02 2013-03 2013-04 0,00 10000,00 20000,00 30000,00 40000,00 50000,00 60000,00 70000,00 Size (GB)
Ordre du jour • La BnF • SPAR à la BnF • Les métadonnées dans SPAR • Problématique liée à la volumétrie • Solution pour la modélisation : le RDF • Usages • Perspectives SPAR 19
Catalogue des informations en RDF Préservation Administration versement INDEXATION Accès Gestion des données Stockage Service d’abstraction du stockage 20
Le module Gestion de données Gestion de données Entrepôt de métadonnées Données de référence Complet Sélection Référence Procédure de reconstruction 21
Interroger ces données • Un modèle pour les décrire : RDF • Un protocole pour les interroger : SPARQL – Toute information présente en RDF peut être • Interrogée • Comptée • Croisée avec d’autres informations • Permet de récupérer des listes de documents en fonction de caractéristiques SPAR 22
Différence entre les deux : • Modélisation XML (METS) : • Modélisation RDF : – l’information est structurée – l’information libérée de la notion – mais enfermée dans chaque paquet de paquet – tout en gardant sa forme et sa structure par Steve Kay – … elle est donc plus librement par smin accessible 23
Ordre du jour • La BnF • SPAR à la BnF • Les métadonnées dans SPAR • Problématique liée à la volumétrie • Solution pour la modélisation : le RDF • Usages • Perspectives SPAR 24
Qui a besoin d’interroger SPAR ? Les rôles Quels sont les derniers périodiques Quels sont les Quels sont conservés paquets les paquets dans audités en juin contenant SPAR? de plus 2Mo? des HTML mal formés? Administrateur Expert de préservation Chargé de collections numériques Expertise de Expertise des Expertise conservation + chargés de collection informatique + cohérence des + producteurs gestionnaire des données d’information magasins numériques numérique numériques 25
Exemples d’interrogations • Dans un contexte de gestion de collections numériques : – Je veux les paquets • Où une ou plusieurs pages sont décrites comme table des matières • Mais sans fichier de table des matières en XML Permet de planifier un chantier rétrospectif de réalisation de tables des matières en XML • Dans un contexte d’exploitation et de pilotage : – Je veux, pour chaque trimestre depuis 1 an : • les paquets entrés dans SPAR • le nombre total de fichiers image • le nombre total de fichiers OCR Permet d’évaluer le rythme d’accroissement courant • Dans un contexte de préservation : – Je veux les paquets • Comprenant des fichiers HTML mal formés • (Et donc difficiles à préserver) 26
Ordre du jour • La BnF • SPAR à la BnF • Les métadonnées dans SPAR • Problématique liée à la volumétrie • Solution pour la modélisation : le RDF • Usages • Perspectives SPAR 27
Difficultés rencontrées • Niveau de maturité de la technologie : nécessité d’un benchmark technique • Nécessité de formation des intervenants (développeur, exploitation) • Gestion de la transaction lors des insertions dans les différents entrepôts • Ajout d’informations d’agrégation (distinct, min, max) • Optimisation des requêtes, en particulier pour celles de type statistique 28
Gains apportées • Une seule solution pour répondre à tous les besoins • Technologie dimensionnée pour répondre au Web (plusieurs milliards de triples) • Forte scalabilité de la solution • Ensemble de la solution standardisée par le W3C 29
Interrogations croisées • Mouvement de l’Open Data: – Données publiques partagées – En France, mission Etalab – A l’international, mouvement d’ouverture des données (gov.uk, .gov, …) – Possibilité d’utiliser toutes ses données : • les informations bibliographiques de la BnF : data.bnf.fr • le fichier d'autorité international virtuel (VIAF) : effort international pour mutualiser les informations sur les personnes et les collectivités • DBPedia : exposition des données de wikipedia en RDF • des registres de format : UDFR, Pronom SPAR 30
Merci de votre attention Questions ? Thomas Ledoux 31 thomas.ledoux_AT_bnf.fr
Vous pouvez aussi lire