Le moteur de recherche de Gallica et le chercheur
←
→
Transcription du contenu de la page
Si votre navigateur ne rend pas la page correctement, lisez s'il vous plaît le contenu de la page ci-dessous
Le moteur de recherche de Gallica et le chercheur Lequel des deux apprivoise l’autre ? Atelier du colloque « des humanités numériques littéraires ? » Lundi 19 juin Sophie Bertrand – Jean-Philippe Moreux – Stéphane Pillorget Bibliothèque nationale de France 19/06/2017 BnF Gallica (Bertrand - Moreux - Pillorget) 1
Plan • Connaissez-vous Gallica ? • Introduction : le moteur de recherche de Gallica • De l’usager-type aux usages multiples • Le moteur, le chercheur et l’OCR 19/06/2017 BnF Gallica (Bertrand - Moreux - Pillorget) 2
Quand le moteur de recherche apprivoise le chercheur 19/06/2017 BnF Gallica (Bertrand - Moreux - Pillorget) 4
Qu’est ce qu’un moteur de recherche ? Un abus de langage… Un moteur de recherche est en fait un programme informatique qui fonctionne en deux phases : • Une phase d’indexation des documents contenus dans le fonds • Une phase de recherche au sein de cet index 19/06/2017 BnF Gallica (Bertrand - Moreux - Pillorget) 5
Indexation Le Sénat a créé jeudi, contre l'avis du gouvernement, une obligation de dépôt légal pour les livres numériques, en adoptant un amendement écologiste en ce sens au projet de loi sur la création et le patrimoine. Document 1 Le Le document1 1 document1 36 Sénat a Sénat créé document1 2 jeudi contre a document1 3 6
Recherche sénat Document Contexte Document 1 Le Sénat a créé jeudi, contre l'avis du gouvernement Document 2 Le Sénat renforce le dépôt légal du livre numérique Document 3 …la disposition votée au Sénat doit également être adoptée à l'Assemblée, où le gouvernement dispose de la majorité. 7
Historique L’apparition des moteurs des grands moteurs de recherche du web a bouleversé les usages de la recherche documentaire. Après une logique de recherche sur les métadonnées (type catalogue) uniquement, l’utilisation du contenu textuel des documents s’est rapidement imposé. Deux écueils : • Le bruit (je suis noyé dans les réponses) • Le silence (je ne trouve pas ce que je cherche) 19/06/2017 BnF Gallica (Bertrand - Moreux - Pillorget) 8
Indexation des métadonnées et du plein-texte • Un document numérique possédant des métadonnées, celles-ci possèdent plusieurs intérêts pour l’indexation : • Elles sont très souvent issues d’un vocabulaire contrôlé • Elles peuvent être associées à des référentiels (de bibliothèques ou de ressources disponibles sur le web) • Il est donc primordial de les utiliser : • Pour aider les utilisateurs dans leur processus de recherche (suggestion, recherche structurée, affinage des résultats) • Pour classer les résultats par « pertinence ». 9
Approche experte Présentation des métadonnées Présentation des métadonnées Présentation des métadonnées 10
Approche « grand public » Recherche simple Utilisation des métadonnées pour trier les résultats Assistance à l’usager en lui proposant d’affiner sa recherche initiale 11
Pertinence et pondération Document Contexte Document Contexte Document 1 Le Sénat a créé jeudi, contre l'avis du gouvernement Document 2 Le Sénat renforce le dépôt légal du livre numérique Document 2 Le Sénat renforce le dépôt légal du livre numérique Document 1 Le Sénat a créé jeudi, contre l'avis du gouvernement Document 3 …la disposition votée au Sénat doit également être adoptée à l'Assemblée, où le gouvernement dispose de la majorité. Document 3 …la disposition votée au Sénat doit également être adoptée à l'Assemblée, où le gouvernement dispose de la majorité. 12
De la chaîne de caractère à la sémantique • L’indexation du plein-texte des documents s’est généralisée avec l’apparition du moteur Google. • Aujourd’hui, les principales bibliothèques numériques ou les principaux systèmes de gestion électronique de documents offrent une indexation et des capacités de recherche qui combinent la recherche dans les métadonnées et dans le plein-texte. 13
Indexation du contenu des documents • Pour aider les usagers dans leurs recherches, les technologies sémantiques visent à « faire comprendre » le sens des textes. • Elles regroupent des traitements qui peuvent aller du très simple (association de mots singulier/pluriel dans la même entrée) au très complexe (extraction de concepts). 14
Entités nommées • La reconnaissance d’entités nommées permet (lors de la phase de numérisation ou d’indexation) d’identifier des : • Noms de personnes • Noms d’organisation • Lieux • Dates • Quantités • Valeurs • … 15
Entités nommées Entité nommée 1 date La nouvelle a été annoncée dans un communiqué des deux chaînes: le président de la République est, jeudi 11 février, l'invité des JT de 20h de TF1 et de France 2. Face à David Pujadas et de Gilles Bouleau, François Hollande connaît son sujet. En effet, depuis quelques années, les chaînes de télévision n'hésitent plus à solliciter les présidents de la République en fonction pour Entité des émissions spéciales en Entité nommée première partie de soirée. Entité nommée nommée Personne 3 Personne 2 Personne 3 Ainsi, en novembre 2014, déjà sur TF1, dans En direct avec les Français, monsieur Hollande avait été sur le gril de la Une durant près de deux heures, faisant face aux journalistes et à un panel de Français, invité à poser des questions. Outre les annonces attendues, un moment avait marqué les esprits: l'interview du chef de l'État par Thierry Demaizière où des questions Entité nommée «personnelles» Personne 3 avaient été posées. 16
Le sémantique : lors de la phase de recherche aussi… Suggestions Corrections orthographiques 17
Ou encore… Expansion sémantique Expansion sémantique Désambiguïsation 18
Extraction de concepts Extraction de concepts 19
Des nouveaux usages • Association de documents et ajout de liens d’un document vers un autre (citation, entités nommées commune, …) • Similarité des documents (trouver des documents proches sémantiquement). • Utilisation des statistiques sur les résultats obtenus (nuages de tags, analyse de la fréquence des concepts dans un document) 20
Notre implémentation • Utilisation du moteur Cloudview de la société Exalead (Dassault System) • Mise en place d’une recherche floue • Mise en place de synonymes pour des formes retenues, des formes rejetées, associées au référentiel de la Bibliothèque (Molière-Poquelin) • Analyse des requêtes des utilisateurs pour aider le moteur de recherche à trouver des documents pertinents (nom d’auteur, titre d’ouvrage, mot clés « journal de xxx »)… Travail en cours. • Utilisation des entités nommées (extraites préalablement ou à la volée)… Travail en cours. 19/06/2017 BnF Gallica (Bertrand - Moreux - Pillorget) 21
Analyse de l’usage des utilisateurs et mise en place d’indicateurs de qualité des résultats • Il est difficile de définir des indicateurs simples pour qualifier la qualité des résultats d’un moteur de recherche. • Il en existe de nombreux (le plus simple étant le rang moyen choisi par un utilisateur après une requête). • Ils nécessitent l’analyse des fichiers journaux (logs) des utilisateurs pour savoir si l’utilisateur a été satisfait de son résultat (parcours global, actions réalisées par l’utilisateur) etc. etc. • Ces indicateurs doivent être suivis régulièrement et peuvent être, pour certains d’entre eux, être prédictifs. • Ces indicateurs varient régulièrement (adaptation de la stratégie de recherche des utilisateurs). 19/06/2017 BnF Gallica (Bertrand - Moreux - Pillorget) 22
Quand le chercheur apprivoise le moteur de recherche de Gallica 19/06/2017 BnF Gallica (Bertrand - Moreux - Pillorget) 23
19/06/2017 24 Quelques données d’usages BnF Gallica (Bertrand - Moreux - Pillorget)
A quoi ressemble un Gallicanaute en 2017 ? 19/06/2017 BnF Gallica (Bertrand - Moreux - Pillorget) 25
De l’usager-type aux usages multiples 19/06/2017 BnF Gallica (Bertrand - Moreux - Pillorget) 26
Le gallicanaute et le moteur de recherche : « je t’aime, moi non plus » ? 19/06/2017 BnF Gallica (Bertrand - Moreux - Pillorget) 27
Vidéo - ethnographie : l’exemple de Didier 19/06/2017 BnF Gallica (Bertrand - Moreux - Pillorget) 28
Moteur Le moteur, et le OCR chercheur et l’OCR 29
« L’OCRisation » et ses conséquences Documents Recherche Résultats OCR numérisés d’information Boîte noire Boîte noire ≈ 100 M de pages océrisées, ● Présentation 50 milliards de mots essentiellement quantitative ● Peu d’indicateurs qualité pour les Influence de l’OCR ? usagers 19/06/2017 30
Dans la boîte noire de l’OCR… 19/06/2017 31
… il y a des dictionnaires de langue Premières occurrences Bruit ? è Confusion entre deux mots du lexique 19/06/2017 32
… il y a des dictionnaires de langue 1895 Recherche d’étymologie 6 http://gallica.bnf.fr/blog/20102016/a lain-rey-et-gallica-une-grande- histoire-de-mots www.retronews.fr, graphe de fréquence : « gadget » è Biais documentaire è Biais de l’OCR letempsarchives.ch/recherche?q=apres%3A1900+gadget+ è Biais statistique 19/06/2017 33
(dictionnaires, suite) Les moteurs OCR sont entraînés sur une typographie moderne et utilisent des dictionnaires de langue contemporains « Arioste » « anode » Anti-Baillet, ou Critique du livre de M. Baillet intitulé Jugemens des savans..., 1688 è Modernisation du lexique 19/06/2017 34
Et si l’on regardait les usages ? • 80 % de requêtes sur des entités nommées (Pers, Geo, Œuvre) • 50 % des mots erronés de l’OCR ne se trouvent pas dans les dictionnaires standard (corpus AMELIOCR) • Erreurs surreprésentées sur les entités nommées • Qualité perçue de l’OCR ¹ qualité réelle pour un usage donné Répartition des 500 requêtes utilisateur les plus fréquentes classées par type (gallica.bnf.fr, déc. 2015-mars 2016, 28 millions de requêtes) Projet AMELIOCR, L3i La Rochelle/BnF è Biais cognitif 19/06/2017 35
OCR 2.0 « Panama papers » : un défi technique pour le Les erreurs de reconnaissance journalisme de données, Le Monde, 8 avril 2016 : OCR affectent les documents « Malgré toutes ces fonctionnalités, nous nous sommes patrimoniaux mais aussi heurtés à des limitations structurelles liées à la nature du contemporains... “leak”. De nombreux documents n’étant pas à l’origine sous des formats lisibles par des machines (scans, images), ils ont été passés à la moulinette d’un système de reconnaissance de caractère (OCR) par l’ICIJ. Cette technique, aussi performante soit-elle, fait courir le risque de passer à côté de mots mal retranscrits, comme des mentions manuscrites ou des scans de mauvaise qualité. » è Biais de l’OCR 19/06/2017 36
« mi mineur », « la mineur » : Mais que fait le moteur ? Chris : « Si j’ai pris "mi mineur", c’est que justement je me disais que c’est une des notes, donc je n’aurai pas de • Exclure les mots vides • qu’est-ce q’unSimot problème. vide "la je prends ? mineur", je vais avoir plein d’ambiguïté… » • Utiliser de la recherche floue • où ? combien ? désactivable ? • Utiliser de la recherche « exacte » • exacte jusqu’à quel point ? • Utiliser des opérateurs (et, ou, voisinage) • recherche avancée • Enrichir en entités nommées • rappel, précision, alignement • Utiliser une approche de type « query • qui parle ? les données, les algorithmes ? expansion » (synonymes, lemmes, flexions, modèle d’erreur OCR) • l’éditeur ? • Editorialiser 19/06/2017 37
OCR et moteur : quelques pistes • Prendre en compte les profils d’utilisateur • Laisser l’utilisateur maître de sa requête • Informer sur les biais Dans les 500 requêtes les plus fréquentes : • « Italie », « Baudelaire », « Aristote », « Le Petit Journal »… • thapsia garganica • Dictionnaire des parlementaires français, Les Nouvelles littéraires, artistiques et scientifiques… 19/06/2017 BnF Gallica (Bertrand - Moreux - Pillorget) 38
Des utilisateurs • Plusieurs profils clairement identifiés. • Des pratiques différentes, des temps de session fortement hétérogènes Modélisation des comportements à partir des logs de Gallica, Adrien Nouvellet, Télécom Paris-Tech 19/06/2017 BnF Gallica (Bertrand - Moreux - Pillorget) 39
Croire en l’utilisateur • Les enquêtes d’usage montrent des utilisateurs autonomes et des pratiques inventives. • Certains utilisateurs connaissent l’existence de biais et en tiennent compte. • Certains sont prêts à utiliser des interfaces cfregisters.org complexes pour des services avancés. gallica.bnf.fr 19/06/2017 demo.istex.fr BnF Gallica (Bertrand - Moreux - Pillorget) 40
Informer : « Mais j’interroge quoi, en fait ? » • Exemple pour la presse : • Faire connaître les choix documentaires • Faire connaître les périmètres et lacunes Corpus disponible / production éditoriale Journal des débats politiques et littéraires (1814-1944) : è Représentativité lacunes de la collection numérique 19/06/2017 BnF Gallica (Bertrand - Moreux - Pillorget) des corpus 41
Quand le chercheur coupe le moteur de recherche 42
Couper le moteur ? • Le moteur/portail est un mode d’accès aux contenus. • C’est aussi un instrument historisé : politiques et programmes de numérisation, choix (et limites) techniques, design des interactions… qui propose une distance de lecture reflet des pratiques de l’époque de sa conception : la page • Or aujourd’hui, les humanités numériques ont besoin d’une distance de lecture variable, du mot aux corpus massifs. 19/06/2017 BnF Gallica (Bertrand - Moreux - Pillorget) 43
Des distances de lecture… Exemple pour les périodiques : • généalogistes • enseignants • chercheurs (InfoCom, SH…) •… 19/06/2017 BnF Gallica (Bertrand - Moreux - Pillorget) 44
Couper le moteur (1) 1. Donner aux chercheurs un accès direct aux données : • Corpus prédéfinis • Corpus à façon • API d’accès aux données è Je règle ma distance de lecture 45 19/06/2017 BnF Gallica (Bertrand - Moreux - Pillorget)
Couper le moteur (1) 1. Donner aux chercheurs un accès direct aux données : • Corpus prédéfinis • Corpus à façon • API d’accès aux données 46 19/06/2017 BnF Gallica (Bertrand - Moreux - Pillorget)
Accès direct au données : aujourd’hui Demander ou réutiliser des corpus GRIPIC (Sciences de l’information et de la communication, CESR) : importance des fêtes de Noël pour la publicité dans la presse quotidienne è Réutilisation du corpus Europeana Newspapers 19/06/2017 BnF Gallica (Bertrand - Moreux - Pillorget)
Accès direct au données : aujourd’hui Frédéric Glorieux, resultats.hypotheses.org Utiliser les API Hackathon BnF, 2016 19/06/2017 BnF Gallica (Bertrand - Moreux - Pillorget)
Accès direct au données : perspectives « Gallica, donne-moi les feuilletons littéraires de la presse quotidienne, 1830-1900 » « mon corpus » 49 19/06/2017 BnF Gallica (Bertrand - Moreux - Pillorget)
Alternative au moteur (2) 2. Construire son propre moteur : • Appliquer des traitements personnalisés sur des données locales (à la BN) • Notamment pour les corpus sous-droits : archives du web, dépôt légal numérique (presse, livre numérique) è Laboratoire DH virtuel 50 19/06/2017 BnF Gallica (Bertrand - Moreux - Pillorget)
Redémarrer le moteur (avec des données enrichies) 3. La granularité des données a une influence directe sur les distances de lecture à disposition : • genres littéraires structurés (théâtre, poésie) • autres genres fortement structurés (dictionnaires) • genres composites (presse, revues) • autres objets informationnels (illustrations) è Ma distance de lecture nécessite une granularité des données spécifique 51 19/06/2017 BnF Gallica (Bertrand - Moreux - Pillorget)
Entrer dans la page « La création de la chronique boursière, 1800-1870 » OLR ici… et là è Mon grain de donnée = article 52 19/06/2017 BnF Gallica (Bertrand - Moreux - Pillorget)
Entrer dans la page Dictionnaires (biographiques, de langue) ici… è Mon grain de donnée = entrée dans la nomenclature et là 53 19/06/2017 BnF Gallica (Bertrand - Moreux - Pillorget)
Des données enrichies pour tous ! L’enrichissement profite : • au moteur : entités nommées, mode article • aux API : OAI-PHM, IIIF peuvent véhiculer les informations de structure logique • aux corpus mis à disposition de la recherche : les enrichissement sont portés par l’OCR (ALTO) et les manifestes des documents numériques (METS) 54 19/06/2017 BnF Gallica (Bertrand - Moreux - Pillorget)
Accès direct au données : perspectives « Gallica, donne-moi un corpus iconographique, je veux étudier la représentation des femmes dans les média visuels entre 1910 et 1920 » Demander un Appliquer de la Analyser les genres corpus icono reconnaissance représentés à la BnF faciale 55 19/06/2017 BnF Gallica (Bertrand - Moreux - Pillorget)
Accès direct au données : perspectives « Gallica, donne-moi un corpus iconographique, je veux étudier la représentation des femmes entre 1910 et 1920 » Nouveau paradigme : • « Je sélectionne des documents avec l’API SRU » • « J’utilise l’APIun Demander IIIF Presentation Appliquerpour de laextraire les illustrations Analyser les genres référencées dans corpus icono à lales manifestes des documentsreprésentés reconnaissance » BnF faciale • « J’analyse les images » • « J’accède à l’OCR si besoin avec l’API IIIF Presentation » •… 56 19/06/2017 BnF Gallica (Bertrand - Moreux - Pillorget)
19/06/2017 57 BnF Gallica (Bertrand - Moreux - Pillorget)
Accès direct au données : perspectives « Je m’intéresse à l’histoire de l’imprimerie (1800-1950), les métadonnées quantitatives des périodiques sont dans Gallica » Nouveau paradigme : plan de l’Exposition grand format, universelle de 1889 • « Je sélectionne des documents avec l’API SRU » 6 colonnes (1896) • « J’utilise les API Gallica et l’API IIIF Presentation pour extraire les métadonnées » grand in-folio • « J’accède à l’OCR si besoin avec l’API IIIF Presentation » courrier commercial, loi sur la presse de 1851 •… (droit de timbre) juillet 1914 sept. 1939 58 19/06/2017
Humanités et bibliothèques numériques De plus en plus de données ouvertes Des modes d’accès diversifiés Des programmes de numérisation et des formats techniques de + en + complexes è Les BN sont appelées à devenir centre de ressources pour les humanités numériques 59 19/06/2017 BnF Gallica (Bertrand - Moreux - Pillorget)
Pourquoi ? • Un manifeste de fascicule de presse = 50 Mo de XML (METS/MODS/PREMIS/Dublin Core) • OCR à la BnF : 15 ans de pratiques variables, plusieurs versions, des enrichissements (ou pas). Note : les pratiques de numérisation sont peu documentées dans les formats. • API Gallica, catalogue, data.bnf : plusieurs chemins… certains plus longs que d’autres èVous ne me l’aviez pas dit ! è Je réinvente la roue 60 19/06/2017 BnF Gallica (Bertrand - Moreux - Pillorget)
Car les formats techniques sont silencieux… • ALTO permet de décrire le tiret de césure. • Corpus • ALTO v3 permet de décrire des entités nommées. • Infrastructure technique • L’OCR peut être entraîné pour convertir le s long ſ en s rond • Conseil • L’OCR peut être corrigé•(globalement, Formation sur certaines zones) è Espace Humanités numériques 61 19/06/2017 BnF Gallica (Bertrand - Moreux - Pillorget)
Conclusion 19/06/2017 BnF Gallica (Bertrand - Moreux - Pillorget) 62
Vous pouvez aussi lire