Le moteur de recherche de Gallica et le chercheur

La page est créée Jean-Luc Huet
 
CONTINUER À LIRE
Le moteur de recherche de Gallica et le chercheur
Le moteur de recherche de
                 Gallica et le chercheur
             Lequel des deux apprivoise l’autre ?
                   Atelier du colloque « des humanités numériques littéraires ? »
                                               Lundi 19 juin
                   Sophie Bertrand – Jean-Philippe Moreux – Stéphane Pillorget
                                 Bibliothèque nationale de France

19/06/2017                          BnF Gallica (Bertrand - Moreux - Pillorget)     1
Le moteur de recherche de Gallica et le chercheur
Plan

• Connaissez-vous Gallica ?
• Introduction : le moteur de recherche de Gallica
• De l’usager-type aux usages multiples
• Le moteur, le chercheur et l’OCR

19/06/2017                 BnF Gallica (Bertrand - Moreux - Pillorget)   2
Le moteur de recherche de Gallica et le chercheur
Le moteur
  de recherche
    Gallica et
     vous ?

http://kahoot.it`
Game PIN :
Le moteur de recherche de Gallica et le chercheur
Quand le moteur
                de recherche
                apprivoise le
                chercheur

19/06/2017   BnF Gallica (Bertrand - Moreux - Pillorget)   4
Le moteur de recherche de Gallica et le chercheur
Qu’est ce qu’un moteur de recherche ?

Un abus de langage… Un moteur de recherche est en fait un
programme informatique qui fonctionne en deux phases :
   • Une phase d’indexation des documents contenus dans le fonds
   • Une phase de recherche au sein de cet index

 19/06/2017             BnF Gallica (Bertrand - Moreux - Pillorget)   5
Le moteur de recherche de Gallica et le chercheur
Indexation
Le Sénat a créé jeudi, contre l'avis du gouvernement, une obligation de
dépôt légal pour les livres numériques, en adoptant un amendement
écologiste en ce sens au projet de loi sur la création et le patrimoine.
                                                                       Document 1

                                                      Le
Le                                       document1         1
                                         document1         36
Sénat
a
                                                      Sénat
créé
                                         document1         2
jeudi
contre
                                                           a
                                          document1            3
                                                                                    6
Le moteur de recherche de Gallica et le chercheur
Recherche
sénat

Document     Contexte

Document 1   Le Sénat a créé jeudi, contre l'avis du gouvernement

Document 2   Le Sénat renforce le dépôt légal du livre numérique

Document 3   …la disposition votée au Sénat doit également être adoptée à l'Assemblée, où
             le gouvernement dispose de la majorité.

                                                                                            7
Le moteur de recherche de Gallica et le chercheur
Historique
L’apparition des moteurs des grands moteurs de recherche du
web a bouleversé les usages de la recherche documentaire.
Après une logique de recherche sur les métadonnées (type
catalogue) uniquement, l’utilisation du contenu textuel des
documents s’est rapidement imposé.
Deux écueils :
      • Le bruit (je suis noyé dans les réponses)
      • Le silence (je ne trouve pas ce que je cherche)

19/06/2017                    BnF Gallica (Bertrand - Moreux - Pillorget)   8
Le moteur de recherche de Gallica et le chercheur
Indexation des métadonnées et du plein-texte

• Un document numérique possédant des
  métadonnées, celles-ci possèdent plusieurs
  intérêts pour l’indexation :
   • Elles sont très souvent issues d’un vocabulaire
     contrôlé
   • Elles peuvent être associées à des référentiels (de
     bibliothèques ou de ressources disponibles sur le
     web)
• Il est donc primordial de les utiliser :
   •   Pour aider les utilisateurs dans leur processus de
       recherche (suggestion, recherche structurée,
       affinage des résultats)
   •   Pour classer les résultats par « pertinence ».

                                                            9
Le moteur de recherche de Gallica et le chercheur
Approche experte
                   Présentation des
                    métadonnées

Présentation des
 métadonnées

                      Présentation des
                       métadonnées

                                                            10
Approche « grand public »
Recherche
  simple

                           Utilisation des métadonnées
                              pour trier les résultats

                    Assistance à l’usager en lui
                      proposant d’affiner sa
                         recherche initiale

                                                         11
Pertinence et pondération
 Document       Contexte
   Document        Contexte
 Document 1     Le Sénat a créé jeudi, contre l'avis du gouvernement
   Document 2      Le Sénat renforce le dépôt légal du livre numérique

 Document 2     Le Sénat renforce le dépôt légal du livre numérique
   Document 1      Le Sénat a créé jeudi, contre l'avis du gouvernement

 Document 3     …la disposition votée au Sénat doit également être adoptée à l'Assemblée, où
                le gouvernement dispose de la majorité.
   Document 3       …la disposition votée au Sénat doit également être adoptée à l'Assemblée, où
                    le gouvernement dispose de la majorité.

                                                                                                   12
De la chaîne de caractère à la sémantique

• L’indexation du plein-texte des documents s’est
  généralisée avec l’apparition du moteur Google.
• Aujourd’hui, les principales bibliothèques numériques
  ou les principaux systèmes de gestion électronique de
  documents offrent une indexation et des capacités de
  recherche qui combinent la recherche dans les
  métadonnées et dans le plein-texte.

                                                          13
Indexation du contenu des documents
               • Pour aider les usagers dans leurs recherches,
                 les technologies sémantiques visent à « faire
                 comprendre » le sens des textes.
               • Elles regroupent des traitements qui peuvent
                 aller du très simple (association de mots
                 singulier/pluriel dans la même entrée) au
                 très complexe (extraction de concepts).

                                                           14
Entités nommées
• La reconnaissance d’entités nommées permet (lors de la phase de
  numérisation ou d’indexation) d’identifier des :
   •   Noms de personnes
   •   Noms d’organisation
   •   Lieux
   •   Dates
   •   Quantités
   •   Valeurs
   •   …

                                                                    15
Entités nommées
                                                Entité nommée 1
                                                       date

       La nouvelle a été annoncée dans un communiqué des deux chaînes: le
       président de la République est, jeudi 11 février, l'invité des JT de 20h de TF1
       et de France 2. Face à David Pujadas et de Gilles Bouleau, François Hollande
       connaît son sujet. En effet, depuis quelques années, les chaînes de télévision
       n'hésitent plus à solliciter les présidents de la République en fonction pour
Entité des émissions spéciales en Entité
       nommée                        première  partie de soirée. Entité nommée
                                          nommée
 Personne 3                       Personne 2
                                                                  Personne 3
     Ainsi, en novembre 2014, déjà sur TF1, dans En direct avec les Français,
     monsieur Hollande avait été sur le gril de la Une durant près de deux heures,
     faisant face aux journalistes et à un panel de Français, invité à poser des
     questions. Outre les annonces attendues, un moment avait marqué les
     esprits: l'interview du chef de l'État par Thierry Demaizière où des questions
   Entité nommée
     «personnelles»
     Personne 3
                       avaient été posées.

                                                                                  16
Le sémantique : lors de la phase de recherche
aussi…
                                          Suggestions

                           Corrections
                        orthographiques                 17
Ou encore…
                                          Expansion sémantique

                   Expansion sémantique

Désambiguïsation
                                                            18
Extraction de concepts

 Extraction de concepts

                          19
Des nouveaux usages
• Association de documents et ajout de liens d’un
  document vers un autre (citation, entités
  nommées commune, …)
• Similarité des documents (trouver des
  documents proches sémantiquement).
• Utilisation des statistiques sur les résultats
  obtenus (nuages de tags, analyse de la
  fréquence des concepts dans un document)

                                                    20
Notre implémentation
• Utilisation du moteur Cloudview de la société Exalead (Dassault System)
• Mise en place d’une recherche floue
• Mise en place de synonymes pour des formes retenues, des formes
  rejetées, associées au référentiel de la Bibliothèque (Molière-Poquelin)
• Analyse des requêtes des utilisateurs pour aider le moteur de recherche à
  trouver des documents pertinents (nom d’auteur, titre d’ouvrage, mot clés
  « journal de xxx »)… Travail en cours.
• Utilisation des entités nommées (extraites préalablement ou à la volée)…
  Travail en cours.

19/06/2017                  BnF Gallica (Bertrand - Moreux - Pillorget)       21
Analyse de l’usage des utilisateurs et mise en place
d’indicateurs de qualité des résultats
• Il est difficile de définir des indicateurs simples pour qualifier la qualité des
  résultats d’un moteur de recherche.
• Il en existe de nombreux (le plus simple étant le rang moyen choisi par un
  utilisateur après une requête).
• Ils nécessitent l’analyse des fichiers journaux (logs) des utilisateurs pour
  savoir si l’utilisateur a été satisfait de son résultat (parcours global, actions
  réalisées par l’utilisateur) etc. etc.
• Ces indicateurs doivent être suivis régulièrement et peuvent être, pour
  certains d’entre eux, être prédictifs.
• Ces indicateurs varient régulièrement (adaptation de la stratégie de
  recherche des utilisateurs).

19/06/2017                     BnF Gallica (Bertrand - Moreux - Pillorget)        22
Quand le chercheur
    apprivoise le moteur de
       recherche de Gallica

19/06/2017                    BnF Gallica (Bertrand - Moreux - Pillorget)   23
19/06/2017                                           24

 Quelques
 données
 d’usages

             BnF Gallica (Bertrand - Moreux - Pillorget)
A quoi ressemble un Gallicanaute en 2017 ?

19/06/2017      BnF Gallica (Bertrand - Moreux - Pillorget)   25
De l’usager-type aux usages multiples

19/06/2017               BnF Gallica (Bertrand - Moreux - Pillorget)   26
Le gallicanaute et le moteur de recherche :
             « je t’aime, moi non plus » ?

19/06/2017          BnF Gallica (Bertrand - Moreux - Pillorget)   27
Vidéo - ethnographie : l’exemple de Didier

19/06/2017       BnF Gallica (Bertrand - Moreux - Pillorget)   28
Moteur
 Le moteur,
et
 le OCR
    chercheur
 et l’OCR

                29
« L’OCRisation » et ses conséquences

                  Documents                     Recherche
                                                                      Résultats
OCR               numérisés                   d’information

Boîte
noire                                               Boîte noire

             ≈ 100 M de pages océrisées,
                                                                  ●    Présentation
                 50 milliards de mots
                                                                       essentiellement
                                                                       quantitative
                                                                  ●    Peu d’indicateurs
                                                                       qualité pour les
                             Influence de l’OCR ?                      usagers

19/06/2017                                                                      30
Dans la boîte noire
             de l’OCR…
19/06/2017                         31
… il y a des dictionnaires de langue

                                                  Premières
                                                 occurrences

                                       Bruit ?

                         è Confusion entre deux mots du lexique
19/06/2017                                                     32
… il y a des dictionnaires de langue
                                             1895                Recherche d’étymologie
   6                                                             http://gallica.bnf.fr/blog/20102016/a
                                                                 lain-rey-et-gallica-une-grande-
                                                                 histoire-de-mots

www.retronews.fr, graphe de fréquence : « gadget »
                                                               è Biais documentaire
                                                               è Biais de l’OCR
         letempsarchives.ch/recherche?q=apres%3A1900+gadget+   è Biais statistique
19/06/2017                                                                               33
(dictionnaires, suite)
                                                     Les moteurs OCR sont entraînés sur
                                                     une typographie moderne et utilisent
                                                     des dictionnaires de langue contemporains

« Arioste »          « anode »
Anti-Baillet, ou Critique du livre de M. Baillet
intitulé Jugemens des savans..., 1688

                                                   è Modernisation du lexique
19/06/2017                                                                               34
Et si l’on regardait les usages ?
                                                               • 80 % de requêtes sur des entités
                                                                 nommées (Pers, Geo, Œuvre)
                                                               • 50 % des mots erronés de l’OCR ne se
                                                                 trouvent pas dans les dictionnaires
                                                                 standard (corpus AMELIOCR)
                                                               • Erreurs surreprésentées sur les entités
                                                                 nommées
                                                               • Qualité perçue de l’OCR ¹ qualité
                                                                 réelle pour un usage donné
Répartition des 500 requêtes utilisateur les plus fréquentes
classées par type (gallica.bnf.fr, déc. 2015-mars 2016,
28 millions de requêtes)

Projet AMELIOCR, L3i La Rochelle/BnF
                                                                   è Biais cognitif
19/06/2017                                                                                              35
OCR 2.0
« Panama papers » : un défi technique pour le                    Les erreurs de reconnaissance
journalisme de données, Le Monde, 8 avril 2016 :                 OCR affectent les documents
« Malgré toutes ces fonctionnalités, nous nous sommes
                                                                 patrimoniaux mais aussi
heurtés à des limitations structurelles liées à la nature du     contemporains...
“leak”. De nombreux documents n’étant pas à l’origine sous
des formats lisibles par des machines (scans, images), ils
ont été passés à la moulinette d’un système de
reconnaissance de caractère (OCR) par l’ICIJ. Cette
technique, aussi performante soit-elle, fait courir le risque
de passer à côté de mots mal retranscrits, comme des
mentions manuscrites ou des scans de mauvaise qualité. »

                                                                è Biais de l’OCR
  19/06/2017                                                                                     36
« mi mineur », « la mineur » :
 Mais que fait le moteur ?                              Chris : « Si j’ai pris "mi mineur", c’est
                                                        que justement je me disais que c’est
                                                        une des notes, donc je n’aurai pas de
• Exclure les mots vides                        •   qu’est-ce q’unSimot
                                                        problème.             vide "la
                                                                        je prends  ? mineur", je
                                                        vais avoir plein d’ambiguïté… »
• Utiliser de la recherche floue                • où ? combien ? désactivable ?

• Utiliser de la recherche « exacte »           • exacte jusqu’à quel point ?

• Utiliser des opérateurs (et, ou, voisinage)   • recherche avancée

• Enrichir en entités nommées                   • rappel, précision, alignement

• Utiliser une approche de type « query         • qui parle ? les données, les algorithmes ?
  expansion » (synonymes, lemmes,
  flexions, modèle d’erreur OCR)
                                                • l’éditeur ?
• Editorialiser

 19/06/2017                                                                                         37
OCR et moteur : quelques pistes
• Prendre en compte les profils d’utilisateur
• Laisser l’utilisateur maître de sa requête
• Informer sur les biais

                           Dans les 500 requêtes les plus fréquentes :

                           • « Italie », « Baudelaire », « Aristote », « Le Petit Journal »…
                           • thapsia garganica
                           • Dictionnaire des parlementaires français, Les Nouvelles
                           littéraires, artistiques et scientifiques…

19/06/2017                 BnF Gallica (Bertrand - Moreux - Pillorget)                 38
Des utilisateurs
• Plusieurs profils clairement identifiés.
• Des pratiques différentes, des
  temps de session fortement hétérogènes

                   Modélisation des comportements
                          à partir des logs de Gallica,
                 Adrien Nouvellet, Télécom Paris-Tech

19/06/2017                            BnF Gallica (Bertrand - Moreux - Pillorget)   39
Croire en l’utilisateur
    • Les enquêtes d’usage montrent des utilisateurs autonomes et des pratiques inventives.
    • Certains utilisateurs connaissent l’existence de biais et en tiennent compte.
    • Certains sont prêts à utiliser des interfaces
                                                                                    cfregisters.org
      complexes pour des services avancés.

gallica.bnf.fr

    19/06/2017        demo.istex.fr   BnF Gallica (Bertrand - Moreux - Pillorget)             40
Informer : « Mais j’interroge quoi, en fait ? »
• Exemple pour la presse :
      • Faire connaître les choix documentaires
      • Faire connaître les périmètres et lacunes

                                                                                                     Corpus disponible / production éditoriale

  Journal des débats politiques et littéraires (1814-1944) :                                          è Représentativité
  lacunes de la collection numérique
19/06/2017                                             BnF Gallica (Bertrand - Moreux - Pillorget)
                                                                                                        des corpus    41
Quand le chercheur
coupe le moteur
de recherche

                     42
Couper le moteur ?
• Le moteur/portail est un mode d’accès aux contenus.
• C’est aussi un instrument historisé : politiques et
  programmes de numérisation, choix (et limites)
  techniques, design des interactions…
  qui propose une distance de lecture reflet des
  pratiques de l’époque de sa conception : la page
• Or aujourd’hui, les humanités numériques ont
  besoin d’une distance de lecture variable,
  du mot aux corpus massifs.

19/06/2017                BnF Gallica (Bertrand - Moreux - Pillorget)   43
Des distances de lecture…
Exemple pour les périodiques :
• généalogistes
• enseignants
• chercheurs (InfoCom, SH…)
•…

19/06/2017               BnF Gallica (Bertrand - Moreux - Pillorget)   44
Couper le moteur (1)
1. Donner aux chercheurs un accès direct
   aux données :
• Corpus prédéfinis
• Corpus à façon
• API d’accès aux données

                                            è Je règle ma distance de lecture

                                                                                45
19/06/2017                  BnF Gallica (Bertrand - Moreux - Pillorget)
Couper le moteur (1)
1. Donner aux chercheurs un accès direct
   aux données :
• Corpus prédéfinis
• Corpus à façon
• API d’accès aux données

                                                                          46
19/06/2017                  BnF Gallica (Bertrand - Moreux - Pillorget)
Accès direct au données : aujourd’hui
Demander ou réutiliser des corpus
                                                                     GRIPIC (Sciences de l’information et de
                                                                     la communication, CESR) : importance
                                                                     des fêtes de Noël pour la publicité
                                                                     dans la presse quotidienne

                                                                                 è Réutilisation du corpus
                                                                                  Europeana Newspapers
19/06/2017             BnF Gallica (Bertrand - Moreux - Pillorget)
Accès direct au données : aujourd’hui                                   Frédéric Glorieux,
                                                                 resultats.hypotheses.org

Utiliser les API   Hackathon BnF, 2016

19/06/2017         BnF Gallica (Bertrand - Moreux - Pillorget)
Accès direct au données : perspectives
« Gallica, donne-moi les feuilletons littéraires de la presse
quotidienne, 1830-1900 »

                          « mon corpus »

                                                                        49
19/06/2017                BnF Gallica (Bertrand - Moreux - Pillorget)
Alternative au moteur (2)
2. Construire son propre moteur :
• Appliquer des traitements personnalisés
  sur des données locales (à la BN)
• Notamment pour les corpus sous-droits :
  archives du web, dépôt légal numérique
  (presse, livre numérique)

                        è Laboratoire DH virtuel                       50
19/06/2017               BnF Gallica (Bertrand - Moreux - Pillorget)
Redémarrer le moteur (avec des données enrichies)
3. La granularité des données a une influence directe
sur les distances de lecture à disposition :
• genres littéraires structurés (théâtre, poésie)
• autres genres fortement structurés (dictionnaires)
• genres composites (presse, revues)
• autres objets informationnels
 (illustrations)
                                                           è Ma distance de lecture nécessite
                                                          une granularité des données spécifique
                                                                                           51
19/06/2017                 BnF Gallica (Bertrand - Moreux - Pillorget)
Entrer dans la page
« La création de la chronique boursière, 1800-1870 »

                                                                                         OLR

                        ici…

                            et là                                            è Mon grain de donnée
                                                                                   = article
                                                                                               52
19/06/2017                     BnF Gallica (Bertrand - Moreux - Pillorget)
Entrer dans la page
Dictionnaires (biographiques, de langue)

                        ici…                                                    è Mon grain de donnée
                                                                             = entrée dans la nomenclature

                            et là
                                                                                                 53
19/06/2017                     BnF Gallica (Bertrand - Moreux - Pillorget)
Des données enrichies pour tous !

L’enrichissement profite :
• au moteur : entités nommées, mode article
• aux API : OAI-PHM, IIIF peuvent véhiculer
les informations de structure logique
• aux corpus mis à disposition de la recherche : les
enrichissement sont portés par l’OCR (ALTO) et
les manifestes des documents numériques (METS)

                                                                         54
19/06/2017                 BnF Gallica (Bertrand - Moreux - Pillorget)
Accès direct au données : perspectives
« Gallica, donne-moi un corpus iconographique, je veux étudier
la représentation des femmes dans les média visuels entre 1910
et 1920 »

             Demander un    Appliquer de la
                                                                 Analyser les genres
             corpus icono   reconnaissance
                                                                    représentés
               à la BnF         faciale

                                                                                       55
19/06/2017                   BnF Gallica (Bertrand - Moreux - Pillorget)
Accès direct au données : perspectives
« Gallica, donne-moi un corpus iconographique, je veux étudier
la représentation des femmes entre 1910 et 1920 »

        Nouveau paradigme :
        • « Je sélectionne des documents avec l’API SRU »
        • « J’utilise l’APIun
               Demander     IIIF Presentation
                                       Appliquerpour
                                                  de laextraire les illustrations
                                                             Analyser les genres
        référencées     dans
              corpus icono  à lales manifestes  des documentsreprésentés
                                       reconnaissance             »
                     BnF                   faciale
        • « J’analyse les images »
        • « J’accède à l’OCR si besoin avec l’API IIIF Presentation »
        •…
                                                                                     56
19/06/2017                             BnF Gallica (Bertrand - Moreux - Pillorget)
19/06/2017                                           57

             BnF Gallica (Bertrand - Moreux - Pillorget)
Accès direct au données : perspectives
      « Je m’intéresse à l’histoire de l’imprimerie (1800-1950), les
      métadonnées quantitatives des périodiques sont dans Gallica »

              Nouveau paradigme :                         plan de l’Exposition
                                                                                 grand format,
                                                          universelle de 1889
              • « Je sélectionne des documents avec l’API SRU »                6 colonnes (1896)

              • « J’utilise les API Gallica et l’API IIIF Presentation
                 pour extraire les métadonnées »
              grand
             in-folio
              • « J’accède à l’OCR         si besoin avec l’API IIIF Presentation »
                                courrier commercial,
                                loi sur la presse de 1851
              •…                (droit de timbre)                                           juillet 1914   sept. 1939

                                                                                                                  58
19/06/2017
Humanités et bibliothèques numériques
De plus en plus de données ouvertes
Des modes d’accès diversifiés
Des programmes de numérisation et des formats
techniques de + en + complexes

             è Les BN sont appelées à devenir centre de ressources
                       pour les humanités numériques

                                                                           59
19/06/2017                   BnF Gallica (Bertrand - Moreux - Pillorget)
Pourquoi ?

• Un manifeste de fascicule de presse = 50 Mo de XML
(METS/MODS/PREMIS/Dublin Core)
• OCR à la BnF : 15 ans de pratiques variables, plusieurs versions, des
enrichissements (ou pas). Note : les pratiques de numérisation sont
peu documentées dans les formats.
• API Gallica, catalogue, data.bnf : plusieurs chemins…
certains plus longs que d’autres

                                                                         èVous ne me l’aviez pas dit !
                                                                         è Je réinvente la roue 60
19/06/2017                 BnF Gallica (Bertrand - Moreux - Pillorget)
Car les formats techniques sont silencieux…

• ALTO permet de décrire le tiret de césure.
                         • Corpus
• ALTO v3 permet de décrire   des entités nommées.
                         • Infrastructure technique
• L’OCR peut être entraîné  pour convertir le s long ſ en s rond
                         • Conseil
• L’OCR peut être corrigé•(globalement,
                           Formation       sur certaines zones)

                               è Espace
                          Humanités numériques                            61
19/06/2017                  BnF Gallica (Bertrand - Moreux - Pillorget)
Conclusion

19/06/2017   BnF Gallica (Bertrand - Moreux - Pillorget)   62
Vous pouvez aussi lire