Autopsie d'un commentaire : étude des métadonnées produites par le grand public dans le secteur culturel / Autopsy of a Comment: A Study of ...

La page est créée Jean-Francois Leger

Voyages

Français

Like
Partager
Intégrer
Plein écran
Diapositives
Télécharger HTML
Télécharger PDF
Abus

←

CONTINUER À LIRE

→

Transcription du contenu de la page

Si votre navigateur ne rend pas la page correctement, lisez s'il vous plaît le contenu de la page ci-dessous

Autopsie d’un commentaire : étude des métadonnées
   produites par le grand public dans le secteur culturel /
   Autopsy of a Comment: A Study of Metadata Produced by the
   Public in the Cultural Sector

   Anne Chardonnens, Seth van Hooland

   Canadian Journal of Information and Library Science, Volume 41, Numbers
   1-2, March-June/mars-juin 2017, pp. 52-69 (Article)

   Published by University of Toronto Press

        For additional information about this article
        https://muse.jhu.edu/article/666449

[ Access provided at 20 Feb 2022 09:42 GMT with no institutional affiliation ]

Autopsie d’un                                   Autopsy of a
commentaire : étude                            Comment: A Study
des métadonnées                               of Metadata
produites par le grand                          Produced by the
public dans le secteur                          Public in the Cultural
culturel                                        Sector

Anne Chardonnens
Doctorante en Sciences et technologies de l’information et de la communication,
Université libre de Bruxelles
anchardo@ulb.ac.be
Seth van Hooland
Chargé de cours et président de la filière des Sciences et technologies de l’informa-
tion et de la communication, Université libre de Bruxelles

Résumé : En dépit de l’attention portée au phénomène du crowdsourcing dans un
contexte documentaire, peu d’études proposent une analyse empirique des com-
mentaires publiés par le grand public. Par le biais de trois études de cas, cet article
vise à observer l’influence qu’exerce le contexte de publication sur le contenu de
ces commentaires. Les résultats dévoilent les caractéristiques de ces commentaires,
permettant ainsi au secteur culturel de mieux cerner les possibilités et limites du
crowdsourcing.
Mots-clés : crowdsourcing, métadonnées, commentaire, étude de cas.
Abstract: Despite the attention paid to the phenomenon of crowdsourcing in a
library context, few studies offer an empirical analysis of comments published by the
public. Through three case studies, this article aims to observe the influence of the
publication context on the content of comments. The results reveal the characteristics
of these comments, thus providing a better understanding of the possibilities and
limitations of crowdsourcing for the cultural sector.
Keywords: crowdsourcing, metadata, comment, case study.

Introduction
Si le tournant du siècle a représenté un âge d’or pour les métadonnées et des
schémas de métadonnées ont été développés pour un grand nombre de domaines
d’application, l’effervescence est depuis retombée (van Hooland et Verborgh
2014). Il est apparu que la création et la gestion de métadonnées représentent
un investissement considérable en matière de ressources humaines. En outre,
les sources de financement ont commencé à se tarir, à l’instar des programmes
de financement de la Commission européenne qui ne financent plus la création

8 2017 The Canadian Journal of Information and Library Science
La Revue canadienne des sciences de l’information et de bibliothéconomie 41, no. 1–2 2017

Étude des métadonnées produites par le grand public dans le secteur culturel    53

de métadonnées depuis 2008 (van Hooland, Vandooren et M. Méndez Rodrı́guez
2011). Cette tendance, ainsi que le colossal volume de données à traiter, pousse
les bibliothèques, archives et musées à adopter une attitude plus pragmatique,
notamment en se tournant vers leurs communautés d’utilisateurs et en dévelop-
pant des projets de crowdsourcing.
     Le crowdsourcing est un néologisme ayant émergé en 2006, sous l’impulsion
de Jeff Howe (Howe 2006). Le terme possède de multiples définitions (Estellés-
Arolas et González-Ladrón de Guevara 2012) et est applicable à de nombreux
domaines. Dans le cadre de cet article, nous nous référons à cette définition
reposant sur quatre éléments :
 Une organisation, qui a une tâche devant être effectuée.
 Une communauté (la foule), qui est prête à effectuer cette tâche de façon
  volontaire.
 Un environnement en ligne, qui rend possible le travail devant être effectué et
  permet à la communauté d’interagir avec l’organisation.
 Un bénéfice mutuel pour l’organisation et la communauté (Brabham 2013).

     Ce concept de « production participative1 » appliqué au secteur culturel ne
fait cependant pas l’unanimité. Bats (2015) attire l’attention sur le fait que « la
participation suscite autant de questionnements légitimes, que d’enthousiasme »
(10). Andro et Saleh (2014) constatent qu’au vu de l’important travail de contrôle,
de modération et de correction qu’il exige, le crowdsourcing pourrait finalement
ne représenter « ni une économie de moyens ni une optimisation de résultats »
(5). Après plus d’une décennie d’expérimentations et d’implémentations réelles à
large échelle, il s’avère donc opportun d’analyser de façon empirique les fruits de
ces projets.
     L’exploration d’échantillons statistiquement représentatifs de commentaires
produits par le grand public permet d’analyser leur contenu et de tirer des ensei-
gnements sur les possibilités et limites du crowdsourcing dans un contexte docu-
mentaire. Notre étude, qui s’inscrit dans la continuité d’une première étude de
cas réalisée en 2006 (van Hooland 2006), vise à observer s’il existe un lien entre
les commentaires produits par le grand public et le contexte de publication. Une
analyse comparative basée sur trois études de cas permet d’observer si la taille du
corpus soumis aux commentaires a un impact sur les commentaires.
     Cet article est construit de la manière suivante : la première section est con-
sacrée au survol de la littérature, vient ensuite la présentation de la question de
recherche et de la méthode utilisée. Le cœur de l’article propose une vue synthé-
tique des résultats obtenus. Enfin, la conclusion vise à approfondir la notion de
qualité des métadonnées.

État de l’art
Depuis plus de dix ans maintenant, le crowdsourcing est au cœur d’initiatives
axées autour du patrimoine culturel. Il se décline de diverses façons. Afin de
circonscrire le phénomène, diverses typologies propres au secteur culturel ont

54     CJILS / RCSIB 41, no. 1–2 2017

vu le jour. Ces dernières décrivent les types de tâches pour lesquelles la partici-
pation du grand public a été sollicitée. Ridge (2014) recense ainsi le tagging,
l’identification de documents iconographiques, la transcription collaborative, la
correction ou modification de contenus, l’enregistrement et la création de conte-
nus, la publication de commentaires, la catégorisation, le géoréférencement, la
« co-curation » et enfin la synthèse de nouvelles informations. La typologie de
Dunn et Hedges (2013) englobe le même type de tâches2, ainsi que l’indexation
collaborative, la contextualisation, la spatialisation de l’information et la traduction.
      Cet article se concentre uniquement sur deux de ces catégories : l’identifi-
cation de documents iconographiques et la publication de commentaires3. Or,
force est de constater que peu d’études empiriques portent sur les descriptions
de ressources patrimoniales par la communauté d’internautes.
      En 2006, nous avions réalisé une première analyse sur les métadonnées
générées par les utilisateurs (van Hooland 2006). Un échantillon de 355 com-
mentaires, issu d’un projet mené par les Archives nationales des Pays-Bas4, avait
permis d’aboutir à une typologie composée de six catégories non exclusives : cor-
rection de métadonnées préexistantes (46 %) ; ajout de détails narratifs à l’image
(31 %) ; partage d’anecdotes personnelles (9 %) ; mention d’une mauvaise mise
à disposition de l’image (3 %) ; expression d’une opinion ou d’un jugement
(1 %) ; interaction avec l’institution ou d’autres utilisateurs par le biais de ques-
tions (1 %). Afin de mesurer la qualité de ces métadonnées, nous avions utilisé
la définition de la qualité de l’information proposée au sein de la norme ISO
9000:2005 « Systèmes de management de la qualité – Principes essentiels et
vocabulaire » (International Organization for Standardization 2005). Cette défi-
nition repose sur le concept de fitness for purpose : une information est estimée
de qualité si elle répond à un besoin. Notre étude visait à évaluer la pertinence
des commentaires par rapport aux besoins de la communauté. Il s’agissait de
confronter les commentaires avec des requêtes saisies par les utilisateurs au sein
du moteur de recherches. Il est apparu que les termes spécifiques sont privilégiés,
que peu de termes génériques sont utilisés et quasiment aucune notion abstraite,
tant dans les commentaires que parmi les requêtes des utilisateurs. Le contenu
des commentaires coı̈ncide donc avec le type de recherches menées par la com-
munauté d’utilisateurs. Le présent article a pour but d’approfondir cette pre-
mière étude de cas en analysant davantage de commentaires, en multipliant les
critères d’observation et en confrontant les données issues de corpus variés. Pour
des raisons essentiellement pratiques, l’analyse actuelle se cantonnera à l’explora-
tion des commentaires, sans que ces derniers soient confrontés aux requêtes des
utilisateurs.
      En janvier 2008, la Library of Congress américaine a participé au lancement
du projet The Flickr Commons5 en mettant en ligne plus de 3 000 photographies
d’archives. Un rapport est publié dans les mois qui suivent. Springer et coll.
(2008) tirent un bilan positif de ce projet pilote et relatent les multiples retombées
positives qui ont suivi. Concernant les commentaires, ils notent que ceux-ci
permettent aux personnes regardant les images de se remémorer des souvenirs,
de partager des informations, de faire des liens entre passé et présent, d’identifier

Étude des métadonnées produites par le grand public dans le secteur culturel       55

certains emplacements de façon très précise ou encore d’augmenter leur appro-
priation du contenu. Enfin, ils précisent que sur plus de 7 000 commentaires,
seuls 25 commentaires ont été jugés inappropriés et ont donc été effacés.
      Peu après, Trant (2009) publie les résultats obtenus dans le cadre du projet
Steve Museum, qui porte sur l’usage du social tagging dans le contexte muséal.
Ce projet visait à identifier les types de termes qui sont utiles à d’autres ainsi
que la façon dont les tags peuvent être validés : validation statistique automatique
selon la récurrence du terme ou opération manuelle effectuée par le personnel
qualifié. Les membres du project ont également comparé les métadonnées rédigées
par des professionnels avec celles qui sont produites par le grand public dans le
cadre de projets de crowdsourcing. Ils parviennent à la conclusion que la majorité
des tags produits par le grand public ne correspond pas aux tags encodés par le
personnel des musées, mais qu’elle offre cependant une bonne représentation du
rapport des individus aux collections. Enfin, il apparaı̂t que seule une minorité
d’utilisateurs a contribué à la majorité du contenu produit et qu’une grande
majorité des utilisateurs n’a participé qu’à une seule session de tagging.
      Pour leur part, Ridge (2011), Flanagan et Carini (2012) se sont intéressés
aux tags produits dans le cadre de projets mêlant patrimoine, gamification et
crowdsourcing. Flanagan codirige une plateforme de jeu en ligne6 qui vise à
aider les institutions culturelles dans l’enrichissement des métadonnées de leurs
archives numérisées. Elle a remarqué qu’une expérience ludique conduit certains
joueurs qui n’étaient initialement pas attirés par le patrimoine culturel à s’y in-
téresser davantage et à approfondir leur lien avec les collections et l’institution
concernées. Quant à Ridge, elle adopte une démarche à la fois théorique et em-
pirique, en vue de déterminer s’il est possible de concevoir des formes de jeux
permettant de créer des métadonnées plus complexes que de simples tags. Cons-
tatant que certains artéfacts sont plus difficiles à identifier que d’autres, elle
imagine des alternatives aux tags pour les décrire. Elle conçoit ainsi un modèle
de jeu expérimental, visant à la création de formes plus complexes de contenus.
Cette expérience se conclut sur un résultat mitigé : elle constate qu’il n’existe
encore aucun modèle de validation qualitative des réponses qui permettrait de
gérer des données plus complexes que des dates.
      Plus récemment, Earle (2014) a analysé un échantillon de 1 000 tags et
commentaires publiés sur The Flickr Commons. En se basant sur des critères
d’analyse obtenus dans le cadre d’interviews réalisées auprès du personnel de
musées et bibliothèques (searchability ; quantity ; accuracy ; depth ; new informa-
tion; exposure), il aboutit à une typologie composée de dix catégories d’utilisa-
teurs : hobbyists; experts ; specialists; geocoders ; proofers; uniformists ; promoters ;
remixers ; narrators ; oddities. Il parvient ensuite à identifier les groupes d’utilisa-
teurs les plus à même de produire les métadonnées jugées utiles par le personnel
des institutions. Ainsi, le groupe des experts est par exemple très performant
pour l’ensemble des critères, mais peu performant en matière de quantité et de
mise en avant des collections.
      Ce bref survol de la littérature montre que le crowdsourcing est un phéno-
mène qui se décline de nombreuses façons au sein du secteur culturel, comme le

56     CJILS / RCSIB 41, no. 1–2 2017

prouvent de nombreuses typologies. En revanche, il apparaı̂t que peu de cher-
cheurs se sont attelés à l’analyse empirique d’un nombre significatif de com-
mentaires produits par le grand public. Le présent article vise à affiner ce type
d’analyse en recourant à plusieurs études de cas.

Méthodologie
Cette étude repose sur l’analyse de commentaires publiés par le grand public
dans le cadre de projets de crowdsourcing menés en milieu documentaire. Elle
vise à observer s’il existe un lien entre commentaires et contexte de publication.
La méthode de recherche est basée sur l’étude de cas, qui permet d’analyser
le phénomène du crowdsourcing en situation réelle, en vue d’aboutir à des con-
clusions généralisables (Albarello 2011). Afin d’augmenter les possibilités d’extrap-
olation des résultats et d’examiner de potentielles variations liées à un critère
donné, trois cas ont été sélectionnés. En effet, comme l’a montré Flyvbjerg
(2006), le recours à des cas se démarquant de façon significative au niveau d’un
critère donné (tel que la taille d’une organisation ou son emplacement géogra-
phique) permet d’évaluer l’importance de ce dernier.
      Le choix des cas a été guidé par le type d’informations recherchées. Il s’agis-
sait de trouver des dispositifs de crowdsourcing mis en ligne par des musées, des
archives ou des bibliothèques, présentant des corpus de documents iconographi-
ques destinés à être commentés par le grand public. Il était également nécessaire
de trouver des commentaires rédigés en français ou en anglais, afin qu’ils puis-
sent être lus et analysés par l’auteur dans leur langue originale. De plus, l’inté-
gralité des commentaires publiés à un temps t devait pouvoir être collectée à
l’aide de processus manuels ou semi-automatisés. Enfin, chaque cas devait se
caractériser par une taille de corpus sensiblement différente, afin qu’il soit possible
d’évaluer s’il existe un lien entre les commentaires produits et l’ampleur du projet.
      Trois cas remplissant l’ensemble des critères ont été retenus. Il s’agit de
projets implémentés par des institutions culturelles de France, d’Angleterre et
d’Australie :
 Les Archives départementales de Vendée (AV) proposent au sein d’une plate-
  forme interne à leur site web7 d’identifier des scènes, des personnages ou
  des événements, dans le cadre d’un nombre limité d’« enquêtes ». Les billets
  publiés sur la plateforme présentent des images n’ayant pas encore été docu-
  mentées, sous forme d’énigmes à résoudre collectivement à l’aide de la section
  « commentaires ». Lorsque des commentaires ont permis d’identifier les élé-
  ments qui faisaient défaut, un représentant des archives déclare alors que le
  billet est « clos », bien que sa consultation reste possible.
 Le Powerhouse Museum (PM) est situé à Sydney et figure parmi les plus
  grands musées d’Australie. Il s’agit du premier musée qui a mis en ligne une
  partie de ses collections sur The Flickr Commons8. Chacun peut voir, diffuser,
  télécharger ou encore réutiliser ces images, et tout utilisateur inscrit sur Flickr
  peut enrichir les métadonnées en commentant, taguant ou géolocalisant les
  photographies.

Étude des métadonnées produites par le grand public dans le secteur culturel                57

 L’English Heritage (EH) est l’organe du gouvernement britannique chargé
   de la gestion du patrimoine historique du pays. Il est à l’origine d’un projet
   de conservation, numérisation et valorisation intitulé Britain from Above. Ce
   projet porte sur une collection de photographies aériennes dépassant le million
   de négatifs et comptant plus de 2 000 albums : The Aerofilms Collection.
   Depuis 2012, une plateforme web dédiée9 invite chaque utilisateur inscrit à
   taguer, commenter ou géolocaliser l’une des 95 000 photographies aériennes
   numérisées (datant de 1919 à 1953).

Tableau 1 Vue d’ensemble des trois études de cas

Archives départ. de Vendée       Powerhouse Museum             English Heritage

Archives : photos de personnes     Archives : fonds de photos    Archives : photos aériennes
et événements se déroulant en   portant sur Sidney et ses     de la Grande-Bretagne, prises
Vendée                            environs                      entre 1919 et 1953
Plateforme interne (2011)          Plateforme externe            Plateforme externe dédiée
                                   préexistante (2008)          (2012)
36 images                          2 527 images                  95 551 images
217 commentaires                   3 685 commentaires            16 216 images
86,1 % des images sont             20,7 % des images sont com-   5,8 % des images sont
commentées                        mentées                      commentées

Collecte des données
La collecte des données a été effectué entre novembre 2014 et février 2015. L’in-
tégralité des commentaires publiés au sein de chaque dispositif a été collectée10.
Trois types d’extraction de données ont dû être utilisés :
 Extraction manuelle pour l’AV
  En raison de la taille restreinte du corpus et de la structure du dispositif des
  AV, la collecte a été réalisée manuellement. L’agencement est similaire à celui
  d’un blogue : des « billets » présentent des contenus iconographiques à iden-
  tifier, les commentaires sont affichés en bas de page, en suivant un ordre chro-
  nologique. Toutes les pages ont été visitées de façon systématique entre le 26
  novembre et le 4 décembre 2014, afin de copier dans un tableur Excel le texte
  et l’auteur de tous les commentaires présents sur le dispositif. Le corpus
  compte 217 commentaires, publiés entre le 21 juin 2011 et le 7 novembre
  2014.
 API Flickr pour le PM
  Le Powerhouse Museum ayant investi The Flickr Commons, il est possible de
  recourir à l’API (Application Programming Interface) Flickr pour automatiser
  la collecte de données. Un script Python11 a permis de lancer des « appels » à
  cette API afin d’extraire dans un fichier XML toutes les données utiles. Les
  données ont été extraites le 18 janvier 2015. Elles ont ensuite été nettoyées à
  l’aide du logiciel OpenRefine (suppression de doublons et cellules). Le corpus
  compte 3 685 commentaires, publiés entre le 8 avril 2008 et le 17 janvier
  2015.

58       CJILS / RCSIB 41, no. 1–2 2017

 Data scraping pour l’EH
     Vu que le dispositif mis en place par l’EH ne proposait pas d’API, il a fallu
     recourir au data scraping. Un script a permis d’automatiser la répétition
     d’une série d’actions (visite d’une page, clic sur un hyperlien, copie de texte)
     sur des milliers de pages web, en vue d’extraire des zones de textes dans un
     fichier XML. Les données ont été extraites à l’aide du logiciel OutWib Hub
     Pro entre le 2 et 5 février 2015. Le corpus compte 16 216 commentaires,
     publiés entre le 17 mai 2012 et le 4 février 2015.

Analyse
L’analyse est composée de deux volets. Dans un premier temps, les commentaires
sont abordés dans leur ensemble : nombre de commentaires et de contributeurs,
pourcentages d’images commentées, longueur des commentaires, nombre maximal
de commentaires par image ou encore nombre maximal de commentaires publiés
par le même utilisateur. Cette analyse est effectuée à l’aide d’un tableur Excel et de
ses fonctionnalités de base (calcul de somme, soustractions, divisions, moyennes
et pourcentages).
     Dans un second temps, la constitution d’échantillons permet d’analyser le
contenu des commentaires. La taille des échantillons est calculée en utilisant un
niveau de confiance de 95 % et un intervalle de confiance de 5 %. Le nombre
total de commentaires par corpus est ensuite divisé par la somme obtenue. En
partant du quotient résultant, une entrée est ensuite sélectionnée à intervalle
régulier12 afin d’obtenir un échantillon représentatif. Cette opération est effectuée
manuellement pour les deux premiers corpus et automatisée à l’aide d’un script
PowerShell pour le troisième corpus. Au terme du processus, les échantillons
sont composés de 145 commentaires pour les AV, 370 pour le PM et 377
pour l’EH, soit un total de 892 commentaires.
     Ces échantillons sont ensuite examinés à l’aide d’une grille d’analyse. Le but
est d’identifier les caractéristiques les plus récurrentes. La grille d’analyse, inspirée
d’une première étude que nous avions menée en 200613, est enrichie et ajustée
lors d’une première phase de test sur les 80 premiers commentaires de chaque
échantillon. Au terme de cette étape, la grille est composée de six catégories
non exclusives :
(A)    Apports personnels
(B)    Langage
(C)    Justification
(D)    Interactions humaines
(E)    Information
(F)    Méta-information
     Chaque catégorie est détaillée par le biais de sous-catégories (cf. tableau 2).
La phase d’analyse consiste à examiner chaque commentaire et à indiquer dans
un tableur Excel s’il contient ou non chacun des paramètres retenus.
     Il est cependant essentiel de garder à l’esprit que le choix des paramètres
ainsi que l’analyse en tant que telle sont empreints d’une certaine subjectivité.

Étude des métadonnées produites par le grand public dans le secteur culturel            59

En effet, les données liées au patrimoine culturel sont empiriques et non déter-
ministes, elles sont donc, par essence, sujettes à interprétation dans le temps et
l’espace (Boydens et van Hooland 2011).

Tableau 2 Vue d’ensemble de la grille d’analyse

CATÉGORIES                         SOUS-CATÉGORIES

A. Apports personnels               Appréciations subjectives
                                    Avis personnels
                                    Anecdotes personnelles
B. Langage                          Jargon
                                    Fonction phatique
C. Justification                    Sources externes
                                    Contenu du document
                                    Situation actuelle
                                    Statut personnel
D. Interactions humaines            Interpellations
                                    Demandes d’avis
                                    Corrections / Réponses
E. Information                      Descriptive
                                    Sur le lieu
                                    Sur les individus
                                    Sur le contexte
                                    Sur la date
F. Méta-information                Sur le document
                                    Sur la plateforme web

Résultats

Tableau 3 : Vue d’ensemble des commentaires des trois études de cas
            (AV : Archives de Vendée ; PM : Powerhouse Museum ; EH : English Heritage)

                                                                 AV       PM         EH

Taille échantillon                                              145      370        377
Nbre total de commentaires                                       217      3 685      16 216
Pourcent. d’images commentées (total)                           86,1 %   20,7 %     5,8 %
Moyenne de caractères par comm. (total)                         562      217        139
Pourcent. de comm. composés d’un seul mot / échantillon        0,7 %    72 %       24 %
Nbre de comm. en moyenne par image commentée                    8,3      7,1        1,6
Nbre maximal de comm. par image                                  31       318        77
Nbre total de contributeurs                                      56       1 974      3 109
Nbre maximal de comm. du même utilisateur                       47       463        3 153
Pourcent. de contributeurs uniques / total de contributeurs      32,1 %   82,8 %     56,4 %
Pourcent. de comm. publiés par contributeurs uniques            8,2 %    44,3 %     10,8 %

60     CJILS / RCSIB 41, no. 1–2 2017

Vue d’ensemble
Les commentaires considérés dans leur ensemble permettent de relever quelques
grandes tendances. Premièrement, il est intéressant de confronter le pourcentage
d’images commentées avec la taille du corpus : il apparaı̂t clairement que moins
il y a d’images, plus la proportion d’images commentées sera importante. Il faut
toutefois noter que ce pourcentage peut également s’expliquer par le type de
sujet présenté sur les documents ou le type de relation établie entre l’institution
et son public en ligne.
      Deuxièmement, la moyenne du nombre de caractères par commentaire14
est un bon indicateur du type de contributions que produit un utilisateur
lambda pour chacun des corpus. Ainsi, la taille modeste du premier cas semble
favoriser des descriptions plus étoffées, tandis que le troisième, plus imposant,
est le plus en retrait pour ce critère-là (AV : 562, PM : 217 et EH : 139).
      Troisièmement, la proportion de mots isolés par échantillon (par opposition
à des phrases construites) est également interpellante. Les AV se démarquent
radicalement des deux autres cas, avec 144 « phrases construites » versus un seul
commentaire constitué de mots isolés. Le fait que les utilisateurs soient invités à
contribuer à des enquêtes favorise sans doute des formes d’expression écrite plus
élaborées. Les commentaires formés de mots isolés atteignent plus de 40 % de
l’échantillon du PM.
      Les résultats les plus frappants concernent le nombre maximal de commen-
taires rédigés par le même utilisateur. Les sommes très élevées attestent la prés-
ence de « super contributeurs », qui rédigent parfois jusqu’à plus d’un cinquième
des commentaires publiés. Sachant qu’ils sont souvent plusieurs à se partager ce
statut, ces nombres pourraient conduire à relativiser le succès de ces projets.
      D’autres statistiques concernent l’antithèse du « super contributeur », c’est-
à-dire l’utilisateur de passage, qui ne va publier un commentaire qu’une seule et
unique fois. Pour les AV, ce profil représente un peu plus d’un tiers du total des
contributeurs, pour l’EH, plus de la moitié des contributeurs, et plus de quatre
utilisateurs sur cinq pour le PM. Cela révèle la spécificité des plateformes : celle
des AV favorise une participation plus assidue, alors que celle du PM est davan-
tage un lieu de passage. L’EH combine ces deux types de participants de façon
plus ou moins équivalente. Ces premières données ont permis de calculer le taux
de commentaires publiés par ces contributeurs uniques : 8,2 % (AV), 44,3 %
(PM) et 10 % (EH).
      Ces données statistiques permettent de préciser le profil des dispositifs de
crowdsourcing. Le projet des AV, avec son plus petit corpus de documents, sa
dimension d’« enquête » et sa plateforme interne à son site web, favorise la fidé-
lité des contributeurs et la publication de longs commentaires, qui portent sur
près de 90 % des images. Le PM, qui met en ligne ses images sur The Flickr
Commons, se démarque par son taux très élevé de contributeurs uniques. Enfin,
la plateforme dédiée de l’EH présente un corpus d’une telle ampleur que seule
une faible proportion d’images a fait l’objet de commentaires, qui sont par
ailleurs très succincts.

Étude des métadonnées produites par le grand public dans le secteur culturel             61

Analyse du contenu
Dans un souci de concision, seuls les résultats les plus marquants de l’analyse sont
commentés. Par ailleurs, chaque catégorie est introduite par un exemple issu de
l’un des trois échantillons de commentaires.

A. Apports personnels
     « My (maternal) grandsparents lived at No 1 Park Lane which was then a ham shop.
     After the start of WWII hams we [sic] not available so they turned the shop into bar
     (and as Steve Gregory as already mentioned, the fountain was removed). In 1946
     (approx.) the film So Well Remembered was made in and around Park Green, and
     my grandparents provided tea and cakes to the star John Mills and his wife Mary. »

Figure 1 : Apports personnels, résultats exprimés sous forme de pourcentages.

     Le pourcentage très élevé (50 %) d’appréciations subjectives correspondant
aux données du PM se démarque très nettement des deux autres pourcentages
(2 % et 4 % pour le premier et troisième cas) et laisse penser que le facteur le
plus influent n’est pas ici la taille de l’ensemble du projet, mais le type de plate-
forme d’accueil, à savoir Flickr. Le « public » n’y est sans doute pas le même et
l’atmosphère moins formelle. Dans les trois cas, le pourcentage de commentaires
contenant des anecdotes personnelles atteint moins de 10 %. Si le web reste un
espace privilégié pour recueillir des témoignages, ces faibles résultats font toute-
fois relativiser le poids de cet argument.

B. Langage
     « ‘Andula’ Built at Bartrams/launched 16.12.48 id 5501697.Reg owner. Soc Geral De
     Comercio Industria @ Transportes. Her Flag.PRT.Lisbon. In collision with, ‘Statue of
     Liberty’) a Tanker, 8.6.65. Sank 9.6.65 while under tow Lisbon-Casablanca. »

62 CJILS / RCSIB 41, no. 1–2 2017

Figure 2 : Langage, résultats exprimés sous forme de pourcentages.

Dans l’ensemble, la présence de jargon dans les commentaires est assez faible,
atteignant moins de 10 % pour chacun des cas. À nouveau, la distribution des
pourcentages ne correspond pas à une logique liée à la taille des projets, vu que
le PM ne compte que 3 % de commentaires composés d’une terminologie spéci-
fique, alors que les deux autres cas en comptabilisent environ 8 %. Ce mince écart
pourrait dériver du fait que les deux autres plateformes drainent un public plus
ciblé, qui possède peut-être une plus grande expertise.
Des traces de la fonction phatique15 sont présentes dans plus de 25 % des
commentaires, et ce, quel que soit l’échantillon de données : ce pourcentage
reflète le ton courtois avec lequel s’exprime une certaine frange des utilisateurs,
tandis que les autres se cantonnent à un style beaucoup plus impersonnel.

C. Justiﬁcation
« According to David Miller in ‘‘Charles Kerry’s Federation Australia’’ ISBN
0908197330. These photographs, taken from a high viewpoint, were made by Willen
van der Valden firstly for a commission Kerry had to document the streets of Sydney for
the Australian Town and Country Journal. He used a wide angle lens and perched on
top of a mobile tower. Ref P. 20 »
En matière de justification basée sur des sources externes, le pourcentage
très élevé correspondant au premier cas retient l’attention (près de 55 %, alors
que l’on se situe sous les 20 % pour le PM et l’EH). Cette fois-ci, la taille
du projet est bien l’un des facteurs pouvant expliquer ce résultat. En effet, le
nombre restreint d’enquêtes « ouvertes » au même moment (par rapport aux
95 000 images mises en ligne par l’EH, par exemple) permet de concentrer le
travail de recherche sur quelques cas et d’approfondir l’investigation en utilisant
des informations issues de sources externes. D’autre part, il est important de

Étude des métadonnées produites par le grand public dans le secteur culturel                63

Figure 3 : Justification, résultats exprimés sous forme de pourcentages.

souligner une particularité observée au sein du dispositif des AV : si une nouvelle
information stratégique n’est pas justifiée par une source externe, l’une des per-
sonnes administrant le projet demande alors à l’utilisateur de citer ses sources.
     En ce qui concerne des métadonnées qui seraient basées sur le statut parti-
culier du contributeur, les résultats font écho au nombre assez faible d’anecdotes
personnelles. Il est interpellant de constater que moins de 5 % des commentaires
de l’échantillon s’appuient sur le statut ou vécu particulier d’une personne.16

D. Interactions humaines
     « Bonjour, je crois qu’il y a un problème avec l’hypothèse Souzy : avez-vous bien vérifié
     qu’il était amiral ? (Peu probable : il n’était promu capitaine de vaisseau qu’en 1876). Il
     ne figure nulle part comme tel... en particulier annuaires maritimes de 1877, 1878 et
     1879 (au cas où, pour les nominations tardives de 1878). »
      La plateforme des AV semble propice aux échanges à caractère personnel :
près de 25 % des commentaires possèdent cette caractéristique, tandis que les
proportions pour le PM et l’EH sont d’environ 8 et 11 %. Ce phénomène
peut être mis en corrélation avec la taille plus modeste du projet et avec le fait
que seuls 52 contributeurs différents sont à l’origine des 145 commentaires de
l’échantillon. Cette dimension plus intimiste encourage visiblement les échanges
plus personnels entre utilisateurs. Quant aux deux autres interfaces, elles peuvent
être davantage assimilées à des lieux de passage, avec moins de fidèles contribu-
teurs, ce qui pourrait expliquer les plus faibles pourcentages. Il en va de même
pour les demandes d’avis ou de confirmation.
      Les pourcentages sont plus élevés encore pour les corrections ou réponses à
d’autres contributeurs, en particulier pour l’EH (plus d’un tiers). La tendance
concernant ce dernier paramètre témoigne de la façon dont la co-construction
des savoirs s’organise : cela se fait par tâtonnements, en partant d’une informa-
tion donnée par l’autre, qui sera complétée ou corrigée, et ainsi de suite.

64      CJILS / RCSIB 41, no. 1–2 2017

Figure 4 : Interactions, résultats exprimés sous forme de pourcentages.

E. Information
     « Sometime between December 1899 when the trams were introduced to George Street
     and 1907-08 when the span poles were removed to enable wide-bodied trams to run in
     the street. »
     En matière d’information descriptive, les pourcentages des trois cas dépassent
les 20 %, les AV dominent, tandis que le PM est le plus en retrait. La tendance
reste similaire pour l’information portant sur la date, le contexte ou les individus
présents sur une image. Cette rapide comparaison témoigne de l’existence d’un
lien logique entre le genre de contenu visible dans le corpus de documents et le
type d’information qui figure dans les commentaires des utilisateurs. Par ailleurs,

Figure 5 : Information, résultats exprimés sous forme de pourcentages.

Étude des métadonnées produites par le grand public dans le secteur culturel                   65

il faut garder à l’esprit que ces données sont parfois déjà connues et communi-
quées aux utilisateurs par l’institution, ce qui peut avoir un impact sur les résultats
obtenus.

F. Méta-information
     « Comme il s’agit d’un petit éditeur il a tout naturellement travaillé avec une grosse
     maison d’édition. Jules Robuchon a ses [sic] travaille avec Neurdein également à Nancy
     et on trouve sur ces cartes ce petit cachet rond. Je serais tenté de dire (si le derrière de la
     carte est non divisé) que la carte (en fonction de la grandeur de la photo sur le Recto
     qui laisse un blanc) que nous sommes à la fin de la période précurseur vers 1902. Si la
     carte est divisée au verso nous sommes au début de la période dite de ‘‘l’âge d’or’’ et
     Phelippeau ne s’est pas encore mis à la mode (vers 1905) [...] »

Figure 6 : Méta-information, résultats exprimés sous forme de pourcentages.

     Environ 10 à 20 % des commentaires portent sur l’image en tant que docu-
ment (par exemple des informations relatives à la prise de vue ou au contexte de sa
publication). L’écart est plus important pour les données concernant la plateforme
web, surtout entre les deux premiers cas, le troisième se situant à mi-chemin entre
les deux. Cette différence s’explique par le fait que l’équipe du PM ne semble
pas utiliser cet outil pour communiquer17. En revanche, un véritable dialogue
s’engage entre les membres de l’institution et les utilisateurs pour les AV et
l’EH. Ainsi, l’utilisateur écrivant au nom des AV est le contributeur le plus actif
et l’une des responsables du projet de l’EH a publié une part significative des
commentaires.
     Finalement, l’ensemble de ces résultats révèlent à quel point la nature des
commentaires est variable (longueur, type de discours et de contenu). Comme
l’a expliqué Flyvbjerg (2006), la comparaison de données issues de corpus diffé-
rents permet d’observer l’importance d’un critère en particulier. Dans le cadre
de cette étude, il s’agissait d’observer l’impact de la dimension du corpus sur les
types de commentaires produits. Il apparaı̂t que cette taille peut influer tant sur

66     CJILS / RCSIB 41, no. 1–2 2017

la quantité que sur le contenu des commentaires et mérite donc une attention
particulière18. En effet, les trois cas étudiés montrent que l’utilisation d’un
corpus plus modeste semble favoriser la production de métadonnées plus riches.
Or, le recours au crowdsourcing peut être motivé par la nécessité de traiter un
grand nombre de documents. Il pourrait donc être intéressant de réfléchir au
point d’équilibre à trouver entre volume de données, chronologie du projet,
nombre d’utilisateurs pouvant être mobilisés, plateforme utilisée et qualité visée,
en vue d’obtenir un résultat optimal.

Au-delà d’une typologie
Cette étude a permis d’observer l’influence qu’exerce le contexte de publication
sur le contenu de commentaires. Cependant, au-delà de ces variations, force est
de constater qu’un certain nombre de contributions s’égarent des fonctionnalités
traditionnelles de la documentation. Quelle approche privilégier face à des com-
mentaires tels que « Absolutely amazing! Too bad our society does not look like
this anymore. I don’t like modern architecture » ? S’inscrit-on dans la tradition
des historiens positivistes, qui privilégient les descriptions factuelles19, ou adopte-t-
on plutôt l’approche post-moderne, qui ouvre largement le champ documentaire
à des interprétations subjectives et individuelles ?
      La seconde approche semble avoir repris du terrain depuis les années 1970
(Lowenthal 1998). Si la démocratisation de l’accès à la culture ne peut être que
soutenue, il est toutefois intéressant de rebondir sur la définition ISO de la qua-
lité de l’information (norme ISO 9000:2005 « Systèmes de management de la
qualité – Principes essentiels et vocabulaire ») mentionnée en début d’article :
l’information est de qualité lorsqu’elle répond à un besoin (fitness for purpose).
Comme les commentaires étudiés dans cet article proviennent de la commu-
nauté des utilisateurs eux-mêmes, leur utilité semble évidente. La logique qui
est au cœur de la définition ISO de la qualité de l’information considère donc
le secteur culturel comme étant un marché autorégulateur, sur lequel la demande
propulse l’offre. Matarasso (2002) nous met toutefois en garde contre les dangers
et difficultés qu’impliquent une application un peu trop stricte ou littérale de cette
définition dans le cadre du patrimoine culturel. Il explique que l’autorégulation
du marché ne peut pas être le seul critère de qualité :

     The market is never as free as we might wish it to be. There is a strong commercial
     interest in a standardization of taste, whether in music, films or coffee, since it enlarges
     markets and reduces overheads. These forces are dangerous enough when it comes to
     ordinary commodities: they are all the more when it comes to the space where we shape,
     question and transit our values [. . .] The views of audiences and participants in the
     arts are a component of evaluation. Only in the commercial sector do they act as a
     determinant measure of worth: and the point of having a public sector is precisely to
     introduce other values and safeguards to our cultural life. (Matarasso 2002, 3–4)
     Cette citation nuance le caractère absolu du critère de fitness for purpose. Il
est en effet primordial de garder un œil critique, dans un contexte où les algo-
rithmes et le système de ranking peuvent conduire à une uniformisation et à un

Étude des métadonnées produites par le grand public dans le secteur culturel       67

appauvrissement de l’offre visible par l’utilisateur. Pensons par exemple à une
série d’images dont la mise en évidence serait conditionnée par le nombre de
commentaires.
      Finalement, ne pourrait-on pas relativiser ces deux approches ? Assmann
(1995), en se référant au travail de Friedrich Nietzsche, Maurice Halbwachs et
Pierre Nora, introduit les notions de mémoire factuelle et de mémoire fonc-
tionnelle. La première fait référence à l’historicisme représenté par les idées de
cet historien allemand du XIXe siècle, Leopold von Ranke, qui cherchait à ne
montrer que ce qui est réellement arrivé (wie es eigentlich gewesen). La mémoire
fonctionnelle correspond, elle, à l’interprétation symbolique ou émotive d’un fait
historique, dans laquelle le passé reprend forme en étant incorporé au présent.
Dans le contexte de cet article, nous pouvons positionner les métadonnées créées
par l’institution dans le champ de la mémoire factuelle, et celles produites par les
utilisateurs dans le champ de la mémoire fonctionnelle.
      Assmann explique ensuite que l’apparente opposition entre ces deux sortes
de mémoire est en fait un lien d’interdépendance : elles se maintiennent mutuel-
lement en équilibre. Une mémoire strictement factuelle peut perdre de sa perti-
nence en étant incapable de toucher un public, tandis qu’une mémoire pure-
ment fonctionnelle peut fausser le passé en modifiant ou même en inventant
des événements historiques, par exemple pour qu’ils s’accordent à un glorieux
passé nationaliste. Sans mémoire factuelle, la mémoire fonctionnelle se mue
peu à peu en fantasmes, et la mémoire fonctionnelle finit par devenir une collec-
tion de données dépourvues de signification. Cette interdépendance a un effet
positif sur chacune des approches. Si la mémoire factuelle peut vérifier, sauve-
garder et corriger la mémoire fonctionnelle, cette dernière peut, quant à elle,
orienter et motiver la mémoire factuelle.
      Les caractéristiques du patrimoine numérisé, telles que son adaptabilité et
sa facilité d’accès, ont pleinement contribué à le placer dans la sphère de la
mémoire fonctionnelle. La possibilité, pour une institution culturelle, d’interagir
avec ses publics par le biais de commentaires et d’intégrer ces derniers aux côtés
des métadonnées créées par des professionnels, est donc une belle illustration de
la façon dont mémoire factuelle et mémoire fonctionnelle peuvent coexister et se
soutenir mutuellement.

Notes
  1 Expression proposée par la Commission générale de terminologie et de néologie
    de France.  (consulté le 6 septembre 2016).
  2 À l’exception de l’identification de documents iconographiques.
  3 Pour une vue plus complète des apports du crowdsourcing, nous renvoyons à
    l’ouvrage de Mia Ridge (Ridge 2014).
  4  (consulté le 14
    mars 2016).
  5 Fonds en ligne, fruit d’un effort collaboratif en Flickr et la Library of Congress,
    qui héberge depuis 2008 les collections d’images, libres de droits, d’institutions
    culturelles du monde entier,  (consulté le 14
    mars 2016).

68     CJILS / RCSIB 41, no. 1–2 2017

 6  (consulté le 14 mars 2016).
 7  (consulté le 16 mars 2016).
 8  (consulté le 14 mars
   2016).
 9  (consulté le 16 mars 2016).
10 Étant donné que la recherche porte seulement sur le contenu textuel des commentaires,
   les autres éléments produits par les utilisateurs, tels que tags et données de géo-
   localisation, n’ont pas été pris en considération.
11 Le script figure dans les annexes de Earle (2014).
12 En ce qui concerne le corpus le plus massif, l’opération a été réalisée automatique-
   ment à l’aide d’un script.
13 Cette première grille d’analyse est basée sur la classification de Shatford (van
   Hooland 2006).
14 Le calcul, effectué à l’aide du logiciel OpenRefine, prend également en compte les
   espaces.
15 Cette formulation est inspirée de l’une des six fonctions du langage que répertorie le
   linguiste Roman Jakobson ; la fonction phatique sous-entend la mise en place et le
   maintien de la communication.
16 Ce résultat est toutefois à considérer avec précaution : toutes les personnes qui se
   sont appuyées sur leur expérience personnelle pour émettre de nouvelles informa-
   tions ne l’ont pas forcément précisé.
17 Au sein de l’échantillon étudié, aucune intervention n’a été relevée.
18 Notons que le type de plateforme peut également avoir une forte incidence sur les
   commentaires publiés.
19 Selon les historiens positivistes, les faits parlent d’eux-mêmes.

Bibliographie
Albarello, Luc. 2011. Choisir l’étude de cas comme méthode de recherche. Bruxelles :
     De Boeck.
Andro, Mathieu et Imad Saleh. 2014. « Bibliothèques numériques et crowdsourcing :
     une synthèse de la littérature académique et professionnelle internationale sur le
     sujet ». Dans Livre post-numérique : historique, mutations et perspectives. Actes du
     17e colloque international sur le document électronique (CiDE.17), sous la direction
     de Khaldoun Zreik, Ghislaine Azermard, Stéphane Chaudiron et Gaétan Darquie.
     Paris : Europia productions.
Assmann, Aleida. 1995. « Funktionsgedächtnis und Speichergedächtnis – Zwei Modi
     der Erinnerung ». Dans Generation und Gedächtnis. Erinnerungen und kollektive
     Identitäten, sous la direction de Kristin Platt et Mihran Dabag, 169–185. Opladen :
     Leske & Budrich. http://dx.doi.org/10.1007/978-3-322-95972-0_9.
Bats, Raphaëlle, dir. 2015. Construire des pratiques participatives dans les bibliothèques
     #33. Villeurbanne : Presses de l’enssib.
Boydens, Isabelle et Seth van Hooland. 2011. « Hermeneutics Applied to the Quality of
     Empirical Databases ». Journal of Documentation 67 (2) : 279–289. http://
     dx.doi.org/10.1108/00220411111109476.
Brabham, Daren C. 2013. Crowdsourcing. Cambridge, Mass. : The MIT Press.
Dunn, Stuart et Mark Hedges. 2013. « Crowd-Sourcing as a Component of Humanities
     Research Infrastructures ». International Journal of Humanities and Arts Computing 7
     (1-2) : 147–169. http://dx.doi.org/10.3366/ijhac.2013.0086.
Earle, Evan Fay. 2014. Crowdsourcing Metadata for Library and Museum Collections
     Using a Taxonomy of Flickr User Behavior. Cornell : Cornell University. http://
     hdl.handle.net/1813/36010.

Étude des métadonnées produites par le grand public dans le secteur culturel       69

Estellés-Arolas, Enrique et Fernando González-Ladrón de Guevara. 2012. « Towards an
      Integrated Crowdsourcing Definition ». Journal of Information Science 38 (2) :
      189–200. http://dx.doi.org/10.1177/0165551512437638.
Flanagan, Mary et Peter Carini. 2012. « How Games Can Help Us Access and Under-
      stand Archival Images ». The American Archivist 75 (2) : 514–537.
Flyvbjerg, Bent. 2006. « Five Misunderstandings About Case-Study Research ». Qualita-
      tive Inquiry 12 (2) : 219–245. http://dx.doi.org/10.1177/1077800405284363.
Howe, Jeff. 2006. « The Rise of Crowdsourcing ». Wired Magazine. Consulté le 15
      mars 2016. https://www.wired.com/2006/06/crowds/.
International Organization for Standardization. 2005. Quality management systems—
      Fundamentals and vocabulary (ISO 9000: 2005). Geneva : ISO.
Lowenthal, David. 1998. The Heritage Crusade and the Spoils of History. Cambridge :
      Cambridge University Press. http://dx.doi.org/10.1017/CBO9780511523809.
Matarasso, François. 2002. The Weight of poetry: The Unique Challenges of Evaluating
      the Arts. UK Evaluation Society. Consulté le 14 mars 2016. http://parliamentof-
      dreams.files.wordpress.com/2012/10/2002-the-weight-of-poetry.pdf.
Ridge, Mia. 2011. « Playing with Difficult Objects: Game Designs to Improve Museum
      Collections ». Museum and The Web 2011: Proceeding. Consulté le 24 mars
      2016. http://www.museumsandtheweb.com/mw2011/papers/playing_with_
      difficult_objects_game_designs_to.
Ridge, Mia. 2014. Crowdsourcing Our Cultural Heritage. Farnham : Ashgate.
Springer, Michelle, Beth Dulabahn, Phil Michel, Barbara Natanson, David Reser, David
      Woodward et Helena Zinkham. 2008. For the Common Good. The Library of
      Congress Flickr Pilot Project. Consulté le 24 mars 2016. http: //www.loc.gov/rr/
      print/flickr_report_final.pdf.
Trant, Jennifer. 2009. Tagging, Folksonomy and Art Museums: Results of steve.museum’s
      research. Consulté le 24 mars 2016. http://hdl.handle.net/10150/105627.
van Hooland, Seth. 2006. « From Spectator to Annotator: Possibilites offered by User-
      Generated Metadata for Digital Cultural Heritage Collections ». Proceeding of CILIP
      Conference 2006. Consulté le 15 mars 2016. http://www.academia.edu/
      2807203/Spectator_becomes_annotator_Possibilities_offered_by_user-generated_
      metadata_for_image_databases.
van Hooland, Seth, Françoise Vandooren et Eva M. Méndez Rodrı́guez. 2011.
      « Opportunities and Risks for Libraries in Applying for European Funding ».
      Electronic Library 29 (1) : 90–104. http://dx.doi.org/10.1108/
      02640471111111451.
van Hooland, Seth et Ruben Verborgh. 2014. Linked Data for Libraries, Archives and
      Museums: How to Clean, Link and Publish your Metadata. Chicago : ALA Editions.

Vous pouvez aussi lire