Autopsie d'un commentaire : étude des métadonnées produites par le grand public dans le secteur culturel / Autopsy of a Comment: A Study of ...
←
→
Transcription du contenu de la page
Si votre navigateur ne rend pas la page correctement, lisez s'il vous plaît le contenu de la page ci-dessous
Autopsie d’un commentaire : étude des métadonnées produites par le grand public dans le secteur culturel / Autopsy of a Comment: A Study of Metadata Produced by the Public in the Cultural Sector Anne Chardonnens, Seth van Hooland Canadian Journal of Information and Library Science, Volume 41, Numbers 1-2, March-June/mars-juin 2017, pp. 52-69 (Article) Published by University of Toronto Press For additional information about this article https://muse.jhu.edu/article/666449 [ Access provided at 20 Feb 2022 09:42 GMT with no institutional affiliation ]
Autopsie d’un Autopsy of a commentaire : étude Comment: A Study des métadonnées of Metadata produites par le grand Produced by the public dans le secteur Public in the Cultural culturel Sector Anne Chardonnens Doctorante en Sciences et technologies de l’information et de la communication, Université libre de Bruxelles anchardo@ulb.ac.be Seth van Hooland Chargé de cours et président de la filière des Sciences et technologies de l’informa- tion et de la communication, Université libre de Bruxelles Résumé : En dépit de l’attention portée au phénomène du crowdsourcing dans un contexte documentaire, peu d’études proposent une analyse empirique des com- mentaires publiés par le grand public. Par le biais de trois études de cas, cet article vise à observer l’influence qu’exerce le contexte de publication sur le contenu de ces commentaires. Les résultats dévoilent les caractéristiques de ces commentaires, permettant ainsi au secteur culturel de mieux cerner les possibilités et limites du crowdsourcing. Mots-clés : crowdsourcing, métadonnées, commentaire, étude de cas. Abstract: Despite the attention paid to the phenomenon of crowdsourcing in a library context, few studies offer an empirical analysis of comments published by the public. Through three case studies, this article aims to observe the influence of the publication context on the content of comments. The results reveal the characteristics of these comments, thus providing a better understanding of the possibilities and limitations of crowdsourcing for the cultural sector. Keywords: crowdsourcing, metadata, comment, case study. Introduction Si le tournant du siècle a représenté un âge d’or pour les métadonnées et des schémas de métadonnées ont été développés pour un grand nombre de domaines d’application, l’effervescence est depuis retombée (van Hooland et Verborgh 2014). Il est apparu que la création et la gestion de métadonnées représentent un investissement considérable en matière de ressources humaines. En outre, les sources de financement ont commencé à se tarir, à l’instar des programmes de financement de la Commission européenne qui ne financent plus la création 8 2017 The Canadian Journal of Information and Library Science La Revue canadienne des sciences de l’information et de bibliothéconomie 41, no. 1–2 2017
Étude des métadonnées produites par le grand public dans le secteur culturel 53 de métadonnées depuis 2008 (van Hooland, Vandooren et M. Méndez Rodrı́guez 2011). Cette tendance, ainsi que le colossal volume de données à traiter, pousse les bibliothèques, archives et musées à adopter une attitude plus pragmatique, notamment en se tournant vers leurs communautés d’utilisateurs et en dévelop- pant des projets de crowdsourcing. Le crowdsourcing est un néologisme ayant émergé en 2006, sous l’impulsion de Jeff Howe (Howe 2006). Le terme possède de multiples définitions (Estellés- Arolas et González-Ladrón de Guevara 2012) et est applicable à de nombreux domaines. Dans le cadre de cet article, nous nous référons à cette définition reposant sur quatre éléments : Une organisation, qui a une tâche devant être effectuée. Une communauté (la foule), qui est prête à effectuer cette tâche de façon volontaire. Un environnement en ligne, qui rend possible le travail devant être effectué et permet à la communauté d’interagir avec l’organisation. Un bénéfice mutuel pour l’organisation et la communauté (Brabham 2013). Ce concept de « production participative1 » appliqué au secteur culturel ne fait cependant pas l’unanimité. Bats (2015) attire l’attention sur le fait que « la participation suscite autant de questionnements légitimes, que d’enthousiasme » (10). Andro et Saleh (2014) constatent qu’au vu de l’important travail de contrôle, de modération et de correction qu’il exige, le crowdsourcing pourrait finalement ne représenter « ni une économie de moyens ni une optimisation de résultats » (5). Après plus d’une décennie d’expérimentations et d’implémentations réelles à large échelle, il s’avère donc opportun d’analyser de façon empirique les fruits de ces projets. L’exploration d’échantillons statistiquement représentatifs de commentaires produits par le grand public permet d’analyser leur contenu et de tirer des ensei- gnements sur les possibilités et limites du crowdsourcing dans un contexte docu- mentaire. Notre étude, qui s’inscrit dans la continuité d’une première étude de cas réalisée en 2006 (van Hooland 2006), vise à observer s’il existe un lien entre les commentaires produits par le grand public et le contexte de publication. Une analyse comparative basée sur trois études de cas permet d’observer si la taille du corpus soumis aux commentaires a un impact sur les commentaires. Cet article est construit de la manière suivante : la première section est con- sacrée au survol de la littérature, vient ensuite la présentation de la question de recherche et de la méthode utilisée. Le cœur de l’article propose une vue synthé- tique des résultats obtenus. Enfin, la conclusion vise à approfondir la notion de qualité des métadonnées. État de l’art Depuis plus de dix ans maintenant, le crowdsourcing est au cœur d’initiatives axées autour du patrimoine culturel. Il se décline de diverses façons. Afin de circonscrire le phénomène, diverses typologies propres au secteur culturel ont
54 CJILS / RCSIB 41, no. 1–2 2017 vu le jour. Ces dernières décrivent les types de tâches pour lesquelles la partici- pation du grand public a été sollicitée. Ridge (2014) recense ainsi le tagging, l’identification de documents iconographiques, la transcription collaborative, la correction ou modification de contenus, l’enregistrement et la création de conte- nus, la publication de commentaires, la catégorisation, le géoréférencement, la « co-curation » et enfin la synthèse de nouvelles informations. La typologie de Dunn et Hedges (2013) englobe le même type de tâches2, ainsi que l’indexation collaborative, la contextualisation, la spatialisation de l’information et la traduction. Cet article se concentre uniquement sur deux de ces catégories : l’identifi- cation de documents iconographiques et la publication de commentaires3. Or, force est de constater que peu d’études empiriques portent sur les descriptions de ressources patrimoniales par la communauté d’internautes. En 2006, nous avions réalisé une première analyse sur les métadonnées générées par les utilisateurs (van Hooland 2006). Un échantillon de 355 com- mentaires, issu d’un projet mené par les Archives nationales des Pays-Bas4, avait permis d’aboutir à une typologie composée de six catégories non exclusives : cor- rection de métadonnées préexistantes (46 %) ; ajout de détails narratifs à l’image (31 %) ; partage d’anecdotes personnelles (9 %) ; mention d’une mauvaise mise à disposition de l’image (3 %) ; expression d’une opinion ou d’un jugement (1 %) ; interaction avec l’institution ou d’autres utilisateurs par le biais de ques- tions (1 %). Afin de mesurer la qualité de ces métadonnées, nous avions utilisé la définition de la qualité de l’information proposée au sein de la norme ISO 9000:2005 « Systèmes de management de la qualité – Principes essentiels et vocabulaire » (International Organization for Standardization 2005). Cette défi- nition repose sur le concept de fitness for purpose : une information est estimée de qualité si elle répond à un besoin. Notre étude visait à évaluer la pertinence des commentaires par rapport aux besoins de la communauté. Il s’agissait de confronter les commentaires avec des requêtes saisies par les utilisateurs au sein du moteur de recherches. Il est apparu que les termes spécifiques sont privilégiés, que peu de termes génériques sont utilisés et quasiment aucune notion abstraite, tant dans les commentaires que parmi les requêtes des utilisateurs. Le contenu des commentaires coı̈ncide donc avec le type de recherches menées par la com- munauté d’utilisateurs. Le présent article a pour but d’approfondir cette pre- mière étude de cas en analysant davantage de commentaires, en multipliant les critères d’observation et en confrontant les données issues de corpus variés. Pour des raisons essentiellement pratiques, l’analyse actuelle se cantonnera à l’explora- tion des commentaires, sans que ces derniers soient confrontés aux requêtes des utilisateurs. En janvier 2008, la Library of Congress américaine a participé au lancement du projet The Flickr Commons5 en mettant en ligne plus de 3 000 photographies d’archives. Un rapport est publié dans les mois qui suivent. Springer et coll. (2008) tirent un bilan positif de ce projet pilote et relatent les multiples retombées positives qui ont suivi. Concernant les commentaires, ils notent que ceux-ci permettent aux personnes regardant les images de se remémorer des souvenirs, de partager des informations, de faire des liens entre passé et présent, d’identifier
Étude des métadonnées produites par le grand public dans le secteur culturel 55 certains emplacements de façon très précise ou encore d’augmenter leur appro- priation du contenu. Enfin, ils précisent que sur plus de 7 000 commentaires, seuls 25 commentaires ont été jugés inappropriés et ont donc été effacés. Peu après, Trant (2009) publie les résultats obtenus dans le cadre du projet Steve Museum, qui porte sur l’usage du social tagging dans le contexte muséal. Ce projet visait à identifier les types de termes qui sont utiles à d’autres ainsi que la façon dont les tags peuvent être validés : validation statistique automatique selon la récurrence du terme ou opération manuelle effectuée par le personnel qualifié. Les membres du project ont également comparé les métadonnées rédigées par des professionnels avec celles qui sont produites par le grand public dans le cadre de projets de crowdsourcing. Ils parviennent à la conclusion que la majorité des tags produits par le grand public ne correspond pas aux tags encodés par le personnel des musées, mais qu’elle offre cependant une bonne représentation du rapport des individus aux collections. Enfin, il apparaı̂t que seule une minorité d’utilisateurs a contribué à la majorité du contenu produit et qu’une grande majorité des utilisateurs n’a participé qu’à une seule session de tagging. Pour leur part, Ridge (2011), Flanagan et Carini (2012) se sont intéressés aux tags produits dans le cadre de projets mêlant patrimoine, gamification et crowdsourcing. Flanagan codirige une plateforme de jeu en ligne6 qui vise à aider les institutions culturelles dans l’enrichissement des métadonnées de leurs archives numérisées. Elle a remarqué qu’une expérience ludique conduit certains joueurs qui n’étaient initialement pas attirés par le patrimoine culturel à s’y in- téresser davantage et à approfondir leur lien avec les collections et l’institution concernées. Quant à Ridge, elle adopte une démarche à la fois théorique et em- pirique, en vue de déterminer s’il est possible de concevoir des formes de jeux permettant de créer des métadonnées plus complexes que de simples tags. Cons- tatant que certains artéfacts sont plus difficiles à identifier que d’autres, elle imagine des alternatives aux tags pour les décrire. Elle conçoit ainsi un modèle de jeu expérimental, visant à la création de formes plus complexes de contenus. Cette expérience se conclut sur un résultat mitigé : elle constate qu’il n’existe encore aucun modèle de validation qualitative des réponses qui permettrait de gérer des données plus complexes que des dates. Plus récemment, Earle (2014) a analysé un échantillon de 1 000 tags et commentaires publiés sur The Flickr Commons. En se basant sur des critères d’analyse obtenus dans le cadre d’interviews réalisées auprès du personnel de musées et bibliothèques (searchability ; quantity ; accuracy ; depth ; new informa- tion; exposure), il aboutit à une typologie composée de dix catégories d’utilisa- teurs : hobbyists; experts ; specialists; geocoders ; proofers; uniformists ; promoters ; remixers ; narrators ; oddities. Il parvient ensuite à identifier les groupes d’utilisa- teurs les plus à même de produire les métadonnées jugées utiles par le personnel des institutions. Ainsi, le groupe des experts est par exemple très performant pour l’ensemble des critères, mais peu performant en matière de quantité et de mise en avant des collections. Ce bref survol de la littérature montre que le crowdsourcing est un phéno- mène qui se décline de nombreuses façons au sein du secteur culturel, comme le
56 CJILS / RCSIB 41, no. 1–2 2017 prouvent de nombreuses typologies. En revanche, il apparaı̂t que peu de cher- cheurs se sont attelés à l’analyse empirique d’un nombre significatif de com- mentaires produits par le grand public. Le présent article vise à affiner ce type d’analyse en recourant à plusieurs études de cas. Méthodologie Cette étude repose sur l’analyse de commentaires publiés par le grand public dans le cadre de projets de crowdsourcing menés en milieu documentaire. Elle vise à observer s’il existe un lien entre commentaires et contexte de publication. La méthode de recherche est basée sur l’étude de cas, qui permet d’analyser le phénomène du crowdsourcing en situation réelle, en vue d’aboutir à des con- clusions généralisables (Albarello 2011). Afin d’augmenter les possibilités d’extrap- olation des résultats et d’examiner de potentielles variations liées à un critère donné, trois cas ont été sélectionnés. En effet, comme l’a montré Flyvbjerg (2006), le recours à des cas se démarquant de façon significative au niveau d’un critère donné (tel que la taille d’une organisation ou son emplacement géogra- phique) permet d’évaluer l’importance de ce dernier. Le choix des cas a été guidé par le type d’informations recherchées. Il s’agis- sait de trouver des dispositifs de crowdsourcing mis en ligne par des musées, des archives ou des bibliothèques, présentant des corpus de documents iconographi- ques destinés à être commentés par le grand public. Il était également nécessaire de trouver des commentaires rédigés en français ou en anglais, afin qu’ils puis- sent être lus et analysés par l’auteur dans leur langue originale. De plus, l’inté- gralité des commentaires publiés à un temps t devait pouvoir être collectée à l’aide de processus manuels ou semi-automatisés. Enfin, chaque cas devait se caractériser par une taille de corpus sensiblement différente, afin qu’il soit possible d’évaluer s’il existe un lien entre les commentaires produits et l’ampleur du projet. Trois cas remplissant l’ensemble des critères ont été retenus. Il s’agit de projets implémentés par des institutions culturelles de France, d’Angleterre et d’Australie : Les Archives départementales de Vendée (AV) proposent au sein d’une plate- forme interne à leur site web7 d’identifier des scènes, des personnages ou des événements, dans le cadre d’un nombre limité d’« enquêtes ». Les billets publiés sur la plateforme présentent des images n’ayant pas encore été docu- mentées, sous forme d’énigmes à résoudre collectivement à l’aide de la section « commentaires ». Lorsque des commentaires ont permis d’identifier les élé- ments qui faisaient défaut, un représentant des archives déclare alors que le billet est « clos », bien que sa consultation reste possible. Le Powerhouse Museum (PM) est situé à Sydney et figure parmi les plus grands musées d’Australie. Il s’agit du premier musée qui a mis en ligne une partie de ses collections sur The Flickr Commons8. Chacun peut voir, diffuser, télécharger ou encore réutiliser ces images, et tout utilisateur inscrit sur Flickr peut enrichir les métadonnées en commentant, taguant ou géolocalisant les photographies.
Étude des métadonnées produites par le grand public dans le secteur culturel 57 L’English Heritage (EH) est l’organe du gouvernement britannique chargé de la gestion du patrimoine historique du pays. Il est à l’origine d’un projet de conservation, numérisation et valorisation intitulé Britain from Above. Ce projet porte sur une collection de photographies aériennes dépassant le million de négatifs et comptant plus de 2 000 albums : The Aerofilms Collection. Depuis 2012, une plateforme web dédiée9 invite chaque utilisateur inscrit à taguer, commenter ou géolocaliser l’une des 95 000 photographies aériennes numérisées (datant de 1919 à 1953). Tableau 1 Vue d’ensemble des trois études de cas Archives départ. de Vendée Powerhouse Museum English Heritage Archives : photos de personnes Archives : fonds de photos Archives : photos aériennes et événements se déroulant en portant sur Sidney et ses de la Grande-Bretagne, prises Vendée environs entre 1919 et 1953 Plateforme interne (2011) Plateforme externe Plateforme externe dédiée préexistante (2008) (2012) 36 images 2 527 images 95 551 images 217 commentaires 3 685 commentaires 16 216 images 86,1 % des images sont 20,7 % des images sont com- 5,8 % des images sont commentées mentées commentées Collecte des données La collecte des données a été effectué entre novembre 2014 et février 2015. L’in- tégralité des commentaires publiés au sein de chaque dispositif a été collectée10. Trois types d’extraction de données ont dû être utilisés : Extraction manuelle pour l’AV En raison de la taille restreinte du corpus et de la structure du dispositif des AV, la collecte a été réalisée manuellement. L’agencement est similaire à celui d’un blogue : des « billets » présentent des contenus iconographiques à iden- tifier, les commentaires sont affichés en bas de page, en suivant un ordre chro- nologique. Toutes les pages ont été visitées de façon systématique entre le 26 novembre et le 4 décembre 2014, afin de copier dans un tableur Excel le texte et l’auteur de tous les commentaires présents sur le dispositif. Le corpus compte 217 commentaires, publiés entre le 21 juin 2011 et le 7 novembre 2014. API Flickr pour le PM Le Powerhouse Museum ayant investi The Flickr Commons, il est possible de recourir à l’API (Application Programming Interface) Flickr pour automatiser la collecte de données. Un script Python11 a permis de lancer des « appels » à cette API afin d’extraire dans un fichier XML toutes les données utiles. Les données ont été extraites le 18 janvier 2015. Elles ont ensuite été nettoyées à l’aide du logiciel OpenRefine (suppression de doublons et cellules). Le corpus compte 3 685 commentaires, publiés entre le 8 avril 2008 et le 17 janvier 2015.
58 CJILS / RCSIB 41, no. 1–2 2017 Data scraping pour l’EH Vu que le dispositif mis en place par l’EH ne proposait pas d’API, il a fallu recourir au data scraping. Un script a permis d’automatiser la répétition d’une série d’actions (visite d’une page, clic sur un hyperlien, copie de texte) sur des milliers de pages web, en vue d’extraire des zones de textes dans un fichier XML. Les données ont été extraites à l’aide du logiciel OutWib Hub Pro entre le 2 et 5 février 2015. Le corpus compte 16 216 commentaires, publiés entre le 17 mai 2012 et le 4 février 2015. Analyse L’analyse est composée de deux volets. Dans un premier temps, les commentaires sont abordés dans leur ensemble : nombre de commentaires et de contributeurs, pourcentages d’images commentées, longueur des commentaires, nombre maximal de commentaires par image ou encore nombre maximal de commentaires publiés par le même utilisateur. Cette analyse est effectuée à l’aide d’un tableur Excel et de ses fonctionnalités de base (calcul de somme, soustractions, divisions, moyennes et pourcentages). Dans un second temps, la constitution d’échantillons permet d’analyser le contenu des commentaires. La taille des échantillons est calculée en utilisant un niveau de confiance de 95 % et un intervalle de confiance de 5 %. Le nombre total de commentaires par corpus est ensuite divisé par la somme obtenue. En partant du quotient résultant, une entrée est ensuite sélectionnée à intervalle régulier12 afin d’obtenir un échantillon représentatif. Cette opération est effectuée manuellement pour les deux premiers corpus et automatisée à l’aide d’un script PowerShell pour le troisième corpus. Au terme du processus, les échantillons sont composés de 145 commentaires pour les AV, 370 pour le PM et 377 pour l’EH, soit un total de 892 commentaires. Ces échantillons sont ensuite examinés à l’aide d’une grille d’analyse. Le but est d’identifier les caractéristiques les plus récurrentes. La grille d’analyse, inspirée d’une première étude que nous avions menée en 200613, est enrichie et ajustée lors d’une première phase de test sur les 80 premiers commentaires de chaque échantillon. Au terme de cette étape, la grille est composée de six catégories non exclusives : (A) Apports personnels (B) Langage (C) Justification (D) Interactions humaines (E) Information (F) Méta-information Chaque catégorie est détaillée par le biais de sous-catégories (cf. tableau 2). La phase d’analyse consiste à examiner chaque commentaire et à indiquer dans un tableur Excel s’il contient ou non chacun des paramètres retenus. Il est cependant essentiel de garder à l’esprit que le choix des paramètres ainsi que l’analyse en tant que telle sont empreints d’une certaine subjectivité.
Étude des métadonnées produites par le grand public dans le secteur culturel 59 En effet, les données liées au patrimoine culturel sont empiriques et non déter- ministes, elles sont donc, par essence, sujettes à interprétation dans le temps et l’espace (Boydens et van Hooland 2011). Tableau 2 Vue d’ensemble de la grille d’analyse CATÉGORIES SOUS-CATÉGORIES A. Apports personnels Appréciations subjectives Avis personnels Anecdotes personnelles B. Langage Jargon Fonction phatique C. Justification Sources externes Contenu du document Situation actuelle Statut personnel D. Interactions humaines Interpellations Demandes d’avis Corrections / Réponses E. Information Descriptive Sur le lieu Sur les individus Sur le contexte Sur la date F. Méta-information Sur le document Sur la plateforme web Résultats Tableau 3 : Vue d’ensemble des commentaires des trois études de cas (AV : Archives de Vendée ; PM : Powerhouse Museum ; EH : English Heritage) AV PM EH Taille échantillon 145 370 377 Nbre total de commentaires 217 3 685 16 216 Pourcent. d’images commentées (total) 86,1 % 20,7 % 5,8 % Moyenne de caractères par comm. (total) 562 217 139 Pourcent. de comm. composés d’un seul mot / échantillon 0,7 % 72 % 24 % Nbre de comm. en moyenne par image commentée 8,3 7,1 1,6 Nbre maximal de comm. par image 31 318 77 Nbre total de contributeurs 56 1 974 3 109 Nbre maximal de comm. du même utilisateur 47 463 3 153 Pourcent. de contributeurs uniques / total de contributeurs 32,1 % 82,8 % 56,4 % Pourcent. de comm. publiés par contributeurs uniques 8,2 % 44,3 % 10,8 %
60 CJILS / RCSIB 41, no. 1–2 2017 Vue d’ensemble Les commentaires considérés dans leur ensemble permettent de relever quelques grandes tendances. Premièrement, il est intéressant de confronter le pourcentage d’images commentées avec la taille du corpus : il apparaı̂t clairement que moins il y a d’images, plus la proportion d’images commentées sera importante. Il faut toutefois noter que ce pourcentage peut également s’expliquer par le type de sujet présenté sur les documents ou le type de relation établie entre l’institution et son public en ligne. Deuxièmement, la moyenne du nombre de caractères par commentaire14 est un bon indicateur du type de contributions que produit un utilisateur lambda pour chacun des corpus. Ainsi, la taille modeste du premier cas semble favoriser des descriptions plus étoffées, tandis que le troisième, plus imposant, est le plus en retrait pour ce critère-là (AV : 562, PM : 217 et EH : 139). Troisièmement, la proportion de mots isolés par échantillon (par opposition à des phrases construites) est également interpellante. Les AV se démarquent radicalement des deux autres cas, avec 144 « phrases construites » versus un seul commentaire constitué de mots isolés. Le fait que les utilisateurs soient invités à contribuer à des enquêtes favorise sans doute des formes d’expression écrite plus élaborées. Les commentaires formés de mots isolés atteignent plus de 40 % de l’échantillon du PM. Les résultats les plus frappants concernent le nombre maximal de commen- taires rédigés par le même utilisateur. Les sommes très élevées attestent la prés- ence de « super contributeurs », qui rédigent parfois jusqu’à plus d’un cinquième des commentaires publiés. Sachant qu’ils sont souvent plusieurs à se partager ce statut, ces nombres pourraient conduire à relativiser le succès de ces projets. D’autres statistiques concernent l’antithèse du « super contributeur », c’est- à-dire l’utilisateur de passage, qui ne va publier un commentaire qu’une seule et unique fois. Pour les AV, ce profil représente un peu plus d’un tiers du total des contributeurs, pour l’EH, plus de la moitié des contributeurs, et plus de quatre utilisateurs sur cinq pour le PM. Cela révèle la spécificité des plateformes : celle des AV favorise une participation plus assidue, alors que celle du PM est davan- tage un lieu de passage. L’EH combine ces deux types de participants de façon plus ou moins équivalente. Ces premières données ont permis de calculer le taux de commentaires publiés par ces contributeurs uniques : 8,2 % (AV), 44,3 % (PM) et 10 % (EH). Ces données statistiques permettent de préciser le profil des dispositifs de crowdsourcing. Le projet des AV, avec son plus petit corpus de documents, sa dimension d’« enquête » et sa plateforme interne à son site web, favorise la fidé- lité des contributeurs et la publication de longs commentaires, qui portent sur près de 90 % des images. Le PM, qui met en ligne ses images sur The Flickr Commons, se démarque par son taux très élevé de contributeurs uniques. Enfin, la plateforme dédiée de l’EH présente un corpus d’une telle ampleur que seule une faible proportion d’images a fait l’objet de commentaires, qui sont par ailleurs très succincts.
Étude des métadonnées produites par le grand public dans le secteur culturel 61 Analyse du contenu Dans un souci de concision, seuls les résultats les plus marquants de l’analyse sont commentés. Par ailleurs, chaque catégorie est introduite par un exemple issu de l’un des trois échantillons de commentaires. A. Apports personnels « My (maternal) grandsparents lived at No 1 Park Lane which was then a ham shop. After the start of WWII hams we [sic] not available so they turned the shop into bar (and as Steve Gregory as already mentioned, the fountain was removed). In 1946 (approx.) the film So Well Remembered was made in and around Park Green, and my grandparents provided tea and cakes to the star John Mills and his wife Mary. » Figure 1 : Apports personnels, résultats exprimés sous forme de pourcentages. Le pourcentage très élevé (50 %) d’appréciations subjectives correspondant aux données du PM se démarque très nettement des deux autres pourcentages (2 % et 4 % pour le premier et troisième cas) et laisse penser que le facteur le plus influent n’est pas ici la taille de l’ensemble du projet, mais le type de plate- forme d’accueil, à savoir Flickr. Le « public » n’y est sans doute pas le même et l’atmosphère moins formelle. Dans les trois cas, le pourcentage de commentaires contenant des anecdotes personnelles atteint moins de 10 %. Si le web reste un espace privilégié pour recueillir des témoignages, ces faibles résultats font toute- fois relativiser le poids de cet argument. B. Langage « ‘Andula’ Built at Bartrams/launched 16.12.48 id 5501697.Reg owner. Soc Geral De Comercio Industria @ Transportes. Her Flag.PRT.Lisbon. In collision with, ‘Statue of Liberty’) a Tanker, 8.6.65. Sank 9.6.65 while under tow Lisbon-Casablanca. »
62 CJILS / RCSIB 41, no. 1–2 2017 Figure 2 : Langage, résultats exprimés sous forme de pourcentages. Dans l’ensemble, la présence de jargon dans les commentaires est assez faible, atteignant moins de 10 % pour chacun des cas. À nouveau, la distribution des pourcentages ne correspond pas à une logique liée à la taille des projets, vu que le PM ne compte que 3 % de commentaires composés d’une terminologie spéci- fique, alors que les deux autres cas en comptabilisent environ 8 %. Ce mince écart pourrait dériver du fait que les deux autres plateformes drainent un public plus ciblé, qui possède peut-être une plus grande expertise. Des traces de la fonction phatique15 sont présentes dans plus de 25 % des commentaires, et ce, quel que soit l’échantillon de données : ce pourcentage reflète le ton courtois avec lequel s’exprime une certaine frange des utilisateurs, tandis que les autres se cantonnent à un style beaucoup plus impersonnel. C. Justification « According to David Miller in ‘‘Charles Kerry’s Federation Australia’’ ISBN 0908197330. These photographs, taken from a high viewpoint, were made by Willen van der Valden firstly for a commission Kerry had to document the streets of Sydney for the Australian Town and Country Journal. He used a wide angle lens and perched on top of a mobile tower. Ref P. 20 » En matière de justification basée sur des sources externes, le pourcentage très élevé correspondant au premier cas retient l’attention (près de 55 %, alors que l’on se situe sous les 20 % pour le PM et l’EH). Cette fois-ci, la taille du projet est bien l’un des facteurs pouvant expliquer ce résultat. En effet, le nombre restreint d’enquêtes « ouvertes » au même moment (par rapport aux 95 000 images mises en ligne par l’EH, par exemple) permet de concentrer le travail de recherche sur quelques cas et d’approfondir l’investigation en utilisant des informations issues de sources externes. D’autre part, il est important de
Étude des métadonnées produites par le grand public dans le secteur culturel 63 Figure 3 : Justification, résultats exprimés sous forme de pourcentages. souligner une particularité observée au sein du dispositif des AV : si une nouvelle information stratégique n’est pas justifiée par une source externe, l’une des per- sonnes administrant le projet demande alors à l’utilisateur de citer ses sources. En ce qui concerne des métadonnées qui seraient basées sur le statut parti- culier du contributeur, les résultats font écho au nombre assez faible d’anecdotes personnelles. Il est interpellant de constater que moins de 5 % des commentaires de l’échantillon s’appuient sur le statut ou vécu particulier d’une personne.16 D. Interactions humaines « Bonjour, je crois qu’il y a un problème avec l’hypothèse Souzy : avez-vous bien vérifié qu’il était amiral ? (Peu probable : il n’était promu capitaine de vaisseau qu’en 1876). Il ne figure nulle part comme tel... en particulier annuaires maritimes de 1877, 1878 et 1879 (au cas où, pour les nominations tardives de 1878). » La plateforme des AV semble propice aux échanges à caractère personnel : près de 25 % des commentaires possèdent cette caractéristique, tandis que les proportions pour le PM et l’EH sont d’environ 8 et 11 %. Ce phénomène peut être mis en corrélation avec la taille plus modeste du projet et avec le fait que seuls 52 contributeurs différents sont à l’origine des 145 commentaires de l’échantillon. Cette dimension plus intimiste encourage visiblement les échanges plus personnels entre utilisateurs. Quant aux deux autres interfaces, elles peuvent être davantage assimilées à des lieux de passage, avec moins de fidèles contribu- teurs, ce qui pourrait expliquer les plus faibles pourcentages. Il en va de même pour les demandes d’avis ou de confirmation. Les pourcentages sont plus élevés encore pour les corrections ou réponses à d’autres contributeurs, en particulier pour l’EH (plus d’un tiers). La tendance concernant ce dernier paramètre témoigne de la façon dont la co-construction des savoirs s’organise : cela se fait par tâtonnements, en partant d’une informa- tion donnée par l’autre, qui sera complétée ou corrigée, et ainsi de suite.
64 CJILS / RCSIB 41, no. 1–2 2017 Figure 4 : Interactions, résultats exprimés sous forme de pourcentages. E. Information « Sometime between December 1899 when the trams were introduced to George Street and 1907-08 when the span poles were removed to enable wide-bodied trams to run in the street. » En matière d’information descriptive, les pourcentages des trois cas dépassent les 20 %, les AV dominent, tandis que le PM est le plus en retrait. La tendance reste similaire pour l’information portant sur la date, le contexte ou les individus présents sur une image. Cette rapide comparaison témoigne de l’existence d’un lien logique entre le genre de contenu visible dans le corpus de documents et le type d’information qui figure dans les commentaires des utilisateurs. Par ailleurs, Figure 5 : Information, résultats exprimés sous forme de pourcentages.
Étude des métadonnées produites par le grand public dans le secteur culturel 65 il faut garder à l’esprit que ces données sont parfois déjà connues et communi- quées aux utilisateurs par l’institution, ce qui peut avoir un impact sur les résultats obtenus. F. Méta-information « Comme il s’agit d’un petit éditeur il a tout naturellement travaillé avec une grosse maison d’édition. Jules Robuchon a ses [sic] travaille avec Neurdein également à Nancy et on trouve sur ces cartes ce petit cachet rond. Je serais tenté de dire (si le derrière de la carte est non divisé) que la carte (en fonction de la grandeur de la photo sur le Recto qui laisse un blanc) que nous sommes à la fin de la période précurseur vers 1902. Si la carte est divisée au verso nous sommes au début de la période dite de ‘‘l’âge d’or’’ et Phelippeau ne s’est pas encore mis à la mode (vers 1905) [...] » Figure 6 : Méta-information, résultats exprimés sous forme de pourcentages. Environ 10 à 20 % des commentaires portent sur l’image en tant que docu- ment (par exemple des informations relatives à la prise de vue ou au contexte de sa publication). L’écart est plus important pour les données concernant la plateforme web, surtout entre les deux premiers cas, le troisième se situant à mi-chemin entre les deux. Cette différence s’explique par le fait que l’équipe du PM ne semble pas utiliser cet outil pour communiquer17. En revanche, un véritable dialogue s’engage entre les membres de l’institution et les utilisateurs pour les AV et l’EH. Ainsi, l’utilisateur écrivant au nom des AV est le contributeur le plus actif et l’une des responsables du projet de l’EH a publié une part significative des commentaires. Finalement, l’ensemble de ces résultats révèlent à quel point la nature des commentaires est variable (longueur, type de discours et de contenu). Comme l’a expliqué Flyvbjerg (2006), la comparaison de données issues de corpus diffé- rents permet d’observer l’importance d’un critère en particulier. Dans le cadre de cette étude, il s’agissait d’observer l’impact de la dimension du corpus sur les types de commentaires produits. Il apparaı̂t que cette taille peut influer tant sur
66 CJILS / RCSIB 41, no. 1–2 2017 la quantité que sur le contenu des commentaires et mérite donc une attention particulière18. En effet, les trois cas étudiés montrent que l’utilisation d’un corpus plus modeste semble favoriser la production de métadonnées plus riches. Or, le recours au crowdsourcing peut être motivé par la nécessité de traiter un grand nombre de documents. Il pourrait donc être intéressant de réfléchir au point d’équilibre à trouver entre volume de données, chronologie du projet, nombre d’utilisateurs pouvant être mobilisés, plateforme utilisée et qualité visée, en vue d’obtenir un résultat optimal. Au-delà d’une typologie Cette étude a permis d’observer l’influence qu’exerce le contexte de publication sur le contenu de commentaires. Cependant, au-delà de ces variations, force est de constater qu’un certain nombre de contributions s’égarent des fonctionnalités traditionnelles de la documentation. Quelle approche privilégier face à des com- mentaires tels que « Absolutely amazing! Too bad our society does not look like this anymore. I don’t like modern architecture » ? S’inscrit-on dans la tradition des historiens positivistes, qui privilégient les descriptions factuelles19, ou adopte-t- on plutôt l’approche post-moderne, qui ouvre largement le champ documentaire à des interprétations subjectives et individuelles ? La seconde approche semble avoir repris du terrain depuis les années 1970 (Lowenthal 1998). Si la démocratisation de l’accès à la culture ne peut être que soutenue, il est toutefois intéressant de rebondir sur la définition ISO de la qua- lité de l’information (norme ISO 9000:2005 « Systèmes de management de la qualité – Principes essentiels et vocabulaire ») mentionnée en début d’article : l’information est de qualité lorsqu’elle répond à un besoin (fitness for purpose). Comme les commentaires étudiés dans cet article proviennent de la commu- nauté des utilisateurs eux-mêmes, leur utilité semble évidente. La logique qui est au cœur de la définition ISO de la qualité de l’information considère donc le secteur culturel comme étant un marché autorégulateur, sur lequel la demande propulse l’offre. Matarasso (2002) nous met toutefois en garde contre les dangers et difficultés qu’impliquent une application un peu trop stricte ou littérale de cette définition dans le cadre du patrimoine culturel. Il explique que l’autorégulation du marché ne peut pas être le seul critère de qualité : The market is never as free as we might wish it to be. There is a strong commercial interest in a standardization of taste, whether in music, films or coffee, since it enlarges markets and reduces overheads. These forces are dangerous enough when it comes to ordinary commodities: they are all the more when it comes to the space where we shape, question and transit our values [. . .] The views of audiences and participants in the arts are a component of evaluation. Only in the commercial sector do they act as a determinant measure of worth: and the point of having a public sector is precisely to introduce other values and safeguards to our cultural life. (Matarasso 2002, 3–4) Cette citation nuance le caractère absolu du critère de fitness for purpose. Il est en effet primordial de garder un œil critique, dans un contexte où les algo- rithmes et le système de ranking peuvent conduire à une uniformisation et à un
Étude des métadonnées produites par le grand public dans le secteur culturel 67 appauvrissement de l’offre visible par l’utilisateur. Pensons par exemple à une série d’images dont la mise en évidence serait conditionnée par le nombre de commentaires. Finalement, ne pourrait-on pas relativiser ces deux approches ? Assmann (1995), en se référant au travail de Friedrich Nietzsche, Maurice Halbwachs et Pierre Nora, introduit les notions de mémoire factuelle et de mémoire fonc- tionnelle. La première fait référence à l’historicisme représenté par les idées de cet historien allemand du XIXe siècle, Leopold von Ranke, qui cherchait à ne montrer que ce qui est réellement arrivé (wie es eigentlich gewesen). La mémoire fonctionnelle correspond, elle, à l’interprétation symbolique ou émotive d’un fait historique, dans laquelle le passé reprend forme en étant incorporé au présent. Dans le contexte de cet article, nous pouvons positionner les métadonnées créées par l’institution dans le champ de la mémoire factuelle, et celles produites par les utilisateurs dans le champ de la mémoire fonctionnelle. Assmann explique ensuite que l’apparente opposition entre ces deux sortes de mémoire est en fait un lien d’interdépendance : elles se maintiennent mutuel- lement en équilibre. Une mémoire strictement factuelle peut perdre de sa perti- nence en étant incapable de toucher un public, tandis qu’une mémoire pure- ment fonctionnelle peut fausser le passé en modifiant ou même en inventant des événements historiques, par exemple pour qu’ils s’accordent à un glorieux passé nationaliste. Sans mémoire factuelle, la mémoire fonctionnelle se mue peu à peu en fantasmes, et la mémoire fonctionnelle finit par devenir une collec- tion de données dépourvues de signification. Cette interdépendance a un effet positif sur chacune des approches. Si la mémoire factuelle peut vérifier, sauve- garder et corriger la mémoire fonctionnelle, cette dernière peut, quant à elle, orienter et motiver la mémoire factuelle. Les caractéristiques du patrimoine numérisé, telles que son adaptabilité et sa facilité d’accès, ont pleinement contribué à le placer dans la sphère de la mémoire fonctionnelle. La possibilité, pour une institution culturelle, d’interagir avec ses publics par le biais de commentaires et d’intégrer ces derniers aux côtés des métadonnées créées par des professionnels, est donc une belle illustration de la façon dont mémoire factuelle et mémoire fonctionnelle peuvent coexister et se soutenir mutuellement. Notes 1 Expression proposée par la Commission générale de terminologie et de néologie de France. (consulté le 6 septembre 2016). 2 À l’exception de l’identification de documents iconographiques. 3 Pour une vue plus complète des apports du crowdsourcing, nous renvoyons à l’ouvrage de Mia Ridge (Ridge 2014). 4 (consulté le 14 mars 2016). 5 Fonds en ligne, fruit d’un effort collaboratif en Flickr et la Library of Congress, qui héberge depuis 2008 les collections d’images, libres de droits, d’institutions culturelles du monde entier, (consulté le 14 mars 2016).
68 CJILS / RCSIB 41, no. 1–2 2017 6 (consulté le 14 mars 2016). 7 (consulté le 16 mars 2016). 8 (consulté le 14 mars 2016). 9 (consulté le 16 mars 2016). 10 Étant donné que la recherche porte seulement sur le contenu textuel des commentaires, les autres éléments produits par les utilisateurs, tels que tags et données de géo- localisation, n’ont pas été pris en considération. 11 Le script figure dans les annexes de Earle (2014). 12 En ce qui concerne le corpus le plus massif, l’opération a été réalisée automatique- ment à l’aide d’un script. 13 Cette première grille d’analyse est basée sur la classification de Shatford (van Hooland 2006). 14 Le calcul, effectué à l’aide du logiciel OpenRefine, prend également en compte les espaces. 15 Cette formulation est inspirée de l’une des six fonctions du langage que répertorie le linguiste Roman Jakobson ; la fonction phatique sous-entend la mise en place et le maintien de la communication. 16 Ce résultat est toutefois à considérer avec précaution : toutes les personnes qui se sont appuyées sur leur expérience personnelle pour émettre de nouvelles informa- tions ne l’ont pas forcément précisé. 17 Au sein de l’échantillon étudié, aucune intervention n’a été relevée. 18 Notons que le type de plateforme peut également avoir une forte incidence sur les commentaires publiés. 19 Selon les historiens positivistes, les faits parlent d’eux-mêmes. Bibliographie Albarello, Luc. 2011. Choisir l’étude de cas comme méthode de recherche. Bruxelles : De Boeck. Andro, Mathieu et Imad Saleh. 2014. « Bibliothèques numériques et crowdsourcing : une synthèse de la littérature académique et professionnelle internationale sur le sujet ». Dans Livre post-numérique : historique, mutations et perspectives. Actes du 17e colloque international sur le document électronique (CiDE.17), sous la direction de Khaldoun Zreik, Ghislaine Azermard, Stéphane Chaudiron et Gaétan Darquie. Paris : Europia productions. Assmann, Aleida. 1995. « Funktionsgedächtnis und Speichergedächtnis – Zwei Modi der Erinnerung ». Dans Generation und Gedächtnis. Erinnerungen und kollektive Identitäten, sous la direction de Kristin Platt et Mihran Dabag, 169–185. Opladen : Leske & Budrich. http://dx.doi.org/10.1007/978-3-322-95972-0_9. Bats, Raphaëlle, dir. 2015. Construire des pratiques participatives dans les bibliothèques #33. Villeurbanne : Presses de l’enssib. Boydens, Isabelle et Seth van Hooland. 2011. « Hermeneutics Applied to the Quality of Empirical Databases ». Journal of Documentation 67 (2) : 279–289. http:// dx.doi.org/10.1108/00220411111109476. Brabham, Daren C. 2013. Crowdsourcing. Cambridge, Mass. : The MIT Press. Dunn, Stuart et Mark Hedges. 2013. « Crowd-Sourcing as a Component of Humanities Research Infrastructures ». International Journal of Humanities and Arts Computing 7 (1-2) : 147–169. http://dx.doi.org/10.3366/ijhac.2013.0086. Earle, Evan Fay. 2014. Crowdsourcing Metadata for Library and Museum Collections Using a Taxonomy of Flickr User Behavior. Cornell : Cornell University. http:// hdl.handle.net/1813/36010.
Étude des métadonnées produites par le grand public dans le secteur culturel 69 Estellés-Arolas, Enrique et Fernando González-Ladrón de Guevara. 2012. « Towards an Integrated Crowdsourcing Definition ». Journal of Information Science 38 (2) : 189–200. http://dx.doi.org/10.1177/0165551512437638. Flanagan, Mary et Peter Carini. 2012. « How Games Can Help Us Access and Under- stand Archival Images ». The American Archivist 75 (2) : 514–537. Flyvbjerg, Bent. 2006. « Five Misunderstandings About Case-Study Research ». Qualita- tive Inquiry 12 (2) : 219–245. http://dx.doi.org/10.1177/1077800405284363. Howe, Jeff. 2006. « The Rise of Crowdsourcing ». Wired Magazine. Consulté le 15 mars 2016. https://www.wired.com/2006/06/crowds/. International Organization for Standardization. 2005. Quality management systems— Fundamentals and vocabulary (ISO 9000: 2005). Geneva : ISO. Lowenthal, David. 1998. The Heritage Crusade and the Spoils of History. Cambridge : Cambridge University Press. http://dx.doi.org/10.1017/CBO9780511523809. Matarasso, François. 2002. The Weight of poetry: The Unique Challenges of Evaluating the Arts. UK Evaluation Society. Consulté le 14 mars 2016. http://parliamentof- dreams.files.wordpress.com/2012/10/2002-the-weight-of-poetry.pdf. Ridge, Mia. 2011. « Playing with Difficult Objects: Game Designs to Improve Museum Collections ». Museum and The Web 2011: Proceeding. Consulté le 24 mars 2016. http://www.museumsandtheweb.com/mw2011/papers/playing_with_ difficult_objects_game_designs_to. Ridge, Mia. 2014. Crowdsourcing Our Cultural Heritage. Farnham : Ashgate. Springer, Michelle, Beth Dulabahn, Phil Michel, Barbara Natanson, David Reser, David Woodward et Helena Zinkham. 2008. For the Common Good. The Library of Congress Flickr Pilot Project. Consulté le 24 mars 2016. http: //www.loc.gov/rr/ print/flickr_report_final.pdf. Trant, Jennifer. 2009. Tagging, Folksonomy and Art Museums: Results of steve.museum’s research. Consulté le 24 mars 2016. http://hdl.handle.net/10150/105627. van Hooland, Seth. 2006. « From Spectator to Annotator: Possibilites offered by User- Generated Metadata for Digital Cultural Heritage Collections ». Proceeding of CILIP Conference 2006. Consulté le 15 mars 2016. http://www.academia.edu/ 2807203/Spectator_becomes_annotator_Possibilities_offered_by_user-generated_ metadata_for_image_databases. van Hooland, Seth, Françoise Vandooren et Eva M. Méndez Rodrı́guez. 2011. « Opportunities and Risks for Libraries in Applying for European Funding ». Electronic Library 29 (1) : 90–104. http://dx.doi.org/10.1108/ 02640471111111451. van Hooland, Seth et Ruben Verborgh. 2014. Linked Data for Libraries, Archives and Museums: How to Clean, Link and Publish your Metadata. Chicago : ALA Editions.
Vous pouvez aussi lire