Archiver les réseaux sociaux - Données ouvertes et archives sociales - International ...
←
→
Transcription du contenu de la page
Si votre navigateur ne rend pas la page correctement, lisez s'il vous plaît le contenu de la page ci-dessous
SEMAINE INTERNATIONALE DES ARCHIVES 8 → 14 juin 2020 Archiver les réseaux sociaux #IAW2020 RENFORCER Données ouvertes et archives sociales LES SOCIÉTÉS DU SAVOIR Aniol Maria Vallès, membre du Groupe de travail sur les données et la transparence (Société catalane des archivistes et gestionnaires de documents)
2 Participez avec Slido https://www.sli.do Code de l’événement : #ArchivoSocial www.ica.org #IAW2020
3 Open Data 5 ★ Tim Berners-Lee (https://5stardata.info/fr/) : ★ publiez vos données sur le Web (peu importe leur format) avec une licence ouverte ★★ publiez-les en tant que données structurées (par exemple, un document Excel au lieu d’une image scannée d’un tableau) ★★★ publiez-les dans un format ouvert et non-propriétaire (par exemple, un CSV plutôt qu’un Excel) ★★★★ utilisez des URI pour désigner des choses dans vos données, afin que les gens puissent faire des références ★★★★★ liez vos données à d’autres données pour y ajouter du contexte contextualisation www.ica.org #IAW2020
4 Fonds sociaux Qu’est-ce qu’un fonds social ? « C’est l’ensemble des archives créées par une communauté d’utilisateurs à travers une participation active sur les réseaux sociaux autour d’intérêts ou d’événements communs » rouver un juste milieu entre activisme archivistique et archives sociales, Vicenç Ruiz, Société catalane des archivistes et gestionnaires de documents www.ica.org #IAW2020
5 Fonds sociaux Qu’est-ce qu’un fonds social ? « Un fonds social naît grâce à l’apport d’un ensemble de créateurs, parfois unis simplement par un réseau social dans le cadre d’un système privé qui n’appartient à aucun d’entre eux (colonisation numérique). Il est volumineux mais concis » Se frayer un chemin entre l’activisme archivistique et les archives sociales, Vicenç Ruiz, Société catalane des archivistes et gestionnaires de documents www.ica.org #IAW2020
6 Fonds sociaux Qu’est-ce qu’un fonds social ? « Il s’agit un élément de première importance lors de la conception d’un modèle collaboratif de gestion documentaire ou d’archives communautaires (Monash PRM), dans le but d’adopter une démarche proactive visant à garantir un accès démocratique ouvert et pérenne (archivage militant de données) et de créer des outils permettant l’automatisation des processus d’analyse (évaluation, description...) ainsi que la valorisation de l’information (archivistique informatique) » Se frayer un chemin entre l’activisme archivistique et les archives sociales, Vicenç Ruiz, Société catalane des archivistes et gestionnaires de documents www.ica.org #IAW2020
7 Sites web sociaux Sites centralisés « Illustration des réseaux sociaux » d’Isaac Anthony, disponible sous licence CC BY-NC-ND 4.0 https://search.creativecommons.org/photos/e9571c58-0453-4df6-a802-3f67dda579bc www.ica.org #IAW2020
8 Jeux de données Les jeux de données sont des paquets comprenant des ensembles de données sélectionnés à partir d’un fichier de mégadonnées (Big Data). www.ica.org #IAW2020
9 Formats internet « Document sous format ouvert dans lequel les données tabulaires sont séparées par des virgules, qui CSV représentent les colonnes, et par des sauts de ligne, qui représentent les lignes » « Langage de données textuelles ouvert et normalisé, permettant l’échange de données lisibles. Dérivé du JSON langage JavaScript, il permet de représenter des données structurées et des tableaux associatifs simples, appelés objets » www.ica.org #IAW2020
10 Métadonnées Une métadonnée fournit toutes les indications décrivant le contexte, la qualité, l’état ou les caractéristiques d’une ressource, d’une donnée ou d’un objet en vue de faciliter sa récupération, son authentification, son évaluation, sa conservation et/ou son interopérabilité. https://commons.wikimedia.org/wiki/File:Donn%C3%A9es_Exif.jpg www.ica.org #IAW2020
11 Activisme archivistique Witness https://www.witness.org/resources/ www.ica.org #IAW2020
12 Archivage de sites web À partir d’une liste d'URL de sites web que vous souhaitez archiver, ArchiveBox crée un clone HTML local, statique et navigable du contenu de ces sites (il sauvegarde, entre autres, les fichiers HTML, JS, les fichiers multimédia, les PDF et les images). ArchiveBox https://archivebox.io www.ica.org #IAW2020
13 Tweet au format JSON https://twitter.com/ICArchiv/status/1253618471591690241 www.ica.org #IAW2020
14 Tweet au format JSON https://twitter.com/ICArchiv/status/1253618471591690241 www.ica.org #IAW2020
15 Utilisation de l’API N’ayant pas conclu de contrat de transfert de données, nous sommes obligés de faire confiance à l’image renvoyée par l’API (interface de programmation d’application) et à l'aperçu qu'elle propose au format JSON. www.ica.org #IAW2020
16 Utilisation de l’API API (interface de programmation d’application) ● Interface précisant comment doivent interagir les différents éléments des programmes informatiques. ● Ensemble d'indications, sous forme de fonctions et de procédures, fournies par un service et destinées à être utilisées par un autre programme pour leur permettre d’interagir. ● Ensemble de dispositions qui définissent le contrat liant un élément informatique avec la personne qui fera usage de ses services. www.ica.org #IAW2020
17 Utilisation de l’API « Une API est un ensemble d'indications, de fonctions et de procédures qui permettent l’interaction entre les différents éléments des programmes informatiques. » www.ica.org #IAW2020
18
19 Métadonnées Comparaison des métadonnées de Twitter avec celles d’autres systèmes EAD Twitter Dublin Core PREMIS withheld_copyright rights rightsStatement user creator linkingAgentIdentifier created_at date eventDateTime lang language - id identifier objectIdentifier www.ica.org #IAW2020
20 Tweet au format JSON Déshydrater & réhydrater https://news.docnow.io/the-catalog-and-the- hydrator-3299eddfe21e www.ica.org #IAW2020
21 ID (identifiants) de tweets www.ica.org #IAW2020
22 Tweets au format CSV www.ica.org #IAW2020
23 Comment sont créés les identifiants uniques d’un tweet ? 1164106327217639425 Conversion de l’ID décimal en binaire 1000000100111101111001000100101110010100101111001000000000001 Cómo se generan los identificadores únicos de los tweets - El Blog de Marcelino Madrigal https://www.mmadrigal.com/como-se-generan-los-identificadores-unicos-de-los-tweets/ www.ica.org #IAW2020
24 Comment sont créés les identifiants uniques d’un tweet ? 1000000100111101111001000100101110010100101111001000000000001 Centre de données d'origine du tweet : Nombre ordinal 01011 = centre de du tweet données n° 11 Serveur d’origine du tweet : 11001 = serveur 25 Ce code ID correspondrait donc au premier tweet émis par le serveur 25 du centre de données 11 Cómo se generan los identificadores únicos de los tweets - El Blog de Marcelino Madrigal https://www.mmadrigal.com/como-se-generan-los-identificadores-unicos-de-los-tweets/ www.ica.org #IAW2020
25 Comment sont créés les identifiants uniques d’un tweet ? 1000000100111101111001000100101110010100101111001000000000001 Conversion du nombre binaire en décimal 277544576458 + 1288834974657 = 1566379551115 (valeur de hachage de contrôle Twitter Conversion générée par Snowflake) au format Epoch GMT : Mercredi 21 août 2019 9:25:51.115 Cómo se generan los identificadores únicos de los tweets - El Blog de Marcelino Madrigal https://www.mmadrigal.com/como-se-generan-los-identificadores-unicos-de-los-tweets/ www.ica.org #IAW2020
26 Représentation graphique #UniteTheRight Représentation de données Gephi des tweets #UniteTheRight supprimés en raison de la suspension de comptes par Twitter www.ica.org #IAW2020
27 Représentation graphique http://tweettopicexplorer.neoformix.com/#n=ICArchiv www.ica.org #IAW2020
28 Représentation graphique http://www.proyectocuentalo.org www.ica.org #IAW2020
29 Projets d'archivage avec Twitter Exemple de la Bibliothèque du Congrès des USA − Le 14 avril 2010, la Bibliothèque du Congrès a décidé de conserver tous les tweets publics créés sur Twitter au cours des dernières années qu’elle juge utiles. − Ce don de Twitter sera enregistré via la société Gnip, qui transférera les tweets vers les systèmes de conservation de la Bibliothèque du Congrès. − Ce sont plus de 55 millions de messages quotidiens, 50 champs de métadonnées, etc. dont l'accès, l'indexation, la fiabilité, la validité et l'utilité sont « libres ». www.ica.org #IAW2020
30 Projets d'archivage avec Twitter Exemple de la Bibliothèque du Congrès des USA ●L'ensemble des tweets couvre les 12 premières années d'existence de ce réseau social (2006-2017). ●Le 26 décembre 2017, il a été convenu de se montrer plus sélectif dans le choix et la collecte des tweets. ●Le fonds de la Bibliothèque du Congrès n'inclut ni images, ni vidéos ni contenus liés. ●Ce fonds demeurera inaccessible tant qu'une décision quant aux modalités de cet accès n’aura pas été prise https://blogs.loc.gov/loc/2017/12/update-on-the-twitter-archive-at-the-library-of-congress-2/ www.ica.org #IAW2020
31 Projets d'archivage avec Twitter Exemple des Archives nationales du Royaume-Uni (TNA) ● Projet intéressant, mais d'un autre genre que celui de la Bibliothèque du Congrès à ce stade. Il s'agit plutôt d'une exposition et d'une collection ciblée. ● Les TNA proposent une visualisation des tweets « en temps réel » au format JSON, XML avec un lien direct vers les comptes Twitter officiels. ● Le projet propose également l’affichage des liens intégrés dans les tweets, mais pas des contenus liés. Le lien s'affichera en indiquant simplement où se trouvait la ressource. www.ica.org #IAW2020
32 Projets d'archivage avec Twitter Exemple des Archives nationales du Royaume-Uni (TNA) www.ica.org #IAW2020
33 Projets d'archivage avec Twitter Social Control 2019 Zine Réappropriez-vous vos contenus partagés sur les réseaux sociaux (en anglais uniquement) - Alexandra Dolan-Mescal https://www.docnow.io/workshops/social- control-2019/ Téléchargez vos archives Facebook et faites-en don à la bibliothèque Alexander Turnbull https://www.youtube.com/watch?v=- 2FHw23Q4SQ https://twitter.com/fromADMwithlove/st atus/1156960213033017344 www.ica.org #IAW2020
34 Projets d'archivage avec Twitter Pétition relative au règlement général sur la protection des données (RGPD) ● Facebook a supprimé les appels et SMS de téléphones Android pendant des années [Mis à jour] | Ars Technica (en anglais uniquement) https://arstechnica.com/information- technology/2018/03/facebook- scraped-call-text-message-data-for- years-from-android-phones/ ● Comment découvrir tout ce que Facebook sait sur vous (en anglais Dylan McKay sur Twitter : « Je viens de télécharger mes données Facebook uniquement) en fichier ZIP. Allez savoir pourquoi, il contient tout l'historique des appels https://lifehacker.com/how-to-find-out- que j'ai passés à la mère de ma copine https://t.co/CIRUguf4vD » / Twitter https://twitter.com/dylanmckaynz/status/976368845635035138/ everything-facebook-knows-about- you-1824022899 www.ica.org #IAW2020
35 Twarc Recueillez des données sur Twitter avec Twarc ! · Apprenez à utiliser Twarc ! https://scholarslab.github.io/learn-twarc/ www.ica.org #IAW2020
36 Publication de jeux de données Jeux de données d’ID de tweets http://www.docnow.io/catalog/ www.ica.org #IAW2020
37 Publication de jeux de données TweetSets - Le « dataverse » de l’université George Washington https://tweetsets.library.gwu.edu Source : Social Feed Manager https://gwu- libraries.github.io/sfm-ui/ www.ica.org #IAW2020
38 Publication de jeux de données Social Feed Manager https://gwu-libraries.github.io/sfm-ui/ www.ica.org #IAW2020
39 Conclusions ● Un tweet, ce n'est pas seulement l’image affichée par votre navigateur, c'est aussi le jeu complet de métadonnées hébergé sur Twitter. ● Nous pouvons savoir ce qu’héberge Twitter et de quelle manière l'archiver grâce aux API et au format JSON. ● Nous pouvons valider les messages Twitter à condition de recevoir suffisamment de métadonnées à partir du tweet ou du profil Twitter. www.ica.org #IAW2020
Questions-réponses avec l’auditoire ⓘ Lancez la présentation pour afficher les questions du public sur cette diapositive.
Vous pouvez aussi lire