Archiver les réseaux sociaux - Données ouvertes et archives sociales - International ...

La page est créée Jacques Chauvet
 
CONTINUER À LIRE
Archiver les réseaux sociaux - Données ouvertes et archives sociales - International ...
SEMAINE
 INTERNATIONALE
 DES ARCHIVES
8 → 14 juin 2020

                   Archiver les réseaux sociaux
#IAW2020
RENFORCER
                       Données ouvertes et archives sociales
LES SOCIÉTÉS
DU SAVOIR

                   Aniol Maria Vallès, membre du Groupe de travail sur les
                   données et la transparence (Société catalane des archivistes
                   et gestionnaires de documents)
Archiver les réseaux sociaux - Données ouvertes et archives sociales - International ...
2

Participez avec Slido

              https://www.sli.do

            Code de l’événement :
               #ArchivoSocial

       www.ica.org     #IAW2020
Archiver les réseaux sociaux - Données ouvertes et archives sociales - International ...
3

                    Open Data 5 ★
Tim Berners-Lee (https://5stardata.info/fr/) :
★ publiez vos données sur le Web (peu importe leur format) avec une
licence ouverte
★★ publiez-les en tant que données structurées (par exemple, un
document Excel au lieu d’une image scannée d’un tableau)
★★★ publiez-les dans un format ouvert et non-propriétaire (par
exemple, un CSV plutôt qu’un Excel)
★★★★ utilisez des URI pour désigner
des choses dans vos données, afin que
les gens puissent faire des références
★★★★★ liez vos données à d’autres
données pour y ajouter du contexte
contextualisation

                             www.ica.org       #IAW2020
Archiver les réseaux sociaux - Données ouvertes et archives sociales - International ...
4

                        Fonds sociaux
                  Qu’est-ce qu’un fonds social ?

« C’est l’ensemble des archives créées par une
communauté d’utilisateurs à travers une participation
active sur les réseaux sociaux autour d’intérêts ou
d’événements communs »
rouver un juste milieu entre activisme archivistique et archives sociales,
Vicenç Ruiz, Société catalane des archivistes et gestionnaires de
documents

                                 www.ica.org              #IAW2020
Archiver les réseaux sociaux - Données ouvertes et archives sociales - International ...
5

                       Fonds sociaux
                  Qu’est-ce qu’un fonds social ?

« Un fonds social naît grâce à l’apport d’un ensemble
de créateurs, parfois unis simplement par un réseau
social dans le cadre d’un système privé qui
n’appartient à aucun d’entre eux (colonisation
numérique). Il est volumineux mais concis »
Se frayer un chemin entre l’activisme archivistique et les archives sociales,
Vicenç Ruiz, Société catalane des archivistes et gestionnaires de
documents

                                 www.ica.org             #IAW2020
Archiver les réseaux sociaux - Données ouvertes et archives sociales - International ...
6

                       Fonds sociaux
                 Qu’est-ce qu’un fonds social ?

« Il s’agit un élément de première importance lors de la
conception d’un modèle collaboratif de gestion documentaire
ou d’archives communautaires (Monash PRM), dans le but
d’adopter une démarche proactive visant à garantir un accès
démocratique ouvert et pérenne (archivage militant de
données) et de créer des outils permettant l’automatisation
des processus d’analyse (évaluation, description...) ainsi que
la valorisation de l’information (archivistique informatique) »
Se frayer un chemin entre l’activisme archivistique et les archives
sociales, Vicenç Ruiz, Société catalane des archivistes et gestionnaires de
documents

                                www.ica.org            #IAW2020
Archiver les réseaux sociaux - Données ouvertes et archives sociales - International ...
7

                Sites web sociaux
                            Sites centralisés

« Illustration des réseaux sociaux » d’Isaac Anthony, disponible sous licence CC BY-NC-ND 4.0
      https://search.creativecommons.org/photos/e9571c58-0453-4df6-a802-3f67dda579bc

                                     www.ica.org                           #IAW2020
Archiver les réseaux sociaux - Données ouvertes et archives sociales - International ...
8

          Jeux de données

Les jeux de données sont des paquets
comprenant des ensembles de données
  sélectionnés à partir d’un fichier de
      mégadonnées (Big Data).

                www.ica.org   #IAW2020
Archiver les réseaux sociaux - Données ouvertes et archives sociales - International ...
9

              Formats internet

       « Document sous format ouvert dans lequel les données
       tabulaires sont séparées par des virgules, qui
CSV    représentent les colonnes, et par des sauts de ligne, qui
       représentent les lignes »

       « Langage de données textuelles ouvert et normalisé,
       permettant l’échange de données lisibles. Dérivé du
JSON
       langage JavaScript, il permet de représenter des
       données structurées et des tableaux associatifs simples,
       appelés objets »

                         www.ica.org          #IAW2020
Archiver les réseaux sociaux - Données ouvertes et archives sociales - International ...
10

                     Métadonnées

Une métadonnée fournit
toutes les indications décrivant
le contexte, la qualité, l’état ou
les caractéristiques d’une
ressource, d’une donnée ou
d’un objet en vue de faciliter
sa récupération, son
authentification, son
évaluation, sa conservation
et/ou son interopérabilité.
                                     https://commons.wikimedia.org/wiki/File:Donn%C3%A9es_Exif.jpg

                             www.ica.org                          #IAW2020
11

Activisme archivistique

 Witness https://www.witness.org/resources/

                www.ica.org              #IAW2020
12

Archivage de sites web
                                          À partir d’une liste
                                          d'URL de sites web
                                          que vous souhaitez
                                          archiver, ArchiveBox
                                          crée un clone HTML
                                          local, statique et
                                          navigable du
                                          contenu de ces sites
                                          (il sauvegarde, entre
                                          autres, les fichiers
                                          HTML, JS, les
                                          fichiers multimédia,
                                          les PDF et les
                                          images).
  ArchiveBox https://archivebox.io

              www.ica.org            #IAW2020
13

   Tweet au format JSON

https://twitter.com/ICArchiv/status/1253618471591690241

                     www.ica.org              #IAW2020
14

   Tweet au format JSON

https://twitter.com/ICArchiv/status/1253618471591690241

                     www.ica.org              #IAW2020
15

          Utilisation de l’API

N’ayant pas conclu de contrat de transfert de
données, nous sommes obligés de faire
confiance à l’image renvoyée par l’API
(interface de programmation d’application)
et à l'aperçu qu'elle propose au format JSON.

                   www.ica.org   #IAW2020
16

                 Utilisation de l’API
API (interface de programmation d’application)

●   Interface précisant comment doivent interagir les différents
    éléments des programmes informatiques.

●   Ensemble d'indications, sous forme de fonctions et de
    procédures, fournies par un service et destinées à être
    utilisées par un autre programme pour leur permettre
    d’interagir.

●   Ensemble de dispositions qui définissent le contrat liant un
    élément informatique avec la personne qui fera usage de
    ses services.

                             www.ica.org         #IAW2020
17

        Utilisation de l’API
« Une API est un ensemble d'indications,
de fonctions et de procédures qui
permettent l’interaction entre les différents
éléments des programmes informatiques. »

                  www.ica.org      #IAW2020
18
19

                      Métadonnées
Comparaison des métadonnées de Twitter avec celles
               d’autres systèmes
     EAD               Twitter            Dublin Core            PREMIS

   withheld_copyright            rights       rightsStatement

                user                    creator    linkingAgentIdentifier

               created_at                  date        eventDateTime

              lang                language                 -

                  id                identifier        objectIdentifier

                                  www.ica.org             #IAW2020
20

             Tweet au format JSON
Déshydrater & réhydrater https://news.docnow.io/the-catalog-and-the-
  hydrator-3299eddfe21e

                              www.ica.org            #IAW2020
21

ID (identifiants) de tweets

          www.ica.org   #IAW2020
22

Tweets au format CSV

       www.ica.org   #IAW2020
23

   Comment sont créés les identifiants
        uniques d’un tweet ?
                              1164106327217639425

                                      Conversion de
                                           l’ID
                                         décimal
                                        en binaire

1000000100111101111001000100101110010100101111001000000000001

  Cómo se generan los identificadores únicos de los tweets - El Blog de Marcelino Madrigal
   https://www.mmadrigal.com/como-se-generan-los-identificadores-unicos-de-los-tweets/

                                      www.ica.org                     #IAW2020
24

    Comment sont créés les identifiants
         uniques d’un tweet ?
1000000100111101111001000100101110010100101111001000000000001

       Centre de données
       d'origine du tweet :
                                                                          Nombre ordinal
       01011 = centre de
                                                                            du tweet
         données n° 11
                                                Serveur d’origine
                                                   du tweet :
                                               11001 = serveur 25

  Ce code ID correspondrait donc au premier tweet émis par le serveur 25 du
                            centre de données 11

   Cómo se generan los identificadores únicos de los tweets - El Blog de Marcelino Madrigal
    https://www.mmadrigal.com/como-se-generan-los-identificadores-unicos-de-los-tweets/

                                       www.ica.org                      #IAW2020
25

     Comment sont créés les identifiants
          uniques d’un tweet ?
1000000100111101111001000100101110010100101111001000000000001

          Conversion
          du nombre
            binaire
          en décimal

     277544576458 + 1288834974657 = 1566379551115
                 (valeur de hachage de
                     contrôle Twitter  Conversion
                générée par Snowflake)  au format
                                                               Epoch

                                   GMT : Mercredi 21 août 2019 9:25:51.115

  Cómo se generan los identificadores únicos de los tweets - El Blog de Marcelino Madrigal
   https://www.mmadrigal.com/como-se-generan-los-identificadores-unicos-de-los-tweets/

                                        www.ica.org                      #IAW2020
26

     Représentation graphique
                      #UniteTheRight

Représentation de données Gephi des tweets #UniteTheRight supprimés en raison de la
                        suspension de comptes par Twitter

                                  www.ica.org                    #IAW2020
27

Représentation graphique

 http://tweettopicexplorer.neoformix.com/#n=ICArchiv

                   www.ica.org               #IAW2020
28

Représentation graphique

     http://www.proyectocuentalo.org

              www.ica.org              #IAW2020
29

Projets d'archivage avec Twitter
Exemple de la Bibliothèque du Congrès des USA

−   Le 14 avril 2010, la Bibliothèque du Congrès a décidé de
    conserver tous les tweets publics créés sur Twitter au cours
    des dernières années qu’elle juge utiles.
−   Ce don de Twitter sera enregistré via la société Gnip, qui
    transférera les tweets vers les systèmes de conservation de
    la Bibliothèque du Congrès.
−   Ce sont plus de 55 millions de messages quotidiens, 50
    champs de métadonnées, etc. dont l'accès, l'indexation, la
    fiabilité, la validité et l'utilité sont « libres ».

                          www.ica.org          #IAW2020
30

     Projets d'archivage avec Twitter
    Exemple de la Bibliothèque du Congrès des USA

●L'ensemble des tweets couvre les 12 premières années d'existence de
ce réseau social (2006-2017).
●Le 26 décembre 2017, il a été convenu de se montrer plus sélectif dans

le choix et la collecte des tweets.
●Le fonds de la Bibliothèque du Congrès n'inclut ni images, ni vidéos ni

contenus liés.
●Ce fonds demeurera inaccessible tant qu'une décision quant aux

modalités de cet accès n’aura pas été prise

https://blogs.loc.gov/loc/2017/12/update-on-the-twitter-archive-at-the-library-of-congress-2/

                                        www.ica.org                   #IAW2020
31

      Projets d'archivage avec Twitter
Exemple des Archives nationales du Royaume-Uni (TNA)

 ●   Projet intéressant, mais d'un autre genre que celui de la
     Bibliothèque du Congrès à ce stade. Il s'agit plutôt d'une
     exposition et d'une collection ciblée.

 ●   Les TNA proposent une visualisation des tweets « en temps
     réel » au format JSON, XML avec un lien direct vers les comptes
     Twitter officiels.

 ●   Le projet propose également l’affichage des liens intégrés dans
     les tweets, mais pas des contenus liés. Le lien s'affichera en
     indiquant simplement où se trouvait la ressource.

                                www.ica.org           #IAW2020
32

    Projets d'archivage avec Twitter
Exemple des Archives nationales du Royaume-Uni (TNA)

                      www.ica.org    #IAW2020
33

Projets d'archivage avec Twitter

                                            Social Control 2019 Zine
                                            Réappropriez-vous vos contenus
                                            partagés sur les réseaux sociaux
                                            (en anglais uniquement) -
                                            Alexandra Dolan-Mescal

                                            https://www.docnow.io/workshops/social-
                                            control-2019/

                                            Téléchargez vos archives Facebook
                                            et faites-en don à la bibliothèque
                                            Alexander Turnbull

                                            https://www.youtube.com/watch?v=-
                                            2FHw23Q4SQ

https://twitter.com/fromADMwithlove/st
atus/1156960213033017344

                                         www.ica.org               #IAW2020
34

             Projets d'archivage avec Twitter
                        Pétition relative au règlement général
                        sur la protection des données (RGPD)

                                                                                   ●   Facebook a supprimé les appels et
                                                                                       SMS de téléphones Android
                                                                                       pendant des années [Mis à jour] |
                                                                                       Ars Technica (en anglais
                                                                                       uniquement)
                                                                                       https://arstechnica.com/information-
                                                                                       technology/2018/03/facebook-
                                                                                       scraped-call-text-message-data-for-
                                                                                       years-from-android-phones/
                                                                                   ●   Comment découvrir tout ce que
                                                                                       Facebook sait sur vous (en anglais
Dylan McKay sur Twitter : « Je viens de télécharger mes données Facebook               uniquement)
 en fichier ZIP. Allez savoir pourquoi, il contient tout l'historique des appels       https://lifehacker.com/how-to-find-out-
 que j'ai passés à la mère de ma copine https://t.co/CIRUguf4vD » / Twitter
       https://twitter.com/dylanmckaynz/status/976368845635035138/                     everything-facebook-knows-about-
                                                                                       you-1824022899

                                                                  www.ica.org                       #IAW2020
35

                              Twarc

Recueillez des données sur Twitter avec Twarc ! · Apprenez à utiliser Twarc !
                  https://scholarslab.github.io/learn-twarc/

                               www.ica.org                  #IAW2020
36

Publication de jeux de données
    Jeux de données d’ID de tweets
      http://www.docnow.io/catalog/

               www.ica.org      #IAW2020
37

  Publication de jeux de données
TweetSets - Le « dataverse » de l’université George
 Washington https://tweetsets.library.gwu.edu

           Source : Social Feed Manager https://gwu-
                    libraries.github.io/sfm-ui/

                         www.ica.org              #IAW2020
38

Publication de jeux de données

  Social Feed Manager https://gwu-libraries.github.io/sfm-ui/

                         www.ica.org               #IAW2020
39

                    Conclusions

●   Un tweet, ce n'est pas seulement l’image
    affichée par votre navigateur, c'est aussi le jeu
    complet de métadonnées hébergé sur Twitter.

●   Nous pouvons savoir ce qu’héberge Twitter et de
    quelle manière l'archiver grâce aux API et au
    format JSON.

●   Nous pouvons valider les messages Twitter à
    condition de recevoir suffisamment de
    métadonnées à partir du tweet ou du profil Twitter.

                         www.ica.org      #IAW2020
Questions-réponses avec l’auditoire

 ⓘ Lancez la présentation pour afficher les questions du public sur cette diapositive.
Vous pouvez aussi lire