Quanti!er la perception: le point de vue des arts numériques - Apahau

La page est créée Estelle Martin
 
CONTINUER À LIRE
Quanti!er la perception: le point de vue des arts numériques - Apahau
ÉTUDES   Aline GUILLERMET

         Quantifier la perception :
         le point de vue des arts
         numériques

         Les difficultés méthodologiques que présente l’application de procédés quantitatifs
         à des fins qualitatives sont au cœur des débats concernant la pertinence des huma-
         nités numériques pour l’histoire de l’art 1. D’un côté, l’automatisation de processus
         analogues permettrait de générer de nouveaux liens, et potentiellement de nouveaux
         résultats déterminants pour le futur de la discipline. L’approche quantitative, loin
         de mettre en danger les aspects qualitatifs, pourrait alors en être fondatrice 2. D’un
         autre côté, on imagine sans peine des domaines dans lesquels les analyses computa-
         tionnelles échoueraient à rendre compte de la complexité de leur objet. Alors que la
         « lecture à distance 3 », ou approche computationnelle de textes, est devenue centrale
         dans les études littéraires depuis une dizaine d’années, une potentielle « vision à dis-
         tance » nécessite une réduction quantitative préalable du langage visuel et pose un défi
         de taille à l’histoire de l’art numérique.
            Peut-on quantifier et modéliser la réception des œuvres ? Récemment, la recherche
         en histoire de l’art a abordé cette question de deux manières complémentaires. Une
         première approche consiste à étudier la perception humaine des œuvres, grâce à l’en-
         registrement et à l’analyse des mouvements du regard. Les approches quantitatives
         ont ici pour but de dégager des constantes qui permettraient de mieux comprendre
         et, potentiellement, d’anticiper les schémas de réception des œuvres. Une seconde
         approche utilise les analyses computationnelles de l’image (vision par ordinateur) afin
         de mettre en place des processus perceptifs automatisés. Ce second domaine ambitionne de
         dégager des approches perceptives inédites, potentiellement capables de générer « des
         perspectives différentes de celles résultant de la seule observation par l’œil humain 4 »,
         comme le suggère la théoricienne des médias Johanna Drucker.
            En parallèle à leur utilisation en histoire de l’art, les technologies d’enregistrement
         des processus perceptifs d’une part et les analyses computationnelles de l’image d’autre
         part ont récemment fait l’objet d’appropriations artistiques. Affichant souvent des posi-
         tions critiques par rapport aux utilisations sociétales du numérique, plusieurs œuvres
         récentes cherchent à mettre en lumière les risques que comporte l’application du
         numérique à la subjectivité humaine. Grâce à l’utilisation de l’intelligence artificielle
         et du machine learning (apprentissage automatique), ces œuvres abordent les problèmes
         de la neutralité de l’algorithme et de la porosité entre analyse objective et appréciation
         subjective. Elles offrent donc un prisme à travers lequel considérer les difficultés, tant
         méthodologiques que philosophiques, de l’application de méthodes quantitatives
         au domaine de l’histoire de l’art.
            Cet article propose de considérer les perspectives critiques que l’art numérique peut
         apporter dans l’évaluation d’une approche quantitative de l’histoire de l’art, non pas
         du point de vue des résultats de ces technologies dans les études existantes, mais plutôt
         d’un point de vue heuristique. Ayant fourni un contexte historique à ces questions,

                                                                                    HISTOIRE DE L’ART NO 87   159
Quanti!er la perception: le point de vue des arts numériques - Apahau
nous considérerons une sélection d’études en histoire de l’art numérique à l’aulne
      de pratiques artistiques utilisant des technologies correspondantes, tout d’abord dans
      le champ de la perception du regard, puis dans celui de l’analyse d’images.

      Buswell, Moles et l’esthétique
      informationnelle
      Peut-on quantifier les processus de réception artistique ? Cette question n’est ni inédite,
      ni spécifique aux humanités numériques du xxie siècle. Les premières recherches sur
      les mouvements du regard appliquées à la perception de tableaux ont été réalisées par
      Guy Thomas Buswell en 1935. Publiée dans l’ouvrage How We Look at Pictures à l’issue
      de 1 877 enregistrements effectués auprès de 200 personnes, cette étude permit pour
      la première fois de mettre en lumière les multiples mouvements inconscients des yeux
      lors de l’observation d’une œuvre 5. En établissant des représentations graphiques des
      parcours visuels, Buswell établit également des constantes dans les comportements
      perceptifs, en particulier dans l’identification de « centres d’intérêt » (ou « régions
      d’intérêt ») dans une image donnée6. Malgré ces résultats importants, Buswell demeurait
      extrêmement circonspect quant à leur interprétation qualitative :
              Ce rapport ne traite en aucune manière de la nature du processus d’appréciation
              [esthétique] lors de la considération de tableaux. Les données relatives aux sché-
              mas de perception sont entièrement objectives, mais ne donnent aucune indication,
              sauf par inférence, en ce qui concerne la nature de la réponse subjective du sujet
              par rapport au tableau 7.

      De fait, l’impact de ces données en dehors de leur domaine propre, et en particulier
      sur les sphères esthétique et artistique, demeurait ténu, comme le remarqua un com-
      mentateur de l’époque : « Il semblerait qu’il n’y ait rien dans cette recherche qui ait
      une quelconque importance pour la science esthétique ou la psychologie 8. »
         Dès la fin des années 1950 cependant, le respect de la différence entre mesures
      quantitatives et sphère qualitative fut remis en question par l’émergence de l’esthétique
      informationnelle. Située entre la théorie de l’information, la psychologie et la philo-
      sophie, cette nouvelle discipline ambitionnait justement d’établir des bases scientifiques
      à l’étude de l’art, grâce à l’application de principes théoriques dérivés des sciences de la
      communication, et plus particulièrement ceux de la théorie de l’information de Claude
      Shannon, à la création et à la réception des œuvres 9. Théorisée par Abraham Moles en
      France, cette approche reposait sur la conviction que l’art est lui-même « un phénomène
      de communication 10 ». Ainsi, pour Moles : « L’esthétique informationnelle applique au
      monde des formes un système de mesure, cherche à dégager objectivement les caractères
      physiques et les propriétés statistiques du message et de son expérience perceptive par
      l’individu 11. » L’esthétique informationnelle souhaitait s’émanciper d’une tradition
      esthétique considérée comme inutilement métaphysique, affirmant au contraire que
      la beauté serait liée à des propriétés « démontrables statistiquement et susceptibles
      de contrôle expérimental 12 ». Fort de ce programme, Moles imaginait en 1971 un
      futur dans lequel les « ingénieurs en émotion » seraient capables de « programmer
      [le] plaisir esthétique 13 ».
         Un demi-siècle plus tard, l’essor de l’intelligence artificielle contribue – du moins
      en apparence – à brouiller la distinction entre processus algorithmique et processus
      humain. Le machine learning permet désormais de réaliser des tâches imitant la créativité
      humaine, telles que la rédaction de fiction et de poésie. Si les premiers essais de pro-
      grammation de l’écriture par ordinateur remontent aux années 1960, les programmes
      de génération de langage actuels donnent de surprenants résultats, comme le montre
      un éditorial récent généré par GPT-3 et publié dans la presse britannique 14. Dans cet
      exemple, comme dans toutes les productions du machine learning, l’illusion d’intelligence

160   QUANTIFIER LA PERCEPTION : LE POINT DE VUE DES ARTS NUMÉRIQUES
Quanti!er la perception: le point de vue des arts numériques - Apahau
repose en réalité sur un processus analytique au cours duquel l’algorithme « apprend »
à écrire à partir d’un corpus donné – ici, la totalité de la Toile. Les programmes de géné-
ration de langage permettent également de simuler – à défaut de « programmer » – les
émotions humaines, comme le montre l’œuvre Empathy Deck (2018), conçue par l’artiste
d’origine grecque Erica Scourti 15. Présenté comme « un robot avec des sentiments »,
ce programme envoie sur Twitter des messages de réconfort personnalisés en réponse
aux tweets de ses abonnés. Dans ce cas précis, l’apprentissage a été effectué à partir
du contenu des journaux intimes de l’artiste, ce qui génère des conseils de type déve-
loppement personnel, tels que « La pleine conscience consiste à porter son attention
sur le moment présent avec compassion. » Compte tenu de ces nouvelles possibilités
technologiques, comment les études quantitatives de la perception humaine qui nous
intéressent ici négocient-elles la fracture disciplinaire que Moles avait espéré combler ?

Percevoir un tableau :
de Diderot à la peinture numérique
La question du rapport entre mouvements de l’œil et image remonte au moins à l’hypo-
thèse, formulée par Denis Diderot lors du Salon de 1767, d’une « ligne de liaison 16 »,
qui déterminerait le parcours du regard. Diderot suggérait que, confronté à un tableau
tel que Le Miracle des ardents de Gabriel-François Doyen, l’œil serait « irrégulièrement
promené », comme « égaré dans [le] labyrinthe17 » de la composition. La ligne de liaison,
pour Diderot, ne se contente pas de connecter harmonieusement les parties du tableau ;
elle est également une donnée objective qui détermine tant l’expérience esthétique
que l’analyse critique du tableau, puisqu’elle « condui[t] et celui qui la regarde et celui
qui tente de la décrire 18 ».
   Une étude menée par le Laboratory for Cognitive Research in Art History à l’université
de Vienne, sous la direction de Raphael Rosenberg et Christoph Klein, a récemment
réexaminé cette question. Les auteurs prennent l’hypothèse de Diderot comme point
de départ à leur travail, qui consiste à présenter des reproductions numériques de deux
tableaux (celui de Doyen et Saint Denis prêchant la foi en France de Joseph-Marie Vien,
également discuté par Diderot), à un groupe de quarante observateurs, divisés en deux
groupes de vingt experts et vingt novices. Les données correspondant aux parcours
individuels de perception sont organisées en périodes de fixations sur certaines régions
d’intérêt du tableau et en saccades (les mouvements brefs et extrêmement rapides du
regard allant d’une région d’intérêt à l’autre). Un algorithme se charge de calculer
le nombre de transitions opérées par saccades oculaires entre chaque région 19. Les
auteurs tirent deux enseignements de cette étude : si « les analyses de Diderot […] ne
correspondent pas à la dynamique réelle de l’œil » (Buswell était déjà arrivé à cette
conclusion en 1935), l’analyse de la moyenne des répétitions de saccades, en revanche,
« révèle que plusieurs aspects du texte de Diderot sont en effet corrects20 ». En d’autres
termes, l’analyse quantitative des mouvements du regard permet de confirmer, tout en
l’affinant, l’intuition de Diderot 21. Ces conclusions sont relativement modestes, voire
décevantes : comme le notait Michael Baxandall dans le contexte d’une étude portant
sur les trajectoires et schémas de fixation du regard dans Violon et Pichet de Georges
Braque, « les éléments fixés confirment généralement les attentes 22 ». En outre, ces
conclusions posent la question du sens de l’application de méthodes quantitatives
à la perception humaine.
   Cette question anime une série d’œuvres récentes réalisées par l’artiste suédois
Jonas Lund. En 2013, il concevait l’installation Gallery Analytics pour l’exposition
« Momentum » à La Haye. Un dispositif captant les connexions wifi des visiteurs per-
mettait d’analyser la progression en temps réel de ces derniers dans le lieu d’exposition.
Les données ainsi récoltées étaient traitées afin de renseigner le nombre total de visi-
teurs, la durée moyenne de visite de l’exposition et la durée passée par visiteur devant

                                                                            HISTOIRE DE L’ART NO 87   161
Quanti!er la perception: le point de vue des arts numériques - Apahau
Fig. 1. Jonas Lund, VIP (Viewer Improved Painting),
      2014, écran de télévision 50 pouces, cadre en métal
      et caméra oculométrique. Vue de l’installation
      à Amsterdam, Foam Fotografiemuseum, 2014.

      chaque œuvre. Avec cette installation, l’artiste dénonçait l’utilisation de dispositifs
      similaires à des fins commerciales, notamment dans les galeries marchandes, où ils per-
      mettent d’étudier quelles vitrines retiennent l’attention des passants. Plus fondamenta-
      lement, Lund interrogeait aussi la signification des données ainsi récoltées : « Qu’est-ce
      que cela peut bien vouloir dire, qu’un visiteur passe plus de temps devant une œuvre
      que devant une autre 23 ? »
         Dans VIP (Viewer Improved Painting) (Peinture améliorée par l’observateur), une instal-
      lation réalisée en 2014, Lund applique ce questionnement à la perception d’une peinture
      numérique (fig. 1). VIP est composée de deux écrans accrochés verticalement l’un à côté
      de l’autre et d’une caméra enregistrant les mouvements du regard, située entre les deux
      écrans. Un algorithme traite ces données en suivant la logique du système d’évaluation
      de performances appelé A/B testing : si l’observateur regarde à gauche, l’algorithme
      prendra en compte cette « préférence » en effaçant le contenu de l’écran droit de sa
      base de données, et vice versa 24. Au départ, les écrans sont monochromes : rouge d’un
      côté, bleu de l’autre. Suite aux données récoltées par la caméra centrale, leur surface se
      complexifie progressivement : les couleurs sont sans cesse modifiées par l’algorithme.
      Au grès des recombinaisons, les deux écrans prennent l’allure de color fields numériques
      aux accents rose, bleu, violet et vert. Bien que technologiquement moins sophistiquée
      que l’étude de Rosenberg et Klein citée précédemment (la caméra ne distingue pas les
      mouvements spécifiques du regard), cette installation utilise une logique proche de
      l’analyse des régions d’intérêt et génère une question similaire : Qu’est-ce que cela peut
      bien vouloir dire, qu’un observateur regarde à gauche plutôt qu’à droite ?
         En raison de la technologie basique de VIP et de son traitement binaire de l’informa-
      tion, le lien entre l’enregistrement des « préférences » subjectives et les combinaisons
      picturales qui en résultent est extrêmement ténu. L’expérience de l’œuvre en temps réel,
      par exemple, ne permet pas de déceler le moindre lien causal entre modes d’attention

162   QUANTIFIER LA PERCEPTION : LE POINT DE VUE DES ARTS NUMÉRIQUES
Quanti!er la perception: le point de vue des arts numériques - Apahau
Fig. 2. Erica Scourti, So Like You, 2014,
image de production.

                                            HISTOIRE DE L’ART NO 87   163
et changements picturaux. Mais l’intérêt de VIP ne réside ni dans l’analyse des données
      récoltées par la caméra, ni dans les combinaisons de couleurs qui en résultent – même si
      ces dernières peuvent être plus ou moins satisfaisantes pour le public. Du point de vue
      de l’histoire de l’art, l’importance de cette œuvre réside plutôt dans les interrogations
      qu’elle suscite quant à la pertinence des choix méthodologiques et technologiques
      effectués en amont des processus numériques. En dénonçant la vacuité de l’hypothèse
      marketing, qui équivaut la durée de la contemplation à une plus grande « quantité »
      d’intérêt, VIP montre que l’utilisation du numérique exige un cadre théorique rigoureux
      et des questions précises. En outre, cette œuvre soulève le problème de la dépendance
      croissante des processus de sélection – esthétiques et autres – envers la logique de l’algo-
      rithme. Une série de peintures produite deux ans plus tard par Lund approfondit cette
      question. Les œuvres réunies sous le titre New Now (2016) sont des images abstraites,
      imprimées sur Plexiglas, qui résultent d’un processus de machine learning effectué à partir
      du corpus existant des œuvres de Lund. L’algorithme est programmé pour « optimi-
      ser » la valeur esthétique des nouvelles œuvres par rapport aux précédentes et devient
      ainsi le nouvel agent des décisions artistiques.
         Face à la menace de l’assujettissement des processus de création et de réception
      artistiques à une logique automatique, exemplifiée par New Now et VIP respectivement,
      comment donner du sens aux applications du numérique à l’étude de la perception
      de tableaux ? Un exemple récent, appliqué à la réception de l’œuvre Un bar aux Folies-
      Bergères (1882), d’Édouard Manet, fournit une piste intéressante. Michael Fried avait
      interprété la composition picturale de ce tableau en fonction des modalités d’attention
      de l’observateur 25. Il avait démontré l’ambiguïté de la composition pour le sujet de
      l’expérience esthétique, qui se retrouve dans une position incertaine quant à sa relation
      avec la serveuse qui semble lui faire face, alors qu’elle paraît en même temps – l’image
      dans le miroir nous l’apprend – faire face à un client. Une étude récente a cherché des
      preuves empiriques de cette « double relation 26 » dans la réception du tableau en ana-
      lysant les mouvements du regard de deux groupes de participants, séparés en experts et
      non experts. L’étude montre que les participants considérés comme experts effectuent
      « de nombreuses saccades entre [la serveuse, son reflet, et le reflet du client], ce qui
      suggère qu’ils ou elles étaient en train d’évaluer chaque figure dans sa relation aux
      autres, et donc, probablement, en train d’évaluer la nature de leur relation27 ». Selon les
      auteurs, leurs résultats « suggèrent que les théories de modalités d’attention sont inscrites
      dans une réalité psychologique 28 ». L’étude permet donc de mettre en lumière, au-delà
      de la quantification des trajets du regard, un processus de réflexion face à l’œuvre :
      un jeu des facultés mentales tentant de résoudre une énigme picturale 29.

      Percevoir un tableau :
      la vision par ordinateur
      Le développement de l’analyse computationnelle de l’image et son application récente
      à l’histoire de l’art inaugurent une deuxième approche dans la quantification de la
      perception des œuvres. Métaphoriquement appelée « vision par ordinateur », l’analyse
      computationnelle de l’image met à profit le machine learning pour identifier des liens
      formels au sein d’un corpus donné. En histoire de l’art, les applications vont de l’analyse
      structurelle d’œuvres individuelles à la comparaison et à la classification de motifs dans
      un corpus donné. Jusqu’ici, l’analyse computationnelle a principalement servi à auto-
      matiser des processus analogues, rendant possibles des comparaisons à grande échelle.
      Ces applications, souvent fructueuses, remettent en cause la stricte opposition entre
      les domaines quantitatifs et qualitatifs : comme l’a remarqué Drucker, le changement
      d’échelle lui-même peut potentiellement produire « un effet radicalement différent30 ».
         Cependant, l’analyse computationnelle de l’image pose deux défis à l’histoire de l’art.
      Le premier, générique, concerne la nature même de la vision par ordinateur. Une brève

164   QUANTIFIER LA PERCEPTION : LE POINT DE VUE DES ARTS NUMÉRIQUES
Fig. 3. Analyse d’image tirée
                                                                  de la base de données
                                                                  Visual Genome, 2017, publiée
                                                                  dans Krishna, Zhu et al.,
                                                                  « Visual Genome », p. 35,
                                                                  cité n. 41.

considération des logiciels de reconnaissance automatique suffit pour constater que ce
qu’on appelle « vision » par ordinateur est en réalité un processus de reconnaissance
formelle, qui repose sur une programmation et un travail d’apprentissage préalables. Le
second, plus spécifique, concerne la nature de l’objet d’étude et l’aisance avec laquelle
sa structure formelle se prête à la quantification nécessaire au traitement algorithmique.
   Une autre œuvre de Scourti révèle certaines des difficultés résultant du premier
point. Dans So Like You (2014), l’artiste présente ses propres photographies de jeunesse
à des logiciels de reconnaissance et d’annotation automatique de l’image, tels que
la fonction « recherche d’images similaires » dans Google ou encore CamFind, une
application qui prétend « identifier » le contenu de photographies prises par un télé-
phone (fig. 2). Dans un article éponyme discutant l’œuvre, Scourti publie un exemple
d’une photographie « vue » par ce dernier logiciel 31. Elle représente deux jeunes filles
adolescentes et est étiquetée au moyen des mots-clés suivants : « happy » (heureuses),
« person » (personnes), « human » (humain), mais aussi : « pretty » (jolies), « attractive »
(séduisantes) et « cute » (mignonnes). Alors que la première série de mots indique un
processus de reconnaissance formelle, la seconde implique des jugements de valeur
qui en disent plus sur le contenu du processus d’apprentissage de l’algorithme que sur
le contenu de l’image. Comme le note Scourti en conclusion de l’article, « les logiciels
d’annotation automatique qui appliquent des mots-clés descriptifs aux images révèlent
le sexisme des personnes qui ont conçu la taxonomie 32 ».
   Les humanités numériques sont conscientes de ce défi : l’étude automatique d’un
corpus d’images à des fins scientifiques demande un travail critique préalable sur la
nature de l’objet d’étude. Celui-ci rend possible les décisions méthodologiques quant à
la quantification de l’objet, comme le montre une étude des formules du pathos (Pathos-
formeln) dans l’Atlas Mnémosyne d’Aby Warburg33. Cette recherche propose de transfor-
mer le concept de Pathosformel en « une série d’opérations quantifiables, afin d’en faire
un instrument qui permettrait de mesurer les objets auxquels il se réfère 34 ». À l’issue
d’une analyse conceptuelle qui met en avant l’importance des attitudes du corps dans
l’expression du pathos, les auteurs conçoivent la quantification des images en fonction
de trois partis pris méthodologiques : 1) extraire les figures humaines de leur contexte

                                                                               HISTOIRE DE L’ART NO 87   165
Fig. 4. Toby Ziegler, The Visual Genome, 2019,
      installation audiovisuelle à deux canaux, 4 min.
      19 s., extrait.

      d’origine ; 2) réduire les figures humaines à la dimension de « squelette » ; 3) mesu-
      rer exclusivement les onze angles formés par les positions des bras et des jambes35. La
      réduction des objets d’étude (une série de représentations d’hommes et de femmes) à
      cette dimension linéaire permet à l’algorithme de « voir » et de classer ces objets. Selon
      les auteurs, le résultat de cet exercice fut le suivant : l’algorithme parvint à identifier et
      isoler toutes les silhouettes associées, par Warburg, à des formules de pathos. Les auteurs
      en concluent que leur analyse ouvre la voie à « un élargissement du projet Mnémosyne
      bien au-delà de ce que Warburg avait été capable de faire lui-même 36 ».
         En d’autres termes, cette étude soutient que l’algorithme pourrait effectuer les
      mêmes tâches que Warburg, à plus grande échelle. Mais permet-elle aussi d’affirmer
      que la perception algorithmique « voit » des aspects jusqu’ici demeurés imperceptibles à
      l’œil humain 37 ? Dans l’étude des formes du pathos, ce que l’algorithme a « vu » prête
      à controverse : contrairement aux attentes des auteurs, toutes les formules du pathos,
      bien que correctement identifiées, ont été regroupées en une même catégorie par
      l’algorithme, mettant sur le même plan une série d’images au contenu iconographique
      extrêmement varié : une nymphe porteuse de fruits, le prêtre agonisant au centre du
      groupe sculpté du Laocoon, la servante de Judith portant la tête coupée du général
      Holopherne. Pour les auteurs de l’étude, « [i]l est évident que l’algorithme a “vu” une
      ressemblance entre les vecteurs de squelettes appartenant aux formules de pathos, qui
      semblerait être la suivante : les formules du pathos sont toutes liées à un mouvement
      simultané des bras et des jambes. Voilà la particularité morphologique commune à partir
      de laquelle l’algorithme avait rassemblé les formules du pathos 38. »
         Bien qu’étonnant à première vue, ce rassemblement n’indique qu’une seule chose :
      que l’algorithme a fait ce qu’on lui demandait de faire. La méthode de réduction des

166   QUANTIFIER LA PERCEPTION : LE POINT DE VUE DES ARTS NUMÉRIQUES
images choisie par les auteurs consistait à isoler les figures humaines de leur contexte,
             à les réduire à la dimension de squelettes et, enfin, à prendre pour seule variable
             pertinente la valeur numérique des angles formés par la position des bras et jambes.
             Il n’est donc guère surprenant que l’algorithme l’ait prise pour base de classification.
             Outre le problème que pose l’analyse computationnelle d’images comportant des élé-
             ments non quantifiables, qui sont nécessairement exclus, cette étude met en avant le
             problème de l’interprétation des résultats obtenus. En effet, les auteurs concèdent qu’en
             ce qui concerne leur « signification anthropologique ou esthétique », ils « demeurent
             dans l’incertitude 39 ».
                Cette attitude circonspecte, qui fait écho aux conclusions de Buswell, indique une
             volonté de préserver l’indépendance de la sphère qualitative, qui est d’ordinaire le
             domaine de l’historien de l’art. Ce faisant, les auteurs reconnaissent le danger métho-
             dologique qui réside dans l’automatisation, non pas de l’analyse visuelle elle-même,
             mais du jugement qui l’accompagne. L’œuvre The Visual Genome (2019), de l’artiste
             britannique Toby Ziegler, qui met en scène des analyses computationnelles d’images,
             le démontre 40. Cette vidéo s’approprie un outil d’analyse de l’image du même nom,
             produit par une équipe de l’université de Stanford et accessible librement en ligne,
             dont la particularité est de générer des descriptions linguistiques 41 (fig. 3). L’innova-
             tion du logiciel Visual Genome réside dans sa capacité, au-delà de la simple reconnais-
             sance de formes, à mettre à profit une base de données pour analyser les relations qui
             structurent l’image, telles que les rapports entre fond et forme, contenant et contenu,
             types d’activité, etc.
                La vidéo présente une succession d’images ainsi analysées, sous-titrées d’une des-
             cription linguistique correspondante, telle que « dogs ON pizza » (chiens SUR pizza)
             (fig. 4). Cependant, certains sous-titres associés aux images, tels que : « pastry is break-
             fast » (une viennoiserie, c’est un petit-déjeuner), « this photo is great » (cette photo
             est géniale) ou encore « this photo was taken in Boise » (cette photo fut prise à Boise)
             s’apparentent plus à des jugements de valeurs ou à des commentaires personnels qu’à des
             descriptions objectives (fig. 5). Il s’agit d’interventions de l’artiste, qui exposent le danger

Fig. 5. Toby Ziegler, The Visual Genome, 2019, installation
audiovisuelle à deux canaux, 4 min. 19 s., extrait.

                                                                                             HISTOIRE DE L’ART NO 87   167
d’un possible glissement entre traitement quantitatif des données et processus qualitatif
      d’interprétation. Les historiens de l’art doivent donc traiter avec la plus grande prudence
      des « conclusions » résultant d’une perception de l’image automatisée. Cependant,
      ceci ne devrait pas empêcher un travail d’interprétation des analyses computation-
      nelles en aval, sous peine de donner raison à Claire Bishop, qui déplorait, dans son
      article polémique « Against Digital Art History » (Contre l’histoire de l’art numérique),
      que « la tâche d’interpréter ces schémas [soit] laissée à d’autres 42 ».
         Face au problème d’une rupture méthodologique entre approches quantitative et
      qualitative, l’histoire de l’art peut tirer quelques enseignements des comparaisons avec
      les œuvres de Lund, Scourti et Ziegler. Entre techno-art et science-fiction, ces artistes
      utilisent des technologies de pointe, avec cependant pour but ultime de repositionner
      le sujet humain au centre de leur discours. Le prisme des arts numériques rappelle
      donc l’importance d’une critique, au sens kantien de délimitation du domaine d’ap-
      plication, de l’utilisation des méthodes computationnelles en histoire de l’art. Cette
      prudence est d’autant plus nécessaire dans les études portant sur la perception esthé-
      tique des œuvres, qui, malgré l’efficacité croissante des méthodes d’analyses du regard
      et de la vision par ordinateur, oppose une résistance à la réduction quantitative.

                                                                       Aline Guillermet est docteure en histoire et théorie de l’art
                                                                       et enseigne à King’s College, université de Cambridge. Elle
                                                                       est l’autrice de plusieurs articles sur la création artistique
                                                                       à l’ère du numérique, parus dans les revues Representa-
                                                                       tions (2020), Media Theory (2019) et Critique d’art (2018).
                                                                       Elle a consacré des recherches au rôle des sciences et
                                                                       des technologies dans l’œuvre peinte de Gerhard Richter.

168   QUANTIFIER LA PERCEPTION : LE POINT DE VUE DES ARTS NUMÉRIQUES
NOTES

1. Sur ce point, voir notamment Claire Bishop, « Against Digital Art      retable de Vien est correcte pourvu qu’on considère [la moyenne]
History », Humanities Future, 2015 [URL : humanitiesfutures.org/          des répétitions fréquentes des saccades, et non le mouvement
papers/digital-art-history].                                              réel de l’œil » (p. 94-95).
2. C’est l’argument de Johanna Drucker dans « Is There a “Digital”        21. Par ailleurs, Rosenberg et Klein notent que leurs résultats sont
Art History? », Visual Resources, 29/1-2, 2013, p. 5-13.                  très proches des analyses des schémas de composition de peintures
                                                                          effectuées par les critiques d’art aux XVIIIe et XIXe siècles (ibid.,
3. Le concept de « distant reading » a été créé par Franco Moretti
                                                                          p. 97). Sur ce point, voir aussi Raphael Rosenberg, « Le schéma de
en 2000. Il désignait alors une méthodologie quantitative d’étude
                                                                          composition, outil et symptôme de la perception du tableau », dans
littéraire prénumérique. Voir Franco Moretti, « Conjectures on World
                                                                          Roland Recht, Philippe Sénéchal et al. (dir.), L’Histoire de l’histoire
Literature », New Left Review, 1, 2000, p. 54-68. Sur ce point,
                                                                          de l’art en France au XIX e siècle, Paris, Collège de France / INHA,
Andrew Goldstone note très justement que le terme distant reading
                                                                          2008, p. 419-431.
« a subi une rapide transformation sémantique », puisqu’il désigne
aujourd’hui les analyses computationnelles de textes (Andrew              22. Baxandall reconnaît par ailleurs l’importance de mesures qui,
Goldstone, « The Doxa of Reading », PMLA, 132/3, 2017, p. 636-            au-delà des différences individuelles, permettent de dégager des
642, ici p. 636). Je remercie Ryan Heuser pour cette référence.           constantes dans les schémas d’observation. Voir Michael Baxandall,
                                                                          « Fixation and Distraction: The Nail in Braque’s Violin and Pitcher
4. Drucker, « Is There a “Digital” Art History? », p. 8. Toutes les
                                                                          (1910) », dans John Onians (dir.), Sight and Insight. Essays on Art
traductions sont de l’autrice.
                                                                          and Culture in Honour of E. H. Gombrich at 85, Londres, Phaidon,
5. Guy Thomas Buswell, How People Look at Pictures, Chicago,              1994, p. 399-415, ici p. 409.
The University of Chicago Press, 1935.
                                                                          23. Jonas Lund, conversation vidéo avec l’autrice, 5 novembre 2020.
6. Il s’agit de l’endroit de l’image qui concentre le plus de fixations
                                                                          24. Ibid. L’effet de la prise en compte de l’orientation du regard est
du regard. Buswell emploie l’expression « centers of interest »,
                                                                          cumulatif et n’est donc pas manifeste au niveau de l’expérience
mais le terme « areas of interest », dont la traduction française
                                                                          individuelle de l’œuvre.
est « régions d’intérêt », est désormais plus courant.
                                                                          25. Michael Fried, Le Modernisme de Manet, ou le Visage de la
7. Ibid., p. 10.
                                                                          peinture dans les années 1860, trad. Claire Brunet, Paris, Gallimard,
8. Recension de How People Look at Pictures dans le Burlington            2000.
Magazine, citée dans Raphael Rosenberg et Christoph Klein, « The
                                                                          26. Beth Harland, John Gillett et al., « Modes of Address in Pictorial
Moving Eye of the Beholder: Eye Tracking and the Perception of
                                                                          Art: An Eye-Movement Study of Manet’s Bar at the Folies-Bergères »,
Paintings », dans Joseph P. Huston, Marcos Nadal et al. (dir.), Art,
                                                                          Leonardo, 47/3, 2014, p. 241-247. Le terme « double relation », cité
Aesthetics, and the Brain, Oxford, Oxford University Press, 2015,
                                                                          dans l’article, est de Fried.
p. 79-108, ici p. 89.
                                                                          27. Ibid., p. 245. L’étude montre que cette dynamique était absente
9. L’une des premières contributions à l’établissement de ce nou-
                                                                          chez les non-experts.
veau champ d’études fut le livre d’Abraham Moles, Théorie de
l’information et perception esthétique, Paris, Flammarion et Cie,         28. Ibid., p. 247.
1958.                                                                     29. Citons également Hanna Brinkmann, Laura Commare et al.,
10. Id., Art et Ordinateur, Paris, Casterman, 1971, p. 15.                « Abstract Art as a Universal Language », Leonardo, 47/3, 2014,
                                                                          p. 256-257. Cette étude utilise l’analyse de la perception afin de
11. Ibid.
                                                                          remettre en cause ce que les auteurs considèrent comme un lieu
12. Ibid.                                                                 commun de l’histoire de l’art depuis la Documenta II de 1959 à
13. Ibid., p. 130.                                                        Kassel : l’idée que l’art abstrait serait une langue universelle.

14. L’éditorial intitulé « A robot wrote this entire article. Are you     30. Drucker, « Is There a “Digital” Art History? », p. 10.
scared yet, human? » (Un robot a entièrement écrit cet article.           31. Erica Scourti, « So Like You », The Photographer’s Gallery, 2014
Humain, est-ce que tu commences à avoir peur ?) fut écrit par le          [URL : thephotographersgallery.org.uk/so-like-you].
programme de génération de langage GPT-3, produit par la société
                                                                          32. Scourti, « So Like You ». Bien que l’anglais ne fasse pas de
OpenAI, et publié dans The Guardian en 2020 [URL : theguardian.
                                                                          distinction de genre, les adjectifs « pretty » et « cute » sont rarement
com/commentisfree/2020/sep/08/robot-wrote-this-article-gpt-3].
                                                                          attribués à des hommes.
15. « Empathy Deck », Twitter, 2018 [URL : twitter.com/empathydeck].
                                                                          33. Réunies dans l’Atlas Mnémosyne, les Pathosformeln sont,
16. Denis Diderot, « Salon de 1767 », dans Œuvres, IV, éd. Laurent        pour Warburg, des manifestations physiques d’états psychiques
Versini, Paris, Robert Laffont, 1996, p. 656.                             intenses.
17. Ibid.                                                                 34. Leonardo Impett et Franco Moretti, « Totentanz: Operationalizing
18. Ibid.                                                                 Aby Warburg’s Pathosformeln », New Left Review, 107/1, 2017,
                                                                          p. 68-97, ici p. 71.
19. Rosenberg et Klein, « The Moving Eye of the Beholder »,
p. 92-93.                                                                 35. Ibid., p. 78-80.

20. Ibid., p. 94. Comparant leurs résultats avec les descriptions que     36. Ibid., p. 93.
Diderot fait du tableau de Vien, Rosenberg et Klein concluent que         37. C’est le cas, par exemple, d’une étude de 2005 menée par
« [la description par Diderot] de la ligne de composition dans le         Antonio Criminisi, Martin Kemp et Andrew Zisserman qui, suite à

                                                                                                                           HISTOIRE DE L’ART NO 87   169
une analyse des schémas de perspective en peinture, démontre
      « des déviations par rapport à des modèles parfait mathématique-
      ment » (citée par Drucker, « Is There a “Digital” Art History? », p. 10).
      38. Impett et Moretti, « Totentanz », p. 93-94.
      39. Ibid., p. 96.
      40. Voir Aline Guillermet, « Seeing outside the box », dans Soft
      Power: Rosso, Morandi, Ziegler, Milan, Galleria d’Arte Tommaso
      Calabro, 2019, p. 36-38. La vidéo est accessible en ligne [URL :
      vimeo.com/327667499].
      41. Visual Genome [URL : visualgenome.org]. Voir aussi Ranjay
      Krishna, Yuke Zhu et al., « Visual Genome: Connecting Language
      and Vision Using Crowdsourced Dense Image Annotations », Inter-
      national Journal of Computer Vision, 123/1, 2017, p. 32-73 [DOI :
      10.1007/s11263-016-0981-7].
      42. Bishop, « Against Digital Art History ».

170   QUANTIFIER LA PERCEPTION : LE POINT DE VUE DES ARTS NUMÉRIQUES
Vous pouvez aussi lire