Quanti!er la perception: le point de vue des arts numériques - Apahau
←
→
Transcription du contenu de la page
Si votre navigateur ne rend pas la page correctement, lisez s'il vous plaît le contenu de la page ci-dessous
ÉTUDES Aline GUILLERMET Quantifier la perception : le point de vue des arts numériques Les difficultés méthodologiques que présente l’application de procédés quantitatifs à des fins qualitatives sont au cœur des débats concernant la pertinence des huma- nités numériques pour l’histoire de l’art 1. D’un côté, l’automatisation de processus analogues permettrait de générer de nouveaux liens, et potentiellement de nouveaux résultats déterminants pour le futur de la discipline. L’approche quantitative, loin de mettre en danger les aspects qualitatifs, pourrait alors en être fondatrice 2. D’un autre côté, on imagine sans peine des domaines dans lesquels les analyses computa- tionnelles échoueraient à rendre compte de la complexité de leur objet. Alors que la « lecture à distance 3 », ou approche computationnelle de textes, est devenue centrale dans les études littéraires depuis une dizaine d’années, une potentielle « vision à dis- tance » nécessite une réduction quantitative préalable du langage visuel et pose un défi de taille à l’histoire de l’art numérique. Peut-on quantifier et modéliser la réception des œuvres ? Récemment, la recherche en histoire de l’art a abordé cette question de deux manières complémentaires. Une première approche consiste à étudier la perception humaine des œuvres, grâce à l’en- registrement et à l’analyse des mouvements du regard. Les approches quantitatives ont ici pour but de dégager des constantes qui permettraient de mieux comprendre et, potentiellement, d’anticiper les schémas de réception des œuvres. Une seconde approche utilise les analyses computationnelles de l’image (vision par ordinateur) afin de mettre en place des processus perceptifs automatisés. Ce second domaine ambitionne de dégager des approches perceptives inédites, potentiellement capables de générer « des perspectives différentes de celles résultant de la seule observation par l’œil humain 4 », comme le suggère la théoricienne des médias Johanna Drucker. En parallèle à leur utilisation en histoire de l’art, les technologies d’enregistrement des processus perceptifs d’une part et les analyses computationnelles de l’image d’autre part ont récemment fait l’objet d’appropriations artistiques. Affichant souvent des posi- tions critiques par rapport aux utilisations sociétales du numérique, plusieurs œuvres récentes cherchent à mettre en lumière les risques que comporte l’application du numérique à la subjectivité humaine. Grâce à l’utilisation de l’intelligence artificielle et du machine learning (apprentissage automatique), ces œuvres abordent les problèmes de la neutralité de l’algorithme et de la porosité entre analyse objective et appréciation subjective. Elles offrent donc un prisme à travers lequel considérer les difficultés, tant méthodologiques que philosophiques, de l’application de méthodes quantitatives au domaine de l’histoire de l’art. Cet article propose de considérer les perspectives critiques que l’art numérique peut apporter dans l’évaluation d’une approche quantitative de l’histoire de l’art, non pas du point de vue des résultats de ces technologies dans les études existantes, mais plutôt d’un point de vue heuristique. Ayant fourni un contexte historique à ces questions, HISTOIRE DE L’ART NO 87 159
nous considérerons une sélection d’études en histoire de l’art numérique à l’aulne de pratiques artistiques utilisant des technologies correspondantes, tout d’abord dans le champ de la perception du regard, puis dans celui de l’analyse d’images. Buswell, Moles et l’esthétique informationnelle Peut-on quantifier les processus de réception artistique ? Cette question n’est ni inédite, ni spécifique aux humanités numériques du xxie siècle. Les premières recherches sur les mouvements du regard appliquées à la perception de tableaux ont été réalisées par Guy Thomas Buswell en 1935. Publiée dans l’ouvrage How We Look at Pictures à l’issue de 1 877 enregistrements effectués auprès de 200 personnes, cette étude permit pour la première fois de mettre en lumière les multiples mouvements inconscients des yeux lors de l’observation d’une œuvre 5. En établissant des représentations graphiques des parcours visuels, Buswell établit également des constantes dans les comportements perceptifs, en particulier dans l’identification de « centres d’intérêt » (ou « régions d’intérêt ») dans une image donnée6. Malgré ces résultats importants, Buswell demeurait extrêmement circonspect quant à leur interprétation qualitative : Ce rapport ne traite en aucune manière de la nature du processus d’appréciation [esthétique] lors de la considération de tableaux. Les données relatives aux sché- mas de perception sont entièrement objectives, mais ne donnent aucune indication, sauf par inférence, en ce qui concerne la nature de la réponse subjective du sujet par rapport au tableau 7. De fait, l’impact de ces données en dehors de leur domaine propre, et en particulier sur les sphères esthétique et artistique, demeurait ténu, comme le remarqua un com- mentateur de l’époque : « Il semblerait qu’il n’y ait rien dans cette recherche qui ait une quelconque importance pour la science esthétique ou la psychologie 8. » Dès la fin des années 1950 cependant, le respect de la différence entre mesures quantitatives et sphère qualitative fut remis en question par l’émergence de l’esthétique informationnelle. Située entre la théorie de l’information, la psychologie et la philo- sophie, cette nouvelle discipline ambitionnait justement d’établir des bases scientifiques à l’étude de l’art, grâce à l’application de principes théoriques dérivés des sciences de la communication, et plus particulièrement ceux de la théorie de l’information de Claude Shannon, à la création et à la réception des œuvres 9. Théorisée par Abraham Moles en France, cette approche reposait sur la conviction que l’art est lui-même « un phénomène de communication 10 ». Ainsi, pour Moles : « L’esthétique informationnelle applique au monde des formes un système de mesure, cherche à dégager objectivement les caractères physiques et les propriétés statistiques du message et de son expérience perceptive par l’individu 11. » L’esthétique informationnelle souhaitait s’émanciper d’une tradition esthétique considérée comme inutilement métaphysique, affirmant au contraire que la beauté serait liée à des propriétés « démontrables statistiquement et susceptibles de contrôle expérimental 12 ». Fort de ce programme, Moles imaginait en 1971 un futur dans lequel les « ingénieurs en émotion » seraient capables de « programmer [le] plaisir esthétique 13 ». Un demi-siècle plus tard, l’essor de l’intelligence artificielle contribue – du moins en apparence – à brouiller la distinction entre processus algorithmique et processus humain. Le machine learning permet désormais de réaliser des tâches imitant la créativité humaine, telles que la rédaction de fiction et de poésie. Si les premiers essais de pro- grammation de l’écriture par ordinateur remontent aux années 1960, les programmes de génération de langage actuels donnent de surprenants résultats, comme le montre un éditorial récent généré par GPT-3 et publié dans la presse britannique 14. Dans cet exemple, comme dans toutes les productions du machine learning, l’illusion d’intelligence 160 QUANTIFIER LA PERCEPTION : LE POINT DE VUE DES ARTS NUMÉRIQUES
repose en réalité sur un processus analytique au cours duquel l’algorithme « apprend » à écrire à partir d’un corpus donné – ici, la totalité de la Toile. Les programmes de géné- ration de langage permettent également de simuler – à défaut de « programmer » – les émotions humaines, comme le montre l’œuvre Empathy Deck (2018), conçue par l’artiste d’origine grecque Erica Scourti 15. Présenté comme « un robot avec des sentiments », ce programme envoie sur Twitter des messages de réconfort personnalisés en réponse aux tweets de ses abonnés. Dans ce cas précis, l’apprentissage a été effectué à partir du contenu des journaux intimes de l’artiste, ce qui génère des conseils de type déve- loppement personnel, tels que « La pleine conscience consiste à porter son attention sur le moment présent avec compassion. » Compte tenu de ces nouvelles possibilités technologiques, comment les études quantitatives de la perception humaine qui nous intéressent ici négocient-elles la fracture disciplinaire que Moles avait espéré combler ? Percevoir un tableau : de Diderot à la peinture numérique La question du rapport entre mouvements de l’œil et image remonte au moins à l’hypo- thèse, formulée par Denis Diderot lors du Salon de 1767, d’une « ligne de liaison 16 », qui déterminerait le parcours du regard. Diderot suggérait que, confronté à un tableau tel que Le Miracle des ardents de Gabriel-François Doyen, l’œil serait « irrégulièrement promené », comme « égaré dans [le] labyrinthe17 » de la composition. La ligne de liaison, pour Diderot, ne se contente pas de connecter harmonieusement les parties du tableau ; elle est également une donnée objective qui détermine tant l’expérience esthétique que l’analyse critique du tableau, puisqu’elle « condui[t] et celui qui la regarde et celui qui tente de la décrire 18 ». Une étude menée par le Laboratory for Cognitive Research in Art History à l’université de Vienne, sous la direction de Raphael Rosenberg et Christoph Klein, a récemment réexaminé cette question. Les auteurs prennent l’hypothèse de Diderot comme point de départ à leur travail, qui consiste à présenter des reproductions numériques de deux tableaux (celui de Doyen et Saint Denis prêchant la foi en France de Joseph-Marie Vien, également discuté par Diderot), à un groupe de quarante observateurs, divisés en deux groupes de vingt experts et vingt novices. Les données correspondant aux parcours individuels de perception sont organisées en périodes de fixations sur certaines régions d’intérêt du tableau et en saccades (les mouvements brefs et extrêmement rapides du regard allant d’une région d’intérêt à l’autre). Un algorithme se charge de calculer le nombre de transitions opérées par saccades oculaires entre chaque région 19. Les auteurs tirent deux enseignements de cette étude : si « les analyses de Diderot […] ne correspondent pas à la dynamique réelle de l’œil » (Buswell était déjà arrivé à cette conclusion en 1935), l’analyse de la moyenne des répétitions de saccades, en revanche, « révèle que plusieurs aspects du texte de Diderot sont en effet corrects20 ». En d’autres termes, l’analyse quantitative des mouvements du regard permet de confirmer, tout en l’affinant, l’intuition de Diderot 21. Ces conclusions sont relativement modestes, voire décevantes : comme le notait Michael Baxandall dans le contexte d’une étude portant sur les trajectoires et schémas de fixation du regard dans Violon et Pichet de Georges Braque, « les éléments fixés confirment généralement les attentes 22 ». En outre, ces conclusions posent la question du sens de l’application de méthodes quantitatives à la perception humaine. Cette question anime une série d’œuvres récentes réalisées par l’artiste suédois Jonas Lund. En 2013, il concevait l’installation Gallery Analytics pour l’exposition « Momentum » à La Haye. Un dispositif captant les connexions wifi des visiteurs per- mettait d’analyser la progression en temps réel de ces derniers dans le lieu d’exposition. Les données ainsi récoltées étaient traitées afin de renseigner le nombre total de visi- teurs, la durée moyenne de visite de l’exposition et la durée passée par visiteur devant HISTOIRE DE L’ART NO 87 161
Fig. 1. Jonas Lund, VIP (Viewer Improved Painting), 2014, écran de télévision 50 pouces, cadre en métal et caméra oculométrique. Vue de l’installation à Amsterdam, Foam Fotografiemuseum, 2014. chaque œuvre. Avec cette installation, l’artiste dénonçait l’utilisation de dispositifs similaires à des fins commerciales, notamment dans les galeries marchandes, où ils per- mettent d’étudier quelles vitrines retiennent l’attention des passants. Plus fondamenta- lement, Lund interrogeait aussi la signification des données ainsi récoltées : « Qu’est-ce que cela peut bien vouloir dire, qu’un visiteur passe plus de temps devant une œuvre que devant une autre 23 ? » Dans VIP (Viewer Improved Painting) (Peinture améliorée par l’observateur), une instal- lation réalisée en 2014, Lund applique ce questionnement à la perception d’une peinture numérique (fig. 1). VIP est composée de deux écrans accrochés verticalement l’un à côté de l’autre et d’une caméra enregistrant les mouvements du regard, située entre les deux écrans. Un algorithme traite ces données en suivant la logique du système d’évaluation de performances appelé A/B testing : si l’observateur regarde à gauche, l’algorithme prendra en compte cette « préférence » en effaçant le contenu de l’écran droit de sa base de données, et vice versa 24. Au départ, les écrans sont monochromes : rouge d’un côté, bleu de l’autre. Suite aux données récoltées par la caméra centrale, leur surface se complexifie progressivement : les couleurs sont sans cesse modifiées par l’algorithme. Au grès des recombinaisons, les deux écrans prennent l’allure de color fields numériques aux accents rose, bleu, violet et vert. Bien que technologiquement moins sophistiquée que l’étude de Rosenberg et Klein citée précédemment (la caméra ne distingue pas les mouvements spécifiques du regard), cette installation utilise une logique proche de l’analyse des régions d’intérêt et génère une question similaire : Qu’est-ce que cela peut bien vouloir dire, qu’un observateur regarde à gauche plutôt qu’à droite ? En raison de la technologie basique de VIP et de son traitement binaire de l’informa- tion, le lien entre l’enregistrement des « préférences » subjectives et les combinaisons picturales qui en résultent est extrêmement ténu. L’expérience de l’œuvre en temps réel, par exemple, ne permet pas de déceler le moindre lien causal entre modes d’attention 162 QUANTIFIER LA PERCEPTION : LE POINT DE VUE DES ARTS NUMÉRIQUES
et changements picturaux. Mais l’intérêt de VIP ne réside ni dans l’analyse des données récoltées par la caméra, ni dans les combinaisons de couleurs qui en résultent – même si ces dernières peuvent être plus ou moins satisfaisantes pour le public. Du point de vue de l’histoire de l’art, l’importance de cette œuvre réside plutôt dans les interrogations qu’elle suscite quant à la pertinence des choix méthodologiques et technologiques effectués en amont des processus numériques. En dénonçant la vacuité de l’hypothèse marketing, qui équivaut la durée de la contemplation à une plus grande « quantité » d’intérêt, VIP montre que l’utilisation du numérique exige un cadre théorique rigoureux et des questions précises. En outre, cette œuvre soulève le problème de la dépendance croissante des processus de sélection – esthétiques et autres – envers la logique de l’algo- rithme. Une série de peintures produite deux ans plus tard par Lund approfondit cette question. Les œuvres réunies sous le titre New Now (2016) sont des images abstraites, imprimées sur Plexiglas, qui résultent d’un processus de machine learning effectué à partir du corpus existant des œuvres de Lund. L’algorithme est programmé pour « optimi- ser » la valeur esthétique des nouvelles œuvres par rapport aux précédentes et devient ainsi le nouvel agent des décisions artistiques. Face à la menace de l’assujettissement des processus de création et de réception artistiques à une logique automatique, exemplifiée par New Now et VIP respectivement, comment donner du sens aux applications du numérique à l’étude de la perception de tableaux ? Un exemple récent, appliqué à la réception de l’œuvre Un bar aux Folies- Bergères (1882), d’Édouard Manet, fournit une piste intéressante. Michael Fried avait interprété la composition picturale de ce tableau en fonction des modalités d’attention de l’observateur 25. Il avait démontré l’ambiguïté de la composition pour le sujet de l’expérience esthétique, qui se retrouve dans une position incertaine quant à sa relation avec la serveuse qui semble lui faire face, alors qu’elle paraît en même temps – l’image dans le miroir nous l’apprend – faire face à un client. Une étude récente a cherché des preuves empiriques de cette « double relation 26 » dans la réception du tableau en ana- lysant les mouvements du regard de deux groupes de participants, séparés en experts et non experts. L’étude montre que les participants considérés comme experts effectuent « de nombreuses saccades entre [la serveuse, son reflet, et le reflet du client], ce qui suggère qu’ils ou elles étaient en train d’évaluer chaque figure dans sa relation aux autres, et donc, probablement, en train d’évaluer la nature de leur relation27 ». Selon les auteurs, leurs résultats « suggèrent que les théories de modalités d’attention sont inscrites dans une réalité psychologique 28 ». L’étude permet donc de mettre en lumière, au-delà de la quantification des trajets du regard, un processus de réflexion face à l’œuvre : un jeu des facultés mentales tentant de résoudre une énigme picturale 29. Percevoir un tableau : la vision par ordinateur Le développement de l’analyse computationnelle de l’image et son application récente à l’histoire de l’art inaugurent une deuxième approche dans la quantification de la perception des œuvres. Métaphoriquement appelée « vision par ordinateur », l’analyse computationnelle de l’image met à profit le machine learning pour identifier des liens formels au sein d’un corpus donné. En histoire de l’art, les applications vont de l’analyse structurelle d’œuvres individuelles à la comparaison et à la classification de motifs dans un corpus donné. Jusqu’ici, l’analyse computationnelle a principalement servi à auto- matiser des processus analogues, rendant possibles des comparaisons à grande échelle. Ces applications, souvent fructueuses, remettent en cause la stricte opposition entre les domaines quantitatifs et qualitatifs : comme l’a remarqué Drucker, le changement d’échelle lui-même peut potentiellement produire « un effet radicalement différent30 ». Cependant, l’analyse computationnelle de l’image pose deux défis à l’histoire de l’art. Le premier, générique, concerne la nature même de la vision par ordinateur. Une brève 164 QUANTIFIER LA PERCEPTION : LE POINT DE VUE DES ARTS NUMÉRIQUES
Fig. 3. Analyse d’image tirée de la base de données Visual Genome, 2017, publiée dans Krishna, Zhu et al., « Visual Genome », p. 35, cité n. 41. considération des logiciels de reconnaissance automatique suffit pour constater que ce qu’on appelle « vision » par ordinateur est en réalité un processus de reconnaissance formelle, qui repose sur une programmation et un travail d’apprentissage préalables. Le second, plus spécifique, concerne la nature de l’objet d’étude et l’aisance avec laquelle sa structure formelle se prête à la quantification nécessaire au traitement algorithmique. Une autre œuvre de Scourti révèle certaines des difficultés résultant du premier point. Dans So Like You (2014), l’artiste présente ses propres photographies de jeunesse à des logiciels de reconnaissance et d’annotation automatique de l’image, tels que la fonction « recherche d’images similaires » dans Google ou encore CamFind, une application qui prétend « identifier » le contenu de photographies prises par un télé- phone (fig. 2). Dans un article éponyme discutant l’œuvre, Scourti publie un exemple d’une photographie « vue » par ce dernier logiciel 31. Elle représente deux jeunes filles adolescentes et est étiquetée au moyen des mots-clés suivants : « happy » (heureuses), « person » (personnes), « human » (humain), mais aussi : « pretty » (jolies), « attractive » (séduisantes) et « cute » (mignonnes). Alors que la première série de mots indique un processus de reconnaissance formelle, la seconde implique des jugements de valeur qui en disent plus sur le contenu du processus d’apprentissage de l’algorithme que sur le contenu de l’image. Comme le note Scourti en conclusion de l’article, « les logiciels d’annotation automatique qui appliquent des mots-clés descriptifs aux images révèlent le sexisme des personnes qui ont conçu la taxonomie 32 ». Les humanités numériques sont conscientes de ce défi : l’étude automatique d’un corpus d’images à des fins scientifiques demande un travail critique préalable sur la nature de l’objet d’étude. Celui-ci rend possible les décisions méthodologiques quant à la quantification de l’objet, comme le montre une étude des formules du pathos (Pathos- formeln) dans l’Atlas Mnémosyne d’Aby Warburg33. Cette recherche propose de transfor- mer le concept de Pathosformel en « une série d’opérations quantifiables, afin d’en faire un instrument qui permettrait de mesurer les objets auxquels il se réfère 34 ». À l’issue d’une analyse conceptuelle qui met en avant l’importance des attitudes du corps dans l’expression du pathos, les auteurs conçoivent la quantification des images en fonction de trois partis pris méthodologiques : 1) extraire les figures humaines de leur contexte HISTOIRE DE L’ART NO 87 165
Fig. 4. Toby Ziegler, The Visual Genome, 2019, installation audiovisuelle à deux canaux, 4 min. 19 s., extrait. d’origine ; 2) réduire les figures humaines à la dimension de « squelette » ; 3) mesu- rer exclusivement les onze angles formés par les positions des bras et des jambes35. La réduction des objets d’étude (une série de représentations d’hommes et de femmes) à cette dimension linéaire permet à l’algorithme de « voir » et de classer ces objets. Selon les auteurs, le résultat de cet exercice fut le suivant : l’algorithme parvint à identifier et isoler toutes les silhouettes associées, par Warburg, à des formules de pathos. Les auteurs en concluent que leur analyse ouvre la voie à « un élargissement du projet Mnémosyne bien au-delà de ce que Warburg avait été capable de faire lui-même 36 ». En d’autres termes, cette étude soutient que l’algorithme pourrait effectuer les mêmes tâches que Warburg, à plus grande échelle. Mais permet-elle aussi d’affirmer que la perception algorithmique « voit » des aspects jusqu’ici demeurés imperceptibles à l’œil humain 37 ? Dans l’étude des formes du pathos, ce que l’algorithme a « vu » prête à controverse : contrairement aux attentes des auteurs, toutes les formules du pathos, bien que correctement identifiées, ont été regroupées en une même catégorie par l’algorithme, mettant sur le même plan une série d’images au contenu iconographique extrêmement varié : une nymphe porteuse de fruits, le prêtre agonisant au centre du groupe sculpté du Laocoon, la servante de Judith portant la tête coupée du général Holopherne. Pour les auteurs de l’étude, « [i]l est évident que l’algorithme a “vu” une ressemblance entre les vecteurs de squelettes appartenant aux formules de pathos, qui semblerait être la suivante : les formules du pathos sont toutes liées à un mouvement simultané des bras et des jambes. Voilà la particularité morphologique commune à partir de laquelle l’algorithme avait rassemblé les formules du pathos 38. » Bien qu’étonnant à première vue, ce rassemblement n’indique qu’une seule chose : que l’algorithme a fait ce qu’on lui demandait de faire. La méthode de réduction des 166 QUANTIFIER LA PERCEPTION : LE POINT DE VUE DES ARTS NUMÉRIQUES
images choisie par les auteurs consistait à isoler les figures humaines de leur contexte, à les réduire à la dimension de squelettes et, enfin, à prendre pour seule variable pertinente la valeur numérique des angles formés par la position des bras et jambes. Il n’est donc guère surprenant que l’algorithme l’ait prise pour base de classification. Outre le problème que pose l’analyse computationnelle d’images comportant des élé- ments non quantifiables, qui sont nécessairement exclus, cette étude met en avant le problème de l’interprétation des résultats obtenus. En effet, les auteurs concèdent qu’en ce qui concerne leur « signification anthropologique ou esthétique », ils « demeurent dans l’incertitude 39 ». Cette attitude circonspecte, qui fait écho aux conclusions de Buswell, indique une volonté de préserver l’indépendance de la sphère qualitative, qui est d’ordinaire le domaine de l’historien de l’art. Ce faisant, les auteurs reconnaissent le danger métho- dologique qui réside dans l’automatisation, non pas de l’analyse visuelle elle-même, mais du jugement qui l’accompagne. L’œuvre The Visual Genome (2019), de l’artiste britannique Toby Ziegler, qui met en scène des analyses computationnelles d’images, le démontre 40. Cette vidéo s’approprie un outil d’analyse de l’image du même nom, produit par une équipe de l’université de Stanford et accessible librement en ligne, dont la particularité est de générer des descriptions linguistiques 41 (fig. 3). L’innova- tion du logiciel Visual Genome réside dans sa capacité, au-delà de la simple reconnais- sance de formes, à mettre à profit une base de données pour analyser les relations qui structurent l’image, telles que les rapports entre fond et forme, contenant et contenu, types d’activité, etc. La vidéo présente une succession d’images ainsi analysées, sous-titrées d’une des- cription linguistique correspondante, telle que « dogs ON pizza » (chiens SUR pizza) (fig. 4). Cependant, certains sous-titres associés aux images, tels que : « pastry is break- fast » (une viennoiserie, c’est un petit-déjeuner), « this photo is great » (cette photo est géniale) ou encore « this photo was taken in Boise » (cette photo fut prise à Boise) s’apparentent plus à des jugements de valeurs ou à des commentaires personnels qu’à des descriptions objectives (fig. 5). Il s’agit d’interventions de l’artiste, qui exposent le danger Fig. 5. Toby Ziegler, The Visual Genome, 2019, installation audiovisuelle à deux canaux, 4 min. 19 s., extrait. HISTOIRE DE L’ART NO 87 167
d’un possible glissement entre traitement quantitatif des données et processus qualitatif d’interprétation. Les historiens de l’art doivent donc traiter avec la plus grande prudence des « conclusions » résultant d’une perception de l’image automatisée. Cependant, ceci ne devrait pas empêcher un travail d’interprétation des analyses computation- nelles en aval, sous peine de donner raison à Claire Bishop, qui déplorait, dans son article polémique « Against Digital Art History » (Contre l’histoire de l’art numérique), que « la tâche d’interpréter ces schémas [soit] laissée à d’autres 42 ». Face au problème d’une rupture méthodologique entre approches quantitative et qualitative, l’histoire de l’art peut tirer quelques enseignements des comparaisons avec les œuvres de Lund, Scourti et Ziegler. Entre techno-art et science-fiction, ces artistes utilisent des technologies de pointe, avec cependant pour but ultime de repositionner le sujet humain au centre de leur discours. Le prisme des arts numériques rappelle donc l’importance d’une critique, au sens kantien de délimitation du domaine d’ap- plication, de l’utilisation des méthodes computationnelles en histoire de l’art. Cette prudence est d’autant plus nécessaire dans les études portant sur la perception esthé- tique des œuvres, qui, malgré l’efficacité croissante des méthodes d’analyses du regard et de la vision par ordinateur, oppose une résistance à la réduction quantitative. Aline Guillermet est docteure en histoire et théorie de l’art et enseigne à King’s College, université de Cambridge. Elle est l’autrice de plusieurs articles sur la création artistique à l’ère du numérique, parus dans les revues Representa- tions (2020), Media Theory (2019) et Critique d’art (2018). Elle a consacré des recherches au rôle des sciences et des technologies dans l’œuvre peinte de Gerhard Richter. 168 QUANTIFIER LA PERCEPTION : LE POINT DE VUE DES ARTS NUMÉRIQUES
NOTES 1. Sur ce point, voir notamment Claire Bishop, « Against Digital Art retable de Vien est correcte pourvu qu’on considère [la moyenne] History », Humanities Future, 2015 [URL : humanitiesfutures.org/ des répétitions fréquentes des saccades, et non le mouvement papers/digital-art-history]. réel de l’œil » (p. 94-95). 2. C’est l’argument de Johanna Drucker dans « Is There a “Digital” 21. Par ailleurs, Rosenberg et Klein notent que leurs résultats sont Art History? », Visual Resources, 29/1-2, 2013, p. 5-13. très proches des analyses des schémas de composition de peintures effectuées par les critiques d’art aux XVIIIe et XIXe siècles (ibid., 3. Le concept de « distant reading » a été créé par Franco Moretti p. 97). Sur ce point, voir aussi Raphael Rosenberg, « Le schéma de en 2000. Il désignait alors une méthodologie quantitative d’étude composition, outil et symptôme de la perception du tableau », dans littéraire prénumérique. Voir Franco Moretti, « Conjectures on World Roland Recht, Philippe Sénéchal et al. (dir.), L’Histoire de l’histoire Literature », New Left Review, 1, 2000, p. 54-68. Sur ce point, de l’art en France au XIX e siècle, Paris, Collège de France / INHA, Andrew Goldstone note très justement que le terme distant reading 2008, p. 419-431. « a subi une rapide transformation sémantique », puisqu’il désigne aujourd’hui les analyses computationnelles de textes (Andrew 22. Baxandall reconnaît par ailleurs l’importance de mesures qui, Goldstone, « The Doxa of Reading », PMLA, 132/3, 2017, p. 636- au-delà des différences individuelles, permettent de dégager des 642, ici p. 636). Je remercie Ryan Heuser pour cette référence. constantes dans les schémas d’observation. Voir Michael Baxandall, « Fixation and Distraction: The Nail in Braque’s Violin and Pitcher 4. Drucker, « Is There a “Digital” Art History? », p. 8. Toutes les (1910) », dans John Onians (dir.), Sight and Insight. Essays on Art traductions sont de l’autrice. and Culture in Honour of E. H. Gombrich at 85, Londres, Phaidon, 5. Guy Thomas Buswell, How People Look at Pictures, Chicago, 1994, p. 399-415, ici p. 409. The University of Chicago Press, 1935. 23. Jonas Lund, conversation vidéo avec l’autrice, 5 novembre 2020. 6. Il s’agit de l’endroit de l’image qui concentre le plus de fixations 24. Ibid. L’effet de la prise en compte de l’orientation du regard est du regard. Buswell emploie l’expression « centers of interest », cumulatif et n’est donc pas manifeste au niveau de l’expérience mais le terme « areas of interest », dont la traduction française individuelle de l’œuvre. est « régions d’intérêt », est désormais plus courant. 25. Michael Fried, Le Modernisme de Manet, ou le Visage de la 7. Ibid., p. 10. peinture dans les années 1860, trad. Claire Brunet, Paris, Gallimard, 8. Recension de How People Look at Pictures dans le Burlington 2000. Magazine, citée dans Raphael Rosenberg et Christoph Klein, « The 26. Beth Harland, John Gillett et al., « Modes of Address in Pictorial Moving Eye of the Beholder: Eye Tracking and the Perception of Art: An Eye-Movement Study of Manet’s Bar at the Folies-Bergères », Paintings », dans Joseph P. Huston, Marcos Nadal et al. (dir.), Art, Leonardo, 47/3, 2014, p. 241-247. Le terme « double relation », cité Aesthetics, and the Brain, Oxford, Oxford University Press, 2015, dans l’article, est de Fried. p. 79-108, ici p. 89. 27. Ibid., p. 245. L’étude montre que cette dynamique était absente 9. L’une des premières contributions à l’établissement de ce nou- chez les non-experts. veau champ d’études fut le livre d’Abraham Moles, Théorie de l’information et perception esthétique, Paris, Flammarion et Cie, 28. Ibid., p. 247. 1958. 29. Citons également Hanna Brinkmann, Laura Commare et al., 10. Id., Art et Ordinateur, Paris, Casterman, 1971, p. 15. « Abstract Art as a Universal Language », Leonardo, 47/3, 2014, p. 256-257. Cette étude utilise l’analyse de la perception afin de 11. Ibid. remettre en cause ce que les auteurs considèrent comme un lieu 12. Ibid. commun de l’histoire de l’art depuis la Documenta II de 1959 à 13. Ibid., p. 130. Kassel : l’idée que l’art abstrait serait une langue universelle. 14. L’éditorial intitulé « A robot wrote this entire article. Are you 30. Drucker, « Is There a “Digital” Art History? », p. 10. scared yet, human? » (Un robot a entièrement écrit cet article. 31. Erica Scourti, « So Like You », The Photographer’s Gallery, 2014 Humain, est-ce que tu commences à avoir peur ?) fut écrit par le [URL : thephotographersgallery.org.uk/so-like-you]. programme de génération de langage GPT-3, produit par la société 32. Scourti, « So Like You ». Bien que l’anglais ne fasse pas de OpenAI, et publié dans The Guardian en 2020 [URL : theguardian. distinction de genre, les adjectifs « pretty » et « cute » sont rarement com/commentisfree/2020/sep/08/robot-wrote-this-article-gpt-3]. attribués à des hommes. 15. « Empathy Deck », Twitter, 2018 [URL : twitter.com/empathydeck]. 33. Réunies dans l’Atlas Mnémosyne, les Pathosformeln sont, 16. Denis Diderot, « Salon de 1767 », dans Œuvres, IV, éd. Laurent pour Warburg, des manifestations physiques d’états psychiques Versini, Paris, Robert Laffont, 1996, p. 656. intenses. 17. Ibid. 34. Leonardo Impett et Franco Moretti, « Totentanz: Operationalizing 18. Ibid. Aby Warburg’s Pathosformeln », New Left Review, 107/1, 2017, p. 68-97, ici p. 71. 19. Rosenberg et Klein, « The Moving Eye of the Beholder », p. 92-93. 35. Ibid., p. 78-80. 20. Ibid., p. 94. Comparant leurs résultats avec les descriptions que 36. Ibid., p. 93. Diderot fait du tableau de Vien, Rosenberg et Klein concluent que 37. C’est le cas, par exemple, d’une étude de 2005 menée par « [la description par Diderot] de la ligne de composition dans le Antonio Criminisi, Martin Kemp et Andrew Zisserman qui, suite à HISTOIRE DE L’ART NO 87 169
une analyse des schémas de perspective en peinture, démontre « des déviations par rapport à des modèles parfait mathématique- ment » (citée par Drucker, « Is There a “Digital” Art History? », p. 10). 38. Impett et Moretti, « Totentanz », p. 93-94. 39. Ibid., p. 96. 40. Voir Aline Guillermet, « Seeing outside the box », dans Soft Power: Rosso, Morandi, Ziegler, Milan, Galleria d’Arte Tommaso Calabro, 2019, p. 36-38. La vidéo est accessible en ligne [URL : vimeo.com/327667499]. 41. Visual Genome [URL : visualgenome.org]. Voir aussi Ranjay Krishna, Yuke Zhu et al., « Visual Genome: Connecting Language and Vision Using Crowdsourced Dense Image Annotations », Inter- national Journal of Computer Vision, 123/1, 2017, p. 32-73 [DOI : 10.1007/s11263-016-0981-7]. 42. Bishop, « Against Digital Art History ». 170 QUANTIFIER LA PERCEPTION : LE POINT DE VUE DES ARTS NUMÉRIQUES
Vous pouvez aussi lire