Interro écrite pour l'intelligence artificielle - Pour la Science

La page est créée Clément Lemaitre
 
CONTINUER À LIRE
Interro écrite pour l'intelligence artificielle - Pour la Science
CHANTIER EN COURS

                           Interro écrite
                                     pour l’intelligence
                                        artificielle

54
     © Maggie Chiang

                                                    Pour la Science Hors-Série n° 115/Mai-juin 2022
Interro écrite pour l'intelligence artificielle - Pour la Science
L’IA comprend-elle ce qu’elle fait ? Si oui,
encore faudrait-il le prouver par des tests
appropriés. Pas si simple, d’autant que
les réseaux de neurones actuels emploient des
raccourcis statistiques qui brouillent les pistes.

                                                                                  Melanie Mitchell

                                        Vous souvenez-vous du jeu Jeopardy dif-             langage par elles-mêmes en leur faisant ingur-
                                    fusé en France de 1989 à 1992 ? Une sorte               giter d’énormes quantités de textes. Le résultat
                                    d’anti- quiz : l’animateur fournissait une              est ce que les chercheurs appellent un « modèle
                                    réponse, et les candidats imaginaient la ques-          de langage ». Le GPT-3 de la société OpenAI,
                                    tion. Aux États-Unis, patrie originelle du pro-         inauguré en mai 2020, par exemple, peut pro-
                                    gramme (la trente-huitième saison est en cours          duire de la prose (et de la poésie !) humaine à        55
                                    aujourd’hui !), une intelligence artificielle (IA)      s’y méprendre, et conduire des raisonnements
                                    conçue par IBM et baptisée Watson est devenue           linguistiques apparemment raffinés.
                                    un crack à ce jeu en battant, en février 2011,              Mais GPT-3, entraîné avec des textes issus
                                    deux anciens champions humains. Une publi-              de milliers de sites web, de livres et d’ency-
                                    cité de l’époque prétendait même que « Watson           clopédies, va-t-il au-delà du simple vernis de
                                    comprend le langage naturel dans toute sa com-          Watson ? Comprend-il les mots qu’il produit et
                                    plexité et son ambiguïté ». Cependant, les pro-         sur lesquels il raisonne ostensiblement ? C’est là
                                    messes n’ont pas été tenues, et Watson a échoué         un sujet de vif désaccord au sein de la commu-
                                    de manière spectaculaire dans sa quête pour             nauté des chercheurs en IA. De telles discussions
                                    « révolutionner la médecine avec l’intelligence         étaient l’apanage des philosophes, mais tout au
                                    artificielle ». Preuve qu’une facilité linguistique     long de la décennie passée, l’IA a jailli hors de sa
                                    de surface est bien différente d’une réelle com-        bulle académique vers le monde réel. La ques-
                                    préhension du langage humain.                           tion n’est pas que rhétorique, car le manque
                                        Depuis longtemps, le traitement du lan-             de compréhension de ce monde peut avoir des
                                    gage naturel est un des objectifs majeurs de            conséquences concrètes et parfois dévastatrices.
                                    la recherche en IA. Les chercheurs ont d’abord          Dans une étude portant sur les recommanda-
                                    essayé de programmer à la main tout ce dont             tions de Watson pour lutter contre le cancer, des
                                    une machine peut avoir besoin pour com-                 « exemples multiples de traitements incorrects
                                    prendre un magazine, un roman ou toute autre            et peu sûrs » ont été pointés. D’autres travaux
                                    production écrite. Cette approche, Watson l’a           ont montré que le système de traduction de
                                    montré, était vaine – il est impossible de cou-         Google commettait d’importantes erreurs lors-
                                    cher noir sur blanc tous les faits, règles et sup-      qu’il s’appliquait à des instructions médicales
                                    positions qui n’ont pas encore été écrits et sont       destinées à des patients non anglophones.
                                    nécessaires pour comprendre un texte.                       Comment juger, en pratique, si une machine
                                        Plus récemment, un nouveau paradigme a              a la capacité de comprendre ? En 1950, le pion-
                                    été établi : au lieu de les abreuver de connais-        nier de l’informatique Alan Turing a essayé de
                                    sances explicites et les dresser à prédire des          répondre à cette question avec son fameux « jeu
                                    mots, nous laissons les machines comprendre le          de l’imitation », aujourd’hui connu sous le nom

Pour la Science Hors-Série n° 115/Mai-juin 2022
Interro écrite pour l'intelligence artificielle - Pour la Science
CHANTIER EN COURS

                              –――――――――――― En bref ―――――――――――–
                              > Donner aux            > Entraînés de façon      > Du test de Turing aux     > Les machines
                              machines la maîtrise    adéquate, les réseaux     schémas Winograd,           ne sauront sans
                              du langage naturel      de neurones               il n’est pas aisé           doute comprendre
                              est, de longue          comme GPT-3               d’établir un test           le langage que
                              date, un objectif       semblent capables         prouvant une vraie          lorsqu’elles sauront
                              de l’intelligence       de performances           compréhension,              aussi comprendre
                              artificielle.           spectaculaires. Mais      notamment parce             le monde qui
                                                      comprennent-ils           que les programmes          les entoure.
                                                      vraiment ?                recourent à des
                                                                                raccourcis statistiques.

     de « test de Turing ». Une machine et un humain,                                                    Paire 1, phrase 2 : J’ai versé de l’eau de la
     tous deux cachés, sont en compétition pour                                                     bouteille dans la tasse jusqu’à ce qu’elle soit vide.
     convaincre un juge humain de leur humanité                                                          Question : Qu’est-ce qui était vide, la bou-
     en n’usant que de la conversation écrite. Si le                                                teille ou la tasse ?
     juge est incapable de trancher, pensait Turing,                                                     Paire 2, phrase 1 : L’oncle de Joe peut
     nous devrions alors considérer que la machine                                                  encore le battre au tennis, bien qu’il soit trente
     pense – et, en effet, comprend.                                                                ans plus vieux.
56       Malheureusement, Turing a sous-estimé                                                           Question : Qui est plus vieux, Joe ou l’oncle
     la propension des humains à se laisser duper.                                                  de Joe ?
     Même de simples robots de conversation, tels                                                        Paire 2, phrase 2 : L’oncle de Joe peut
     qu’Eliza – l’ersatz de psychothérapeute conçu                                                  encore le battre au tennis, bien qu’il soit trente
     par Joseph Weizenbaum en 1960 –, ont réussi à                                                  ans plus jeune.
     faire croire à des testeurs qu’ils discutaient avec                                                 Question : Qui est plus jeune, Joe ou l’oncle
     un être doué de compréhension, alors même                                                      de Joe ?
     qu’ils savaient parler à une machine.                                                               Dans chaque paire, la différence d’un mot (en
                                                                                                    italique) peut changer la personne ou la chose
                                                                                                    à laquelle le pronom fait référence. Répondre
     MAÎTRE DU MONDE POUR UN PRONOM
                                                                                                    correctement à ces questions semble nécessiter
          Dans un article de 2012, les informati-                                                   une compréhension de type sens commun. Les
     ciens Hector Levesque, Ernest Davis et Leora                                                   schémas Winograd sont conçus précisément
     Morgenstern ont proposé un test plus objec-                                                    pour évaluer cela, en réduisant la vulnérabilité
     tif, qu’ils ont baptisé « challenge du schéma                                                  du test de Turing aux juges humains non fiables
     Winograd ». Ce test a, depuis, été adopté par                                                  et aux astuces des robots conversationnels. En
     la communauté du langage de l’IA comme                                                         particulier, les auteurs ont conçu quelques cen-
     moyen, peut-être le meilleur, d’évaluer le                                                     taines de schémas qu’ils pensent être imper-
     degré de compréhension d’une machine – bien                                                    méables à Google : une machine ne devrait pas
                                                                   Cet article a d’abord
     que, nous le verrons, il ne soit pas parfait. Un                                               être capable de lancer une recherche Google (ou
                                                                   été publié en anglais
     schéma Winograd, nommé d’après le chercheur                                                    tout autre moteur de recherche) pour répondre
     en linguistique Terry Winograd, de l’université               par Quanta Magazine,
                                                                                                    à ces questions correctement.
     Stanford, consiste en une paire de phrases diffé-             une publication en                    Ces schémas ont été l’objet d’une compé-
     rant d’un mot exactement, chacune suivie d’une                ligne indépendante,              tition en 2016 durant laquelle le programme
     question. Voici deux exemples :                               soutenue par la Simons           vainqueur a répondu juste à seulement 58 % des
          Paire 1, phrase 1 : J’ai versé de l’eau de la            Foundation afin de               phrases – un résultat à peine meilleur que celui
     bouteille dans la tasse jusqu’à ce qu’elle soit pleine.       favoriser la diffusion           qu’elle aurait obtenu en devinant les réponses
          Question : Qu’est-ce qui était rempli, la bou-           des sciences :                   au hasard. Ce qui fait dire malicieusement à
     teille ou la tasse ?                                          bit.ly/3MFPKtr                   Oren Etzioni, éminent chercheur en IA : « Quand

                                                                                                                    Pour la Science Hors-Série n° 115/Mai-juin 2022
Interro écrite pour l’intelligence artificielle

une intelligence artificielle ne peut déterminer à
qui un pronom fait référence dans une phrase, il     Turing a sous-estimé
est difficile d’imaginer qu’elle puisse prendre un
jour le contrôle du monde. »
    Cependant, la capacité des programmes d’IA
                                                            la propension
à résoudre les schémas Winograd a grimpé en
flèche avec l’avènement des modèles de lan-
gage en réseau neuronal. En 2020, une étude
                                                         des humains à se                                      57
d’OpenAI relatait que GPT-3, qui relève de cette
catégorie d’IA, obtenait de bonnes réponses sur       laisser duper. Même
                                                     de simples robots de
près de 90 % des phrases dans un lot de réfé-
rence de phrases de ce type. D’autres modèles
de langage sont encore plus performants après
s’être entraînés spécifiquement à ces tâches.
Fin 2021, les modèles de langage en réseau neu-      conversation peuvent
ronal atteignaient 97 % de précision sur un lot
particulier de schémas Winograd qui font partie
d’une compétition de compréhension des lan-
                                                           faire illusion
gues par les IA, nommée SuperGlue. C’est à peu
près équivalent aux performances humaines.
Cela signifie-t-il que les modèles de langage en          de la poste, car elle était plus rapide » et « la
réseau neuronal ont atteint un niveau de com-             voiture de sport a doublé la camionnette de
préhension comparable au nôtre ?                          la poste, car elle était plus lente ». Un modèle
                                                          de langage entraîné avec un large corpus de
                                                          phrases en français aura assimilé la corrélation
ÊTRE COLLÉ À LA COMPÉTITION
                                                          entre « voiture de sport » et « rapide », et entre
SUPERGLUE                                                 « camionnette de la poste » et « lent » ; il peut
    Pas forcément. Malgré tous les efforts de             donc répondre correctement uniquement grâce
leurs créateurs, ces schémas Winograd n’étaient           à ces corrélations. De fait, beaucoup de schémas
en fait pas imperméables à Google. Ces défis,             Winograd de la compétition SuperGlue auto-
comme beaucoup d’autres tests actuels de com-             risent ce genre de lien statistique.
préhension du langage par les IA, recourent par-              Plutôt qu’abandonner ces schémas en tant
fois à des raccourcis statistiques grâce auxquels         que test de compréhension, un groupe de cher-
les réseaux neuronaux sont performants sans               cheurs de l’institut Allen (du nom d’un cofon-
comprendre. Prenez, par exemple, les phrases              dateur de Microsoft) pour l’IA, à Seattle, a
« la voiture de sport a doublé la camionnette             essayé de régler certains de leurs problèmes.

Pour la Science Hors-Série n° 115/Mai-juin 2022
CHANTIER EN COURS

        ⟶ En 2011, aux États-Unis,
                 l’ordinateur Watson, d’IBM,
                 triomphe au jeu Jeopardy.
                 Nourri avec l’équivalent
                 de 1 million de livres,
                 il capte les questions
                 posées en langage naturel
                 par le présentateur, le sens
                 des mots, mais aussi s’il
                 faut ou non répondre à une
                 question. Une performance
                 pas si élémentaire…

     En 2019, ils ont créé WinoGrande, un lot bien
     plus étoffé de schémas Winograd : il contient           Il est souvent
     44 000 phrases, contre quelques centaines
58   jusque-là. Pour obtenir autant d’exemples, les
     chercheurs ont fait appel à Amazon Mechanical
                                                        difficile de savoir
                                                            si des systèmes
     Turk, une plateforme pour proposer à des
     humains, contre rémunération, des tâches
     plus ou moins complexes. Il a été demandé à
     chaque travailleur d’écrire quelques paires de
     phrases, avec des contraintes pour s’assurer que      d’IA comprennent
     l’ensemble aborderait divers sujets, mais avec
     la possibilité que ces paires puissent à présent
     différer de plus d’un mot.
                                                              véritablement
         Les chercheurs ont ensuite tenté d’éli-
     miner les phrases propices à des raccourcis             le langage, ou
     statistiques, en soumettant chacune d’entre
     elles à une IA assez peu sophistiquée et en
     écartant toutes celles qui étaient trop simples
                                                          d’autres données,
     à résoudre. Comme ils s’y attendaient, les
     phrases qui restaient offraient un défi bien           qu’ils traitent
     plus difficile pour les machines que la collec-
     tion originale. Tandis que les humains conti-
     nuaient d’obtenir des scores très élevés, les
     modèles de langage en réseau neuronal qui                  Cependant, une autre surprise allait surgir.
     égalaient la performance humaine sur le lot            Dans les deux années qui suivirent la publica-
     d’origine ont vu leur score s’effondrer avec le        tion de la collection WinoGrande, les modèles
     lot WinoGrande. Ce nouveau défi restaurait             de langage en réseau neuronal ont continué de
     le statut de « test de compréhension de sens           croître, et plus ils sont larges, meilleur semble
     commun » pour les schémas Winograd – du                être leur score à ce nouveau défi. Fin 2021, les
     moment que les phrases étaient scrupuleuse-            meilleurs programmes actuels – d’abord entraî-
     ment filtrées pour assurer leur imperméabilité         nés avec des térabits de textes, puis avec des
                                                                                                                             © IBM

     à des recherches Google.                               milliers d’exemples WinoGrande – obtenaient

                                                                           Pour la Science Hors-Série n° 115/Mai-juin 2022
Interro écrite pour l’intelligence artificielle

près de 90 % de bonnes réponses (contre 94 %               Ces connaissances, nous, humains, les tenons
pour les humains). Cette hausse de performance         pour acquises, mais ce n’est pas le cas des
est presque entièrement imputable à l’augmen-          machines. Et il est peu probable que ce soit écrit
tation de la taille des modèles de langage en          explicitement dans le texte d’entraînement de
réseau neuronal et de la quantité de leurs don-        n’importe quel modèle de langage. Certains cher-
nées d’entraînement.                                   cheurs en cognition estiment que les humains,
     Ces réseaux encore plus larges ont-ils enfin      pour apprendre le langage, s’appuient sur un
atteint un niveau de compréhension similaire           noyau de connaissances, prélinguistiques et
au nôtre ? Encore une fois, c’est peu probable.        innées, de l’espace, du temps et de nombreuses
Les résultats de WinoGrande s’accompagnent             autres propriétés essentielles du monde. Si nous
d’importantes mises en garde. Par exemple,             voulons que les machines maîtrisent le langage
parce que les phrases dépendent des travailleurs       comme nous, nous devrons d’abord les doter des
d’Amazon Mechanical Turk, la qualité et la cohé-       principes primordiaux avec lesquels nous nais-
rence de l’écriture sont assez inégales. L’IA utili-   sons. Et pour évaluer leur niveau de compréhen-
sée pour filtrer les phrases « non imperméables        sion, nous devrions commencer par évaluer leur
à Google » peut avoir été trop peu sophistiquée        capacité à saisir ces principes, ce qu’on pourrait
pour repérer tous les potentiels raccourcis sta-       appeler une « métaphysique infantile ».
tistiques qu’un énorme réseau neuronal pour-               Entraîner et évaluer des machines au niveau
rait emprunter, et elle ne s’appliquait qu’à des       d’intelligence d’un nourrisson peut apparaître
phrases individuelles, si bien que certaines des       comme un pas de géant en arrière par rapport aux
phrases qui restaient ont fini par perdre leur         prouesses de Watson et de GPT-3. Mais si l’objectif
« jumelle ». Une étude postérieure à ces travaux       est une compréhension authentique et digne de
a montré que les modèles de langage en réseau          confiance, il se peut que ce soit le seul chemin vers
neuronal testés uniquement avec des phrases            des machines vraiment capables de comprendre à
jumelles, et devant répondre correctement aux          quoi « il » ou « elle » fait référence dans une phrase.                                 59
deux, sont bien moins précis que les humains,
ce qui indique que le résultat de 90 % vu plus tôt
est moins significatif qu’il ne pouvait le paraître.
     Au final, que retenir de cette saga Winograd ?                          ― L’autrice ―                          ― À lire ―
La leçon principale est qu’il est souvent difficile                  > Melanie Mitchell                   > Y. Elazar et al., Back to
de déterminer, à partir de leur performance
                                                                     est professeuse de complexité        square one : Artifact detection,
lors d’un défi donné, si des systèmes d’IA com-
                                                                     à l’institut de Sante Fe,            training and common sense
prennent véritablement le langage (ou d’autres
                                                                     au Nouveau-Mexique,                  disentanglement in the Winograd
données) qu’ils traitent. Nous savons que les
                                                                     aux États-Unis.                      schema, Proceedings of the 2021
réseaux neuronaux utilisent souvent des rac-
                                                                                                          Conference on Empirical
courcis statistiques – au lieu de vraiment faire
preuve d’une compréhension semblable à celle                                                              Methods in Natural Language
des humains – pour obtenir de bonnes perfor-                                                              Processing, 2021.
mances sur les schémas Winograd et sur d’autres                                                           > B. Taira et al., A pragmatic
bancs d’essais orientés vers une « compréhension                                                          assessment of Google Translate
générale du langage ».                                                                                    for emergency department
     Le nœud du problème, à mon avis, est que
                                                                                                          instructions, Journal of General
comprendre le langage nécessite de comprendre
                                                                                                          Internal Medicine, 2021.
le monde, et notamment ce que signifie que « la
voiture de sport a doublé la camionnette de                                                               > P. Amsili et O. Seminck,
la poste parce qu’elle était plus lente ». Cela                                                           Schémas Winograd en français :
suppose de savoir ce que sont des voitures de                                                             une étude statistique et
sport et des camionnettes de la poste, que des                                                            comportementale, Actes
voitures peuvent se « doubler », et, à un niveau                                                          de TALN 2017, 2017.
encore plus fondamental, que les véhicules sont
des objets qui existent et interagissent dans le                                                          > T. Brown et al., Language
monde, conduits par des humains avec leurs                                                                models are few-shot learners,
propres objectifs.                                                                                        https ://arxiv.org/abs/2005.14165.

Pour la Science Hors-Série n° 115/Mai-juin 2022
Vous pouvez aussi lire