Interro écrite pour l'intelligence artificielle - Pour la Science
←
→
Transcription du contenu de la page
Si votre navigateur ne rend pas la page correctement, lisez s'il vous plaît le contenu de la page ci-dessous
CHANTIER EN COURS Interro écrite pour l’intelligence artificielle 54 © Maggie Chiang Pour la Science Hors-Série n° 115/Mai-juin 2022
L’IA comprend-elle ce qu’elle fait ? Si oui, encore faudrait-il le prouver par des tests appropriés. Pas si simple, d’autant que les réseaux de neurones actuels emploient des raccourcis statistiques qui brouillent les pistes. Melanie Mitchell Vous souvenez-vous du jeu Jeopardy dif- langage par elles-mêmes en leur faisant ingur- fusé en France de 1989 à 1992 ? Une sorte giter d’énormes quantités de textes. Le résultat d’anti- quiz : l’animateur fournissait une est ce que les chercheurs appellent un « modèle réponse, et les candidats imaginaient la ques- de langage ». Le GPT-3 de la société OpenAI, tion. Aux États-Unis, patrie originelle du pro- inauguré en mai 2020, par exemple, peut pro- gramme (la trente-huitième saison est en cours duire de la prose (et de la poésie !) humaine à 55 aujourd’hui !), une intelligence artificielle (IA) s’y méprendre, et conduire des raisonnements conçue par IBM et baptisée Watson est devenue linguistiques apparemment raffinés. un crack à ce jeu en battant, en février 2011, Mais GPT-3, entraîné avec des textes issus deux anciens champions humains. Une publi- de milliers de sites web, de livres et d’ency- cité de l’époque prétendait même que « Watson clopédies, va-t-il au-delà du simple vernis de comprend le langage naturel dans toute sa com- Watson ? Comprend-il les mots qu’il produit et plexité et son ambiguïté ». Cependant, les pro- sur lesquels il raisonne ostensiblement ? C’est là messes n’ont pas été tenues, et Watson a échoué un sujet de vif désaccord au sein de la commu- de manière spectaculaire dans sa quête pour nauté des chercheurs en IA. De telles discussions « révolutionner la médecine avec l’intelligence étaient l’apanage des philosophes, mais tout au artificielle ». Preuve qu’une facilité linguistique long de la décennie passée, l’IA a jailli hors de sa de surface est bien différente d’une réelle com- bulle académique vers le monde réel. La ques- préhension du langage humain. tion n’est pas que rhétorique, car le manque Depuis longtemps, le traitement du lan- de compréhension de ce monde peut avoir des gage naturel est un des objectifs majeurs de conséquences concrètes et parfois dévastatrices. la recherche en IA. Les chercheurs ont d’abord Dans une étude portant sur les recommanda- essayé de programmer à la main tout ce dont tions de Watson pour lutter contre le cancer, des une machine peut avoir besoin pour com- « exemples multiples de traitements incorrects prendre un magazine, un roman ou toute autre et peu sûrs » ont été pointés. D’autres travaux production écrite. Cette approche, Watson l’a ont montré que le système de traduction de montré, était vaine – il est impossible de cou- Google commettait d’importantes erreurs lors- cher noir sur blanc tous les faits, règles et sup- qu’il s’appliquait à des instructions médicales positions qui n’ont pas encore été écrits et sont destinées à des patients non anglophones. nécessaires pour comprendre un texte. Comment juger, en pratique, si une machine Plus récemment, un nouveau paradigme a a la capacité de comprendre ? En 1950, le pion- été établi : au lieu de les abreuver de connais- nier de l’informatique Alan Turing a essayé de sances explicites et les dresser à prédire des répondre à cette question avec son fameux « jeu mots, nous laissons les machines comprendre le de l’imitation », aujourd’hui connu sous le nom Pour la Science Hors-Série n° 115/Mai-juin 2022
CHANTIER EN COURS –――――――――――― En bref ―――――――――――– > Donner aux > Entraînés de façon > Du test de Turing aux > Les machines machines la maîtrise adéquate, les réseaux schémas Winograd, ne sauront sans du langage naturel de neurones il n’est pas aisé doute comprendre est, de longue comme GPT-3 d’établir un test le langage que date, un objectif semblent capables prouvant une vraie lorsqu’elles sauront de l’intelligence de performances compréhension, aussi comprendre artificielle. spectaculaires. Mais notamment parce le monde qui comprennent-ils que les programmes les entoure. vraiment ? recourent à des raccourcis statistiques. de « test de Turing ». Une machine et un humain, Paire 1, phrase 2 : J’ai versé de l’eau de la tous deux cachés, sont en compétition pour bouteille dans la tasse jusqu’à ce qu’elle soit vide. convaincre un juge humain de leur humanité Question : Qu’est-ce qui était vide, la bou- en n’usant que de la conversation écrite. Si le teille ou la tasse ? juge est incapable de trancher, pensait Turing, Paire 2, phrase 1 : L’oncle de Joe peut nous devrions alors considérer que la machine encore le battre au tennis, bien qu’il soit trente pense – et, en effet, comprend. ans plus vieux. 56 Malheureusement, Turing a sous-estimé Question : Qui est plus vieux, Joe ou l’oncle la propension des humains à se laisser duper. de Joe ? Même de simples robots de conversation, tels Paire 2, phrase 2 : L’oncle de Joe peut qu’Eliza – l’ersatz de psychothérapeute conçu encore le battre au tennis, bien qu’il soit trente par Joseph Weizenbaum en 1960 –, ont réussi à ans plus jeune. faire croire à des testeurs qu’ils discutaient avec Question : Qui est plus jeune, Joe ou l’oncle un être doué de compréhension, alors même de Joe ? qu’ils savaient parler à une machine. Dans chaque paire, la différence d’un mot (en italique) peut changer la personne ou la chose à laquelle le pronom fait référence. Répondre MAÎTRE DU MONDE POUR UN PRONOM correctement à ces questions semble nécessiter Dans un article de 2012, les informati- une compréhension de type sens commun. Les ciens Hector Levesque, Ernest Davis et Leora schémas Winograd sont conçus précisément Morgenstern ont proposé un test plus objec- pour évaluer cela, en réduisant la vulnérabilité tif, qu’ils ont baptisé « challenge du schéma du test de Turing aux juges humains non fiables Winograd ». Ce test a, depuis, été adopté par et aux astuces des robots conversationnels. En la communauté du langage de l’IA comme particulier, les auteurs ont conçu quelques cen- moyen, peut-être le meilleur, d’évaluer le taines de schémas qu’ils pensent être imper- degré de compréhension d’une machine – bien méables à Google : une machine ne devrait pas Cet article a d’abord que, nous le verrons, il ne soit pas parfait. Un être capable de lancer une recherche Google (ou été publié en anglais schéma Winograd, nommé d’après le chercheur tout autre moteur de recherche) pour répondre en linguistique Terry Winograd, de l’université par Quanta Magazine, à ces questions correctement. Stanford, consiste en une paire de phrases diffé- une publication en Ces schémas ont été l’objet d’une compé- rant d’un mot exactement, chacune suivie d’une ligne indépendante, tition en 2016 durant laquelle le programme question. Voici deux exemples : soutenue par la Simons vainqueur a répondu juste à seulement 58 % des Paire 1, phrase 1 : J’ai versé de l’eau de la Foundation afin de phrases – un résultat à peine meilleur que celui bouteille dans la tasse jusqu’à ce qu’elle soit pleine. favoriser la diffusion qu’elle aurait obtenu en devinant les réponses Question : Qu’est-ce qui était rempli, la bou- des sciences : au hasard. Ce qui fait dire malicieusement à teille ou la tasse ? bit.ly/3MFPKtr Oren Etzioni, éminent chercheur en IA : « Quand Pour la Science Hors-Série n° 115/Mai-juin 2022
Interro écrite pour l’intelligence artificielle une intelligence artificielle ne peut déterminer à qui un pronom fait référence dans une phrase, il Turing a sous-estimé est difficile d’imaginer qu’elle puisse prendre un jour le contrôle du monde. » Cependant, la capacité des programmes d’IA la propension à résoudre les schémas Winograd a grimpé en flèche avec l’avènement des modèles de lan- gage en réseau neuronal. En 2020, une étude des humains à se 57 d’OpenAI relatait que GPT-3, qui relève de cette catégorie d’IA, obtenait de bonnes réponses sur laisser duper. Même de simples robots de près de 90 % des phrases dans un lot de réfé- rence de phrases de ce type. D’autres modèles de langage sont encore plus performants après s’être entraînés spécifiquement à ces tâches. Fin 2021, les modèles de langage en réseau neu- conversation peuvent ronal atteignaient 97 % de précision sur un lot particulier de schémas Winograd qui font partie d’une compétition de compréhension des lan- faire illusion gues par les IA, nommée SuperGlue. C’est à peu près équivalent aux performances humaines. Cela signifie-t-il que les modèles de langage en de la poste, car elle était plus rapide » et « la réseau neuronal ont atteint un niveau de com- voiture de sport a doublé la camionnette de préhension comparable au nôtre ? la poste, car elle était plus lente ». Un modèle de langage entraîné avec un large corpus de phrases en français aura assimilé la corrélation ÊTRE COLLÉ À LA COMPÉTITION entre « voiture de sport » et « rapide », et entre SUPERGLUE « camionnette de la poste » et « lent » ; il peut Pas forcément. Malgré tous les efforts de donc répondre correctement uniquement grâce leurs créateurs, ces schémas Winograd n’étaient à ces corrélations. De fait, beaucoup de schémas en fait pas imperméables à Google. Ces défis, Winograd de la compétition SuperGlue auto- comme beaucoup d’autres tests actuels de com- risent ce genre de lien statistique. préhension du langage par les IA, recourent par- Plutôt qu’abandonner ces schémas en tant fois à des raccourcis statistiques grâce auxquels que test de compréhension, un groupe de cher- les réseaux neuronaux sont performants sans cheurs de l’institut Allen (du nom d’un cofon- comprendre. Prenez, par exemple, les phrases dateur de Microsoft) pour l’IA, à Seattle, a « la voiture de sport a doublé la camionnette essayé de régler certains de leurs problèmes. Pour la Science Hors-Série n° 115/Mai-juin 2022
CHANTIER EN COURS ⟶ En 2011, aux États-Unis, l’ordinateur Watson, d’IBM, triomphe au jeu Jeopardy. Nourri avec l’équivalent de 1 million de livres, il capte les questions posées en langage naturel par le présentateur, le sens des mots, mais aussi s’il faut ou non répondre à une question. Une performance pas si élémentaire… En 2019, ils ont créé WinoGrande, un lot bien plus étoffé de schémas Winograd : il contient Il est souvent 44 000 phrases, contre quelques centaines 58 jusque-là. Pour obtenir autant d’exemples, les chercheurs ont fait appel à Amazon Mechanical difficile de savoir si des systèmes Turk, une plateforme pour proposer à des humains, contre rémunération, des tâches plus ou moins complexes. Il a été demandé à chaque travailleur d’écrire quelques paires de phrases, avec des contraintes pour s’assurer que d’IA comprennent l’ensemble aborderait divers sujets, mais avec la possibilité que ces paires puissent à présent différer de plus d’un mot. véritablement Les chercheurs ont ensuite tenté d’éli- miner les phrases propices à des raccourcis le langage, ou statistiques, en soumettant chacune d’entre elles à une IA assez peu sophistiquée et en écartant toutes celles qui étaient trop simples d’autres données, à résoudre. Comme ils s’y attendaient, les phrases qui restaient offraient un défi bien qu’ils traitent plus difficile pour les machines que la collec- tion originale. Tandis que les humains conti- nuaient d’obtenir des scores très élevés, les modèles de langage en réseau neuronal qui Cependant, une autre surprise allait surgir. égalaient la performance humaine sur le lot Dans les deux années qui suivirent la publica- d’origine ont vu leur score s’effondrer avec le tion de la collection WinoGrande, les modèles lot WinoGrande. Ce nouveau défi restaurait de langage en réseau neuronal ont continué de le statut de « test de compréhension de sens croître, et plus ils sont larges, meilleur semble commun » pour les schémas Winograd – du être leur score à ce nouveau défi. Fin 2021, les moment que les phrases étaient scrupuleuse- meilleurs programmes actuels – d’abord entraî- ment filtrées pour assurer leur imperméabilité nés avec des térabits de textes, puis avec des © IBM à des recherches Google. milliers d’exemples WinoGrande – obtenaient Pour la Science Hors-Série n° 115/Mai-juin 2022
Interro écrite pour l’intelligence artificielle près de 90 % de bonnes réponses (contre 94 % Ces connaissances, nous, humains, les tenons pour les humains). Cette hausse de performance pour acquises, mais ce n’est pas le cas des est presque entièrement imputable à l’augmen- machines. Et il est peu probable que ce soit écrit tation de la taille des modèles de langage en explicitement dans le texte d’entraînement de réseau neuronal et de la quantité de leurs don- n’importe quel modèle de langage. Certains cher- nées d’entraînement. cheurs en cognition estiment que les humains, Ces réseaux encore plus larges ont-ils enfin pour apprendre le langage, s’appuient sur un atteint un niveau de compréhension similaire noyau de connaissances, prélinguistiques et au nôtre ? Encore une fois, c’est peu probable. innées, de l’espace, du temps et de nombreuses Les résultats de WinoGrande s’accompagnent autres propriétés essentielles du monde. Si nous d’importantes mises en garde. Par exemple, voulons que les machines maîtrisent le langage parce que les phrases dépendent des travailleurs comme nous, nous devrons d’abord les doter des d’Amazon Mechanical Turk, la qualité et la cohé- principes primordiaux avec lesquels nous nais- rence de l’écriture sont assez inégales. L’IA utili- sons. Et pour évaluer leur niveau de compréhen- sée pour filtrer les phrases « non imperméables sion, nous devrions commencer par évaluer leur à Google » peut avoir été trop peu sophistiquée capacité à saisir ces principes, ce qu’on pourrait pour repérer tous les potentiels raccourcis sta- appeler une « métaphysique infantile ». tistiques qu’un énorme réseau neuronal pour- Entraîner et évaluer des machines au niveau rait emprunter, et elle ne s’appliquait qu’à des d’intelligence d’un nourrisson peut apparaître phrases individuelles, si bien que certaines des comme un pas de géant en arrière par rapport aux phrases qui restaient ont fini par perdre leur prouesses de Watson et de GPT-3. Mais si l’objectif « jumelle ». Une étude postérieure à ces travaux est une compréhension authentique et digne de a montré que les modèles de langage en réseau confiance, il se peut que ce soit le seul chemin vers neuronal testés uniquement avec des phrases des machines vraiment capables de comprendre à jumelles, et devant répondre correctement aux quoi « il » ou « elle » fait référence dans une phrase. 59 deux, sont bien moins précis que les humains, ce qui indique que le résultat de 90 % vu plus tôt est moins significatif qu’il ne pouvait le paraître. Au final, que retenir de cette saga Winograd ? ― L’autrice ― ― À lire ― La leçon principale est qu’il est souvent difficile > Melanie Mitchell > Y. Elazar et al., Back to de déterminer, à partir de leur performance est professeuse de complexité square one : Artifact detection, lors d’un défi donné, si des systèmes d’IA com- à l’institut de Sante Fe, training and common sense prennent véritablement le langage (ou d’autres au Nouveau-Mexique, disentanglement in the Winograd données) qu’ils traitent. Nous savons que les aux États-Unis. schema, Proceedings of the 2021 réseaux neuronaux utilisent souvent des rac- Conference on Empirical courcis statistiques – au lieu de vraiment faire preuve d’une compréhension semblable à celle Methods in Natural Language des humains – pour obtenir de bonnes perfor- Processing, 2021. mances sur les schémas Winograd et sur d’autres > B. Taira et al., A pragmatic bancs d’essais orientés vers une « compréhension assessment of Google Translate générale du langage ». for emergency department Le nœud du problème, à mon avis, est que instructions, Journal of General comprendre le langage nécessite de comprendre Internal Medicine, 2021. le monde, et notamment ce que signifie que « la voiture de sport a doublé la camionnette de > P. Amsili et O. Seminck, la poste parce qu’elle était plus lente ». Cela Schémas Winograd en français : suppose de savoir ce que sont des voitures de une étude statistique et sport et des camionnettes de la poste, que des comportementale, Actes voitures peuvent se « doubler », et, à un niveau de TALN 2017, 2017. encore plus fondamental, que les véhicules sont des objets qui existent et interagissent dans le > T. Brown et al., Language monde, conduits par des humains avec leurs models are few-shot learners, propres objectifs. https ://arxiv.org/abs/2005.14165. Pour la Science Hors-Série n° 115/Mai-juin 2022
Vous pouvez aussi lire