Du stimulus à la science, neurocomputationnellement
←
→
Transcription du contenu de la page
Si votre navigateur ne rend pas la page correctement, lisez s'il vous plaît le contenu de la page ci-dessous
Du stimulus à la science, neurocomputationnellement In Métaphysique : son histoire, sa critique, ses enjeux (sous la direction de L. Langlois et J.-M. Narbonne), Paris: J. Vrin. By Pierre Poirier, University of California-Davis À Harvard durant l’année académique 1940-41, les philosophes-mathématiciens Quine, Tarski et Carnap débattaient de la possibilité d’établir une distinction entre les énoncés analytiques et synthétiques qui soit suffisamment mordante pour dégager un statut spécial à l’épistémologie. Quine et Tarski s’objectaient à la distinction et l’objection de Quine verra notamment le jour sous le titre fameux « Les deux dogmes de l’empirisme ». Carnap, dans son autobiographie intellectuelle, se souvient avoir alors craint : « are we now back to John Stuart Mill? ». Carnap avait compris qu’une épistémologie antipsychologiste comme celle du Cercle de Vienne ne peut subsister sans la présence d’une distinction de principe entre des énoncés analytiques et synthétiques. Il avait compris qu’un rejet de la distinction signifiait, à court ou moyen terme, un retour à l’épistémologie comme « psychologie de la science » telle que la pratiquait Auguste Comte, John Stuart Mill et Ernst Mach. Quine comprenait aussi la portée de ses attaques contre la distinction car celles-ci céderont peu à peu le pas à la construction et la défense d’une psychologie de la science, psychologie qu’il défend encore dans son récent From Stimulus to Science (1995). Mais en dépit des craintes de Carnap, la psychologie de la science de Quine ne fera pas demi-tour vers Mill. La psychologie de la science de Mill est pour Quine viciée par la subjectivité de l’introspection et l’obscurité référentielle de l’intention. Si l’épistémologie n’a rien à attendre d’une distinction entre l’analytique et le synthétique, elle n’a rien non plus à attendre des idiomes intentionnels ou subjectifs car, pour Quine, les sciences naturelles en général n’ont rien à attendre de ceux-ci. La psychologie de la science de Quine, son « épistémologie naturelle », conservera donc, paradoxalement, une large mesure de l’antipsychologisme de Carnap. S’il est admis en effet que l’intentionnalité ou la conscience, ou les deux, sont des éléments essentiels de toute psychologie, on peut alors affirmer que Quine tente le tour de force d’une « psychologie antipsychologiste » de la science. S’il peut ainsi espérer réussir le tour de force d’une psychologie antipsychologiste de la science, c’est qu’il peut s’inspirer des travaux de son collègue et ami de Harvard, Buhrrus F. Skinner, qui, lui aussi, et justement, tente le tour de force d’une « psychologie antipsychologiste ». Suivant la piste béhavioriste, Quine concevra la relation « psychologique » entre l’évidence sensorielle et les théories en terme d’une relation fonctionnelle entre le stimulus et la réponse faisant abstraction des mécanismes qui la réalise. En faisant abstraction des mécanismes qui la réalise, cette relation fonctionnelle n’a donc pas à être décrite en terme des idiomes déchus de l’intentionnalité ou de la subjectivité lesquels peuvent par conséquent disparaître de la psychologie de la science. Peu de philosophes naturalistes aujourd’hui se satisferont cependant d’une psychologie de la science postulant des dispositions dont le mode de réalisation est parfaitement obscur. On accepte aujourd’hui le discours dispositionnel en sciences, non pas si on
peut montrer son innocuité logique au sein d’un langage extensionnel, mais si on peut décrire le mécanisme causal qui en est responsable. L’abstraction fonctionnelle caractéristique du béhaviorisme comme du fonctionnalisme n’est plus au goût du jour dans les sciences de la cognition si elle cache une tentative d’ériger une science suffisante, sans rapport aucun avec ses sœurs. Qui veut rapatrier l’épistémologie au sein de la science doit se plier aux exigences normatives de la science et l’intégration, ou l’intégration potentielle, est une des importantes exigences normatives aujourd’hui. C’est Quine le naturaliste qui vient hanter Quine le béhavioriste. Le naturalisme de Quine veut en effet que sa propre psychologie de la science soit jugée par les principes normatifs en vigueur en sciences. Or la psychologie vit présentement d’intenses pressions intégratives vers les neurosciences et l’acceptabilité d’une psychologie de la science aujourd’hui dépend en partie de la possibilité de son intégration avec les autres sciences formant les sciences cognitives. Mais à la même époque où Quine, Tarski et Carnap décidaient du sort de la distinction analytique-synthétique, et à quelques rues de là, un autre philosophe-mathématicien, Warren McCullogh, beaucoup plus obscur mais tout aussi important que ses collègues de Cambridge, jetait les bases de ce qui allait devenir un des plus sérieux formalisme actuel pour analyser le détail du mécanisme menant du stimulus à la science. L’entreprise de McCullogh, qu’il concevait comme une épistémologique naturelle, qu’il nommait « épistémologie expériementale » deviendra, au terme d’une histoire qu’il n’est pas pertinent de rappeler ici, l’épistémologie neurocomputationnelle de Paul Churchland. J’aimerais aujourd’hui explorer la possibilité de reprendre le projet initial de Quine d’une psychologie de la science qui rejette autant l’idiome propositionnel et le vocabulaire subjectif que la distinction analytique-synthétique mais qui se base sur les neurosciences plutôt que le béhaviorisme. J’aimerais explorer le genre de science cognitive de la science que Quine aurait pu développer s’il s’était inspiré de McCullogh plutôt que de Skinner. 1. L’épistémologie, ou quelque chose de ressemblant L’épistémologie neurocomputationnelle se développe à partir d’un exemplaire paradigmatique lequel ouvre la porte à un appareil conceptuel, en fait deux. L’exemplaire est le réseau de neurone artificiel et l’appareil conceptuel qui m’intéresse est la théorie dynamique des systèmes. Je dirai quelques mots au sujet de chacun, en commençant par l’exemplaire paradigmatique. Un réseau de neurones artificiel est un calculateur que l’on peut représenter formellement comme un graphe orienté où (1) une variable d’état, (2) un coefficient de biais et (3) une fonction d’activation et de transfert sont assignés à chaque nœud du graphe et où un coefficient de pondération est assigné à chacune des arête. Ce formalisme peut servir d’exemplaire paradigmatique à une théorie épistémologique au terme de deux séries d’analogies, que l’on doit chacune à McCullogh. La première et la plus connue des séries d’analogies résulte en l’interprétation biologique ou neurologique du formalisme. C’est à travers cette série d’analogie que le formalisme mathématique reçoit le nom de « réseau de neurones » et, inversement, c’est à travers cette série d’analogies que des assemblées de neurones interconnectées peuvent être comprises comme des machines de traitement de l’information. Au plan physiologique, un neurone standard possède trois propriétés ou structures physiologiques d’intérêt. D’abord, il est plus ou moins fortement connecté à d’autres neurones, certains en amont d’autre en aval. Ensuite, il a un certain niveau d’activation lequel dépend de trois facteurs : son seuil de sensibilité à l’activation, la force de ses connections aux neurones en amont et enfin le niveau d’activation de ces autres 2
neurones. Enfin, son niveau d’activation détermine le taux d’activation qu’il passera aux autres neurones auxquels il est connecté en aval. McCullogh a remarqué dès 1943 qu’on pouvait associer chacune des ces propriétés et structures physiologiques à des structures et propriétés du graphe orienté, et ainsi tracer un isomorphisme naturel entre les premières et les secondes. Par cet isomorphisme, le formalisme mathématique peut être décrit en termes neurologiques et des assemblées de neurones « acquièrent » des propriétés computationnelles. C’est ainsi que les nœuds sont vus comme des neurones, les arêtes comme des synapses, les coefficients comme des force de connexions synaptiques, les biais comme des seuils d’activation, la fonction d’activation et de transfert comme l’activité computationnelle du neurone et enfin c’est ainsi que le formalisme lui-même est vu comme un « réseau de neurones ». Et à l’inverse c’est par cet isomorphisme que les neurones sont compris comme des unités primaires d’un mécanisme de calcul qui ont des biais, des capacités computationnelles propres, que les synapses apparaissent comme des liens pondérés entre unités de calcul et les assemblées neurales deviennent des machines de calcul. La seconde série d’analogie résulte en l’interprétation fonctionnelle du réseau de neurones artificiel. A cette fin, il convient de remarquer que seulement deux variables sont définies au sein du formalisme. Ce sont la variable d’état du neurone, qui est une caractéristique temporaire d’un réseau sous l’influence d’une activation externe, et les coefficients synaptiques qui sont des caractéristiques relativement permanentes du réseau, en ce qu’elles ne peuvent être modifiées que par l’application d’une procédure externe. Ainsi, au plan mathématique, on ne peut donc modifier un réseau de manière permanente qu’en altérant sa matrice de connexité. La seconde analogie commence par comprendre l’output du réseau comme étant un comportement. Il s’agit ici du premier pas de la seconde série d’analogie et il s’agit d’un pas relativement innocent même s’il confond une notion mathématique, l’output produit par formalisme, à une notion psychologique, le comportement. Pour des raisons computationnelles qu’il ne convient pas de présenter ici, la grande majorité des réseaux commencent leur « existence » tabula rasa, c’est-à-dire avec une matrice de connexité aléatoire. Il s’ensuit évidemment que le comportement initial du réseau est absolument indiscipliné; qu’il n’a aucun rapport avec le comportement attendu du réseau. La procédure de réduction du taux d’erreur a pour fonction de modifier la matrice aléatoire afin d’amener le comportement indiscipliné à correspondre au comportement attendu. Puisqu’on nomme généralement « entraînement » toute procédure où un comportement indiscipliné est amené à se conformer à un comportement acceptable ou attendu, on nomme « entraînement » la procédure de réduction d’erreur et « apprentissage » la modification subie par le réseau. D’où la seconde analogie de notre seconde série : l’application de l’algorithme de réduction du taux d’erreur est un entraînement et son résultat est un apprentissage. L’algorithme de réduction de l’erreur fonctionne en modifiant légèrement la matrice de connexité jusqu’à ce que le comportement s’approche suffisamment du comportement attendu. Le résultat mathématique de l’apprentissage est l’acquisition d’une nouvelle matrice de connexité. Mais comment nommons-nous d’ordinaire le résultat d’un apprentissage sinon l’acquisition de connaissances ? D’où la troisième et quatrième analogie : l’acquisition d’un nouvelle matrice est une acquisition de connaissances et, partant, la matrice est une ou un ensemble de connaissances. La première série d’analogie nous fait « voir » le formalisme comme un modèle d’une structure biologique et la seconde nous le fait « voir » en termes fonctionnels 3
psychologiques appropriés à la naturalisation de l’épistémologie. Au terme de ces deux séries d’analogie, le formalisme devient ainsi un moyen terme entre l’épistémologie et la neurologie. Chacune des analogies est controversée mais nécessaire au projet d’une épistémologie neurocomputationnelle. Ce projet se développera ou périra dans la mesure où chacune de deux analogies peut être détaillée, et dans la mesure où elles permettront une réflexion épistémologique d’intérêt. Ce qui m’amène à parler de l’appareil conceptuel ouvert par l’exemplaire paradigmatique. En fait, j’ai dit tout à l’heure qu’il en avait deux. Si on limite en effet le comportement des neurones artificiels, en leur donnant une fonction d’activation linéaire et discrète et binaire, alors l’activation des neurones peut représenter des propositions et le réseau peut être entraîné pour effectuer n’importe quelle inférence ou suivre toute règle qu’on veut bien lui faire respecter. L’exemplaire permet ainsi de lier l’épistémologie propositionnelle traditionnelle à la neurologie. C’était d’ailleurs là l’intuition de McCullogh derrière l’idée d’une « épistémologie expérimentale ». Si l’épistémologie est à penser comme on le fait depuis le début de ce siècle en terme de propositions ou d’attitudes propositionnelles, d’inférences, de probabilité de croyance, de principes de justification des croyances, etc., etc., alors l’exemplaire paradigmatique nous permet d’envisager la naturalisation de l’épistémologie propositionnelle en offrant un moyen de tester expérimentalement certains de ses principes à l’aide de simulations connexionnistes. Mais à part cette possibilité, l’exemplaire n’ouvre aucune nouvelle porte conceptuelle à l’épistémologie traditionnelle. L’appareil conceptuel propre à l’épistémologie propositionnelle date du siècle dernier et demeure inchangé : propositions, attitudes, règles définies sur des attitudes. Les recherches empiriques sur les réseaux de neurones montrent que ceux-ci manifestent les propriétés les plus intéressantes lorsque la fonction d’activation n’est ni discrète ni linéaire ni binaire. L’épistémologie neurocomputationnelle résultant de cette modification apparemment mineure brise assez radicalement avec l’épistémologie traditionnelle et j’aimerais terminer aujourd’hui par une présentation du genre d’appareil conceptuel ainsi mis à notre disposition. Paul Churchland soutient dans plusieurs textes, dont un de l’an dernier, que cet appareil permet une justification réductive des conceptions de la science de Kuhn et de Feyerabend. Je ne reviendrai pas là-dessus. Je propose plutôt de centrer mon attention sur un objet épistémologique traditionnel, la théorie, pour en présenter une image neurocomputationnelle dynamique. Mon objectif est de montrer comment celle-ci permet de poursuivre le projet de Quine dans un schème radicalement différent du sien et ainsi montrer comment concevoir une théorie autrement que dans la forme à laquelle les empiristes logiques nous ont habitués, à savoir la théorie comme structure linguistique, soit syntaxique soit sémantique, soit les deux. 2. Vers une conception neurocomputationnelle dynamique des théories Acceptons l’idée traditionnelle que les théories sont un type de représentation et qu’elles ont par conséquent des propriétés sémantiques. Faisons aussi l’hypothèse que l’objet de première instance d’une théorie est un système physique, ou un type ou une famille de système physiques. Une tâche de l’épistémologie sera donc de caractériser la relation épistémique entre les théories et les systèmes physiques. L’image traditionnelle veut que la relation en soit une de correspondance : la théorie correspond au système physique ; d’où l’importance traditionnelle de la vérité comme mesure de la correspondance effective entre la théorie et son objet et l’importance de l’évidence comme fondement de la vérité de la théorie. La théorie dynamique des systèmes nous permet de concevoir la relation différemment. 4
Un système physique quelconque peut être uniquement identifié par l’ensemble de données input-output qu’il produit. Il ne s’agit pas là d’une découverte scientifique ou d’une thèse métaphysique mais simplement d’une définition opérationnelle courante en sciences et en mathématiques. Un système est un ensemble de paires input-output. Nous signifierons désormais cet ensemble par l’expression « système input-output ». Une première fonction de la théorie sera donc de représenter le système input-output identifiant uniquement un système physique. Mais trois problèmes surgissent tout de suite. (1) Il est généralement impossible d’encoder littéralement, ou en extension, le système input-output identifiant un système physique. (2) Nous n’observons de tout système physique qu’un sous-ensemble fini de son ensemble input-output. Nommons ce sous-ensemble fini « le système input-output observé ». (3) Dans certains cas, il sera même impossible d’encoder littéralement, ou en extension, le système input-output observé. Le problème sémantique ou représentationnel de la théorisation peut être exprimé ainsi : Encoder une représentation d’un ensemble, le système input-output, duquel nous n’observons qu’un sous-ensemble, le système input-output observé, lequel dépasse nos capacités d’encodage littéral. Dans le pire des scénarios, ce problème est insoluble. On sait par exemple que si le système input-output observé ne contient aucune régularité, alors l’encodage le plus compact du système input-output est le système input-output lui-même. Et nous avons posé par hypothèse que ceci est impossible. Heureusement la nature coopère un peu (ceci n’est pas un miracle, nous n’existerions tout simplement pas si elle n’avait pas coopéré dès le départ). En effet, la microarchitecture des systèmes physiques leur confère des dispositions qui se manifestent par des régularités dans le système input-output observé. Et l’on sait aussi que plusieurs techniques mathématiques permettent de comprimer un système input-output comprenant des régularités. L’expression « comprimer un système input- output » signifie simplement réduire le nombre de bits nécessaires pour encoder de l’ensemble. On sait par exemple que si le système input-output peut être décrit comme une fonction récursive, alors il existe un algorithme capable de comprimer l’ensemble et il ne reste plus qu’à représenter cet algorithme, dans un langage par exemple. Mais le formalisme du réseau de neurone permet aussi de comprimer un ensemble contenant des régularités et, par nos deux séries d’analogies, on peut penser que les cerveaux savent comprimer des système input-output comprenant des régularités. Posons que ceci règle notre troisième problème : bien qu’ils ne peuvent pas encoder littéralement des systèmes input-output observé, les cerveaux peuvent les encoder par compression. Nous n’avons cependant pas résolu pour autant le problème de la théorisation tel qu’énoncé plus tôt. En particulier, le problème est toujours d’encoder un système input-output duquel nous n’observons qu’un sous-ensemble. Mais puisque les deux systèmes input-output sont associés au même système physique, il assuré que le système input-output manifestera des régularités si le système input-output observé en manifeste. Et on sait expérimentalement que les performances des réseaux de neurones se généralisent. Si on entraîne un réseau à partir d’un sous- ensemble d’un ensemble plus vaste, le réseau entraîné pourra, produire l’output 5
approprié étant donné un input encore inobservé. Et on sait aussi par expérimentation que le réseau généralisera bien dans la mesure où le système input-output observé est représentatif du système input-output. Si les régularités contenues dans le système input-output observé comprimé sont représentatives du système input-output, alors le réseau encodera une représentation du système input-output par le simple fait d’encoder le système input-output observé. Tout comme Quine, mais avec un appareil conceptuel distinct, nous venons donc de nous donner une description d’un mécanisme capable de mener du stimulus à la science : nous avons un mécanisme capable d’encoder une représentation d’un système physique par la compression d’un sous- ensemble fini de paires input-output représentatif du système input-output identifiant le système physique. Il faut cependant remarquer que le mécanisme décrit n’assure d’aucune façon un encodage parfait du système physique. Nous venons de dire que le réseau généralisera bien dans la mesure où le système input-output observé est représentatif du système input-output. Puisque le système input-output observé est rarement parfaitement représentatif du système input-output, il s’ensuit que le réseau de neurones produira des erreurs, c’est-à-dire qu’il produira des output qui divergent de ceux du système input- output. C’est à ce point dans notre épistémologie qu’apparaissent un ensemble de dimensions normatives d’analyse. Contrairement à ce qu’on pourrait en effet croire, l’épistémologie neurocomputationnelle dynamique est pleinement normative. Non pas qu’elle « naturalise » les propriétés non naturelles de l’épistémologie propositionnelle traditionnelle autant que requiert des propriétés normatives qui n’ont pas besoin d’être naturalisées. Au sein de ce paradigme, le problème épistémique de la théorisation peut être exprimé ainsi : Étant donné deux encodages T1 et T2 d’un même système input-output observé, lequel encode le mieux le système input-output identifiant uniquement un système physique ? La première dimension normative correspond au taux d’erreur produit par le réseau. Le taux d’erreur est une mesure de la qualité de l’encodage. S’il correspond donc en gros à la notion traditionnelle de vérité, il faut insister sur le fait que ce n’est pas la même notion. Le taux d’erreur est une mesure continue alors que la vérité est une mesure discrète. Il ne fait pas vraiment sens de dire qu’une théorie est plus vraie qu’une autre alors qu’il fait pleinement sens de dire qu’une théorie produit plus d’erreur qu’une autre. Si l’on définit le taux d’erreur comme le ratio des outputs erronés sur les outputs corrects, il est donc possible de comparer deux théories au moyen du principe normatif : (PN1) T1 est meilleur que T2 si son taux d’erreur est inférieur à celui de T2. Si la première dimension normative est relativement évidente, la seconde est plus contre-intuitive car elle dépend des caractéristiques non linéaires des réseaux de neurones. On sait expérimentalement, et je n’expliquerai pas pourquoi ici, que, toutes choses étant égales par ailleurs, plus l’encodage produit par un réseau de neurones est compact, meilleure sont ses capacités de généralisation. On sait donc que, toutes choses étant égales par ailleurs, le taux d’erreur d’une théorie est directement proportionnel à sa dimension, mesurée en bits. Cependant les choses ne sont pas égales par ailleurs. On peut facilement minimiser la taille d’un encodage en minimisant la taille du système input-output observé. Plus le système input-output observé est petit, plus sa description pourra être compacte. Mais nous avons vu que le taux d’erreur d’une théorie dépend aussi de la représentativité du système input-output observé. Or la représentativité du système input-output observé dépend elle aussi, mais inversement, de la dimension du système input-output observé. 6
Plus un système input-output observé est grand, plus il a de chances d’être représentatif du système input-output. Le taux d’erreur est donc à la fois directement et inversement proportionnel à la taille du système input-output observé. La seconde dimension normative pose un problème d’optimisation : il faut minimiser la dimension de l’encodage tout en maximisant la dimension du système input-output observé qu’il encode. Nous pourrions exprimer cette condition normative ainsi, où D(E) représente la taille en bits de l’encodage et DIOo représente la taille en bits du système input-output : (PN2) T1 est meilleure que T2 si son ratio D(E)/D(IOo) est plus petit que celui de T2. Je ne vais pas continuer car ce serait abuser de votre patience mais on pourrait définir d’autres conditions normatives associées à la procédure d’apprentissage, au nombre de neurones, etc. Nous avons vu que si on accepte les deux série d’analogies, alors on peut voir les cerveaux humains comme des constructeurs de théories. Et nous avons vu que l’appareil conceptuel ouvert par la théorie dynamique des systèmes nous permet de comprendre en termes non propositionnels un ensemble de propriétés sémantiques, pragmatiques et normatives générales des théories. Le modèle permet aussi d’expliquer d’une manière très économe le changement de théorie et pourquoi il arrive à l’occasion qu’une nouvelle donnée reçoive deux interprétations distinctes au sein d’une même théorie et qu’elle puisse même mener à l’élimination de la théorie à la faveur de théories distinctes. Dans ces deux derniers cas, l’avantage de l’appareil conceptuel sur ses prédécesseurs tient en ce qu’il ne requiert pas la position de nouveaux mécanismes représentationnels : si les théories sont construites comme nous l’avons décrit, alors le changement de théorie et la bifurcation des interprétations théoriques sont des propriétés naturelles émergeant directement de leur mode de construction. Je ne sais pas si cet appareil conceptuel se révélera une arme importante pour comprendre la connaissance humaine et scientifique ou s’il n’est qu’une mode temporaire, comme il y en a tant en philosophie. Les nouveaux programmes de recherche se fondent moins dans l’assurance que dans la foi, et l’essence de la foi c’est de croire qu’une possibilité existe. J’espère vous avoir convaincu aujourd’hui que la possibilité d’une épistémologie neurocomputationnelle dynamique normative existe bel et bien. D’une manière plus générale, j’espère vous avoir convaincu qu’il est possible de poursuivre le projet quinien d’une épistémologie non propositionnelle sans passer par le béhaviorisme. 7
Vous pouvez aussi lire