Du stimulus à la science, neurocomputationnellement

La page est créée Thomas Denis
 
CONTINUER À LIRE
Du stimulus à la science, neurocomputationnellement

In Métaphysique : son histoire, sa critique, ses enjeux (sous la direction de
L. Langlois et J.-M. Narbonne), Paris: J. Vrin.

By Pierre Poirier, University of California-Davis

À Harvard durant l’année académique 1940-41, les philosophes-mathématiciens Quine,
Tarski et Carnap débattaient de la possibilité d’établir une distinction entre les énoncés
analytiques et synthétiques qui soit suffisamment mordante pour dégager un statut
spécial à l’épistémologie. Quine et Tarski s’objectaient à la distinction et l’objection de
Quine verra notamment le jour sous le titre fameux « Les deux dogmes de
l’empirisme ». Carnap, dans son autobiographie intellectuelle, se souvient avoir alors
craint : « are we now back to John Stuart Mill? ». Carnap avait compris qu’une
épistémologie antipsychologiste comme celle du Cercle de Vienne ne peut subsister
sans la présence d’une distinction de principe entre des énoncés analytiques et
synthétiques. Il avait compris qu’un rejet de la distinction signifiait, à court ou moyen
terme, un retour à l’épistémologie comme « psychologie de la science » telle que la
pratiquait Auguste Comte, John Stuart Mill et Ernst Mach.
Quine comprenait aussi la portée de ses attaques contre la distinction car celles-ci
céderont peu à peu le pas à la construction et la défense d’une psychologie de la
science, psychologie qu’il défend encore dans son récent From Stimulus to Science
(1995). Mais en dépit des craintes de Carnap, la psychologie de la science de Quine ne
fera pas demi-tour vers Mill. La psychologie de la science de Mill est pour Quine viciée
par la subjectivité de l’introspection et l’obscurité référentielle de l’intention. Si
l’épistémologie n’a rien à attendre d’une distinction entre l’analytique et le synthétique,
elle n’a rien non plus à attendre des idiomes intentionnels ou subjectifs car, pour Quine,
les sciences naturelles en général n’ont rien à attendre de ceux-ci. La psychologie de la
science de Quine, son « épistémologie naturelle », conservera donc, paradoxalement,
une large mesure de l’antipsychologisme de Carnap. S’il est admis en effet que
l’intentionnalité ou la conscience, ou les deux, sont des éléments essentiels de toute
psychologie, on peut alors affirmer que Quine tente le tour de force d’une « psychologie
antipsychologiste » de la science.
S’il peut ainsi espérer réussir le tour de force d’une psychologie antipsychologiste de la
science, c’est qu’il peut s’inspirer des travaux de son collègue et ami de Harvard,
Buhrrus F. Skinner, qui, lui aussi, et justement, tente le tour de force d’une « psychologie
antipsychologiste ». Suivant la piste béhavioriste, Quine concevra la relation
« psychologique » entre l’évidence sensorielle et les théories en terme d’une relation
fonctionnelle entre le stimulus et la réponse faisant abstraction des mécanismes qui la
réalise. En faisant abstraction des mécanismes qui la réalise, cette relation fonctionnelle
n’a donc pas à être décrite en terme des idiomes déchus de l’intentionnalité ou de la
subjectivité lesquels peuvent par conséquent disparaître de la psychologie de la
science.
Peu de philosophes naturalistes aujourd’hui se satisferont cependant d’une psychologie
de la science postulant des dispositions dont le mode de réalisation est parfaitement
obscur. On accepte aujourd’hui le discours dispositionnel en sciences, non pas si on
peut montrer son innocuité logique au sein d’un langage extensionnel, mais si on peut
décrire le mécanisme causal qui en est responsable. L’abstraction fonctionnelle
caractéristique du béhaviorisme comme du fonctionnalisme n’est plus au goût du jour
dans les sciences de la cognition si elle cache une tentative d’ériger une science
suffisante, sans rapport aucun avec ses sœurs. Qui veut rapatrier l’épistémologie au
sein de la science doit se plier aux exigences normatives de la science et l’intégration,
ou l’intégration potentielle, est une des importantes exigences normatives aujourd’hui.
C’est Quine le naturaliste qui vient hanter Quine le béhavioriste. Le naturalisme de
Quine veut en effet que sa propre psychologie de la science soit jugée par les principes
normatifs en vigueur en sciences. Or la psychologie vit présentement d’intenses
pressions intégratives vers les neurosciences et l’acceptabilité d’une psychologie de la
science aujourd’hui dépend en partie de la possibilité de son intégration avec les autres
sciences formant les sciences cognitives.
Mais à la même époque où Quine, Tarski et Carnap décidaient du sort de la distinction
analytique-synthétique, et à quelques rues de là, un autre philosophe-mathématicien,
Warren McCullogh, beaucoup plus obscur mais tout aussi important que ses collègues
de Cambridge, jetait les bases de ce qui allait devenir un des plus sérieux formalisme
actuel pour analyser le détail du mécanisme menant du stimulus à la science.
L’entreprise de McCullogh, qu’il concevait comme une épistémologique naturelle, qu’il
nommait « épistémologie expériementale » deviendra, au terme d’une histoire qu’il n’est
pas pertinent de rappeler ici, l’épistémologie neurocomputationnelle de Paul Churchland.
J’aimerais aujourd’hui explorer la possibilité de reprendre le projet initial de Quine d’une
psychologie de la science qui rejette autant l’idiome propositionnel et le vocabulaire
subjectif que la distinction analytique-synthétique mais qui se base sur les
neurosciences plutôt que le béhaviorisme. J’aimerais explorer le genre de science
cognitive de la science que Quine aurait pu développer s’il s’était inspiré de McCullogh
plutôt que de Skinner.
1. L’épistémologie, ou quelque chose de ressemblant
L’épistémologie neurocomputationnelle se développe à partir d’un exemplaire
paradigmatique lequel ouvre la porte à un appareil conceptuel, en fait deux.
L’exemplaire est le réseau de neurone artificiel et l’appareil conceptuel qui m’intéresse
est la théorie dynamique des systèmes. Je dirai quelques mots au sujet de chacun, en
commençant par l’exemplaire paradigmatique. Un réseau de neurones artificiel est un
calculateur que l’on peut représenter formellement comme un graphe orienté où (1) une
variable d’état, (2) un coefficient de biais et (3) une fonction d’activation et de transfert
sont assignés à chaque nœud du graphe et où un coefficient de pondération est
assigné à chacune des arête. Ce formalisme peut servir d’exemplaire paradigmatique à
une théorie épistémologique au terme de deux séries d’analogies, que l’on doit chacune
à McCullogh.
La première et la plus connue des séries d’analogies résulte en l’interprétation
biologique ou neurologique du formalisme. C’est à travers cette série d’analogie que le
formalisme mathématique reçoit le nom de « réseau de neurones » et, inversement,
c’est à travers cette série d’analogies que des assemblées de neurones interconnectées
peuvent être comprises comme des machines de traitement de l’information. Au plan
physiologique, un neurone standard possède trois propriétés ou structures
physiologiques d’intérêt. D’abord, il est plus ou moins fortement connecté à d’autres
neurones, certains en amont d’autre en aval. Ensuite, il a un certain niveau d’activation
lequel dépend de trois facteurs : son seuil de sensibilité à l’activation, la force de ses
connections aux neurones en amont et enfin le niveau d’activation de ces autres

                                                                                           2
neurones. Enfin, son niveau d’activation détermine le taux d’activation qu’il passera aux
autres neurones auxquels il est connecté en aval.
McCullogh a remarqué dès 1943 qu’on pouvait associer chacune des ces propriétés et
structures physiologiques à des structures et propriétés du graphe orienté, et ainsi tracer
un isomorphisme naturel entre les premières et les secondes. Par cet isomorphisme, le
formalisme mathématique peut être décrit en termes neurologiques et des assemblées
de neurones « acquièrent » des propriétés computationnelles. C’est ainsi que les nœuds
sont vus comme des neurones, les arêtes comme des synapses, les coefficients comme
des force de connexions synaptiques, les biais comme des seuils d’activation, la
fonction d’activation et de transfert comme l’activité computationnelle du neurone et
enfin c’est ainsi que le formalisme lui-même est vu comme un « réseau de neurones ».
Et à l’inverse c’est par cet isomorphisme que les neurones sont compris comme des
unités primaires d’un mécanisme de calcul qui ont des biais, des capacités
computationnelles propres, que les synapses apparaissent comme des liens pondérés
entre unités de calcul et les assemblées neurales deviennent des machines de calcul.
La seconde série d’analogie résulte en l’interprétation fonctionnelle du réseau de
neurones artificiel. A cette fin, il convient de remarquer que seulement deux variables
sont définies au sein du formalisme. Ce sont la variable d’état du neurone, qui est une
caractéristique temporaire d’un réseau sous l’influence d’une activation externe, et les
coefficients synaptiques qui sont des caractéristiques relativement permanentes du
réseau, en ce qu’elles ne peuvent être modifiées que par l’application d’une procédure
externe. Ainsi, au plan mathématique, on ne peut donc modifier un réseau de manière
permanente qu’en altérant sa matrice de connexité.
La seconde analogie commence par comprendre l’output du réseau comme étant un
comportement. Il s’agit ici du premier pas de la seconde série d’analogie et il s’agit d’un
pas relativement innocent même s’il confond une notion mathématique, l’output produit
par formalisme, à une notion psychologique, le comportement. Pour des raisons
computationnelles qu’il ne convient pas de présenter ici, la grande majorité des réseaux
commencent leur « existence » tabula rasa, c’est-à-dire avec une matrice de connexité
aléatoire. Il s’ensuit évidemment que le comportement initial du réseau est absolument
indiscipliné; qu’il n’a aucun rapport avec le comportement attendu du réseau. La
procédure de réduction du taux d’erreur a pour fonction de modifier la matrice aléatoire
afin d’amener le comportement indiscipliné à correspondre au comportement attendu.
Puisqu’on nomme généralement « entraînement » toute procédure où un comportement
indiscipliné est amené à se conformer à un comportement acceptable ou attendu, on
nomme « entraînement » la procédure de réduction d’erreur et « apprentissage » la
modification subie par le réseau. D’où la seconde analogie de notre seconde série :
l’application de l’algorithme de réduction du taux d’erreur est un entraînement et son
résultat est un apprentissage.
L’algorithme de réduction de l’erreur fonctionne en modifiant légèrement la matrice de
connexité jusqu’à ce que le comportement s’approche suffisamment du comportement
attendu. Le résultat mathématique de l’apprentissage est l’acquisition d’une nouvelle
matrice de connexité. Mais comment nommons-nous d’ordinaire le résultat d’un
apprentissage sinon l’acquisition de connaissances ? D’où la troisième et quatrième
analogie : l’acquisition d’un nouvelle matrice est une acquisition de connaissances et,
partant, la matrice est une ou un ensemble de connaissances.
La première série d’analogie nous fait « voir » le formalisme comme un modèle d’une
structure biologique et la seconde nous le fait « voir » en termes fonctionnels

                                                                                         3
psychologiques appropriés à la naturalisation de l’épistémologie. Au terme de ces deux
séries d’analogie, le formalisme devient ainsi un moyen terme entre l’épistémologie et la
neurologie. Chacune des analogies est controversée mais nécessaire au projet d’une
épistémologie neurocomputationnelle. Ce projet se développera ou périra dans la
mesure où chacune de deux analogies peut être détaillée, et dans la mesure où elles
permettront une réflexion épistémologique d’intérêt. Ce qui m’amène à parler de
l’appareil conceptuel ouvert par l’exemplaire paradigmatique.
En fait, j’ai dit tout à l’heure qu’il en avait deux. Si on limite en effet le comportement des
neurones artificiels, en leur donnant une fonction d’activation linéaire et discrète et
binaire, alors l’activation des neurones peut représenter des propositions et le réseau
peut être entraîné pour effectuer n’importe quelle inférence ou suivre toute règle qu’on
veut bien lui faire respecter. L’exemplaire permet ainsi de lier l’épistémologie
propositionnelle traditionnelle à la neurologie. C’était d’ailleurs là l’intuition de McCullogh
derrière l’idée d’une « épistémologie expérimentale ». Si l’épistémologie est à penser
comme on le fait depuis le début de ce siècle en terme de propositions ou d’attitudes
propositionnelles, d’inférences, de probabilité de croyance, de principes de justification
des croyances, etc., etc., alors l’exemplaire paradigmatique nous permet d’envisager la
naturalisation de l’épistémologie propositionnelle en offrant un moyen de tester
expérimentalement certains de ses principes à l’aide de simulations connexionnistes.
Mais à part cette possibilité, l’exemplaire n’ouvre aucune nouvelle porte conceptuelle à
l’épistémologie traditionnelle. L’appareil conceptuel propre à l’épistémologie
propositionnelle date du siècle dernier et demeure inchangé : propositions, attitudes,
règles définies sur des attitudes.
Les recherches empiriques sur les réseaux de neurones montrent que ceux-ci
manifestent les propriétés les plus intéressantes lorsque la fonction d’activation n’est ni
discrète ni linéaire ni binaire. L’épistémologie neurocomputationnelle résultant de cette
modification apparemment mineure brise assez radicalement avec l’épistémologie
traditionnelle et j’aimerais terminer aujourd’hui par une présentation du genre d’appareil
conceptuel ainsi mis à notre disposition. Paul Churchland soutient dans plusieurs textes,
dont un de l’an dernier, que cet appareil permet une justification réductive des
conceptions de la science de Kuhn et de Feyerabend. Je ne reviendrai pas là-dessus.
Je propose plutôt de centrer mon attention sur un objet épistémologique traditionnel, la
théorie, pour en présenter une image neurocomputationnelle dynamique. Mon objectif
est de montrer comment celle-ci permet de poursuivre le projet de Quine dans un
schème radicalement différent du sien et ainsi montrer comment concevoir une théorie
autrement que dans la forme à laquelle les empiristes logiques nous ont habitués, à
savoir la théorie comme structure linguistique, soit syntaxique soit sémantique, soit les
deux.
2. Vers une conception neurocomputationnelle dynamique des théories
Acceptons l’idée traditionnelle que les théories sont un type de représentation et qu’elles
ont par conséquent des propriétés sémantiques. Faisons aussi l’hypothèse que l’objet
de première instance d’une théorie est un système physique, ou un type ou une famille
de système physiques. Une tâche de l’épistémologie sera donc de caractériser la
relation épistémique entre les théories et les systèmes physiques. L’image traditionnelle
veut que la relation en soit une de correspondance : la théorie correspond au système
physique ; d’où l’importance traditionnelle de la vérité comme mesure de la
correspondance effective entre la théorie et son objet et l’importance de l’évidence
comme fondement de la vérité de la théorie. La théorie dynamique des systèmes nous
permet de concevoir la relation différemment.

                                                                                             4
Un système physique quelconque peut être uniquement identifié par l’ensemble de
données input-output qu’il produit. Il ne s’agit pas là d’une découverte scientifique ou
d’une thèse métaphysique mais simplement d’une définition opérationnelle courante en
sciences et en mathématiques. Un système est un ensemble de paires input-output.
Nous signifierons désormais cet ensemble par l’expression « système input-output ».
Une première fonction de la théorie sera donc de représenter le système input-output
identifiant uniquement un système physique. Mais trois problèmes surgissent tout de
suite.
  (1) Il est généralement impossible d’encoder littéralement, ou en extension, le
     système input-output identifiant un système physique.
  (2) Nous n’observons de tout système physique qu’un sous-ensemble fini de son
     ensemble input-output. Nommons ce sous-ensemble fini « le système input-output
     observé ».
  (3) Dans certains cas, il sera même impossible d’encoder littéralement, ou en
     extension, le système input-output observé.
Le problème sémantique ou représentationnel de la théorisation peut être exprimé ainsi :
Encoder une représentation d’un ensemble, le système input-output, duquel nous
n’observons qu’un sous-ensemble, le système input-output observé, lequel dépasse nos
capacités d’encodage littéral.
Dans le pire des scénarios, ce problème est insoluble. On sait par exemple que si le
système input-output observé ne contient aucune régularité, alors l’encodage le plus
compact du système input-output est le système input-output lui-même. Et nous avons
posé par hypothèse que ceci est impossible. Heureusement la nature coopère un peu
(ceci n’est pas un miracle, nous n’existerions tout simplement pas si elle n’avait pas
coopéré dès le départ).
En effet, la microarchitecture des systèmes physiques leur confère des dispositions qui
se manifestent par des régularités dans le système input-output observé. Et l’on sait
aussi que plusieurs techniques mathématiques permettent de comprimer un système
input-output comprenant des régularités. L’expression « comprimer un système input-
output » signifie simplement réduire le nombre de bits nécessaires pour encoder de
l’ensemble. On sait par exemple que si le système input-output peut être décrit comme
une fonction récursive, alors il existe un algorithme capable de comprimer l’ensemble et
il ne reste plus qu’à représenter cet algorithme, dans un langage par exemple. Mais le
formalisme du réseau de neurone permet aussi de comprimer un ensemble contenant
des régularités et, par nos deux séries d’analogies, on peut penser que les cerveaux
savent comprimer des système input-output comprenant des régularités.
Posons que ceci règle notre troisième problème : bien qu’ils ne peuvent pas encoder
littéralement des systèmes input-output observé, les cerveaux peuvent les encoder par
compression. Nous n’avons cependant pas résolu pour autant le problème de la
théorisation tel qu’énoncé plus tôt. En particulier, le problème est toujours d’encoder un
système input-output duquel nous n’observons qu’un sous-ensemble.
Mais puisque les deux systèmes input-output sont associés au même système
physique, il assuré que le système input-output manifestera des régularités si le système
input-output observé en manifeste. Et on sait expérimentalement que les performances
des réseaux de neurones se généralisent. Si on entraîne un réseau à partir d’un sous-
ensemble d’un ensemble plus vaste, le réseau entraîné pourra, produire l’output

                                                                                        5
approprié étant donné un input encore inobservé. Et on sait aussi par expérimentation
que le réseau généralisera bien dans la mesure où le système input-output observé est
représentatif du système input-output. Si les régularités contenues dans le système
input-output observé comprimé sont représentatives du système input-output, alors le
réseau encodera une représentation du système input-output par le simple fait
d’encoder le système input-output observé. Tout comme Quine, mais avec un appareil
conceptuel distinct, nous venons donc de nous donner une description d’un mécanisme
capable de mener du stimulus à la science : nous avons un mécanisme capable
d’encoder une représentation d’un système physique par la compression d’un sous-
ensemble fini de paires input-output représentatif du système input-output identifiant le
système physique.
Il faut cependant remarquer que le mécanisme décrit n’assure d’aucune façon un
encodage parfait du système physique. Nous venons de dire que le réseau généralisera
bien dans la mesure où le système input-output observé est représentatif du système
input-output. Puisque le système input-output observé est rarement parfaitement
représentatif du système input-output, il s’ensuit que le réseau de neurones produira des
erreurs, c’est-à-dire qu’il produira des output qui divergent de ceux du système input-
output. C’est à ce point dans notre épistémologie qu’apparaissent un ensemble de
dimensions normatives d’analyse. Contrairement à ce qu’on pourrait en effet croire,
l’épistémologie neurocomputationnelle dynamique est pleinement normative. Non pas
qu’elle « naturalise » les propriétés non naturelles de l’épistémologie propositionnelle
traditionnelle autant que requiert des propriétés normatives qui n’ont pas besoin d’être
naturalisées. Au sein de ce paradigme, le problème épistémique de la théorisation peut
être exprimé ainsi :
Étant donné deux encodages T1 et T2 d’un même système input-output observé, lequel
encode le mieux le système input-output identifiant uniquement un système physique ?
La première dimension normative correspond au taux d’erreur produit par le réseau. Le
taux d’erreur est une mesure de la qualité de l’encodage. S’il correspond donc en gros à
la notion traditionnelle de vérité, il faut insister sur le fait que ce n’est pas la même
notion. Le taux d’erreur est une mesure continue alors que la vérité est une mesure
discrète. Il ne fait pas vraiment sens de dire qu’une théorie est plus vraie qu’une autre
alors qu’il fait pleinement sens de dire qu’une théorie produit plus d’erreur qu’une autre.
Si l’on définit le taux d’erreur comme le ratio des outputs erronés sur les outputs
corrects, il est donc possible de comparer deux théories au moyen du principe normatif :
  (PN1) T1 est meilleur que T2 si son taux d’erreur est inférieur à celui de T2.
Si la première dimension normative est relativement évidente, la seconde est plus
contre-intuitive car elle dépend des caractéristiques non linéaires des réseaux de
neurones. On sait expérimentalement, et je n’expliquerai pas pourquoi ici, que, toutes
choses étant égales par ailleurs, plus l’encodage produit par un réseau de neurones est
compact, meilleure sont ses capacités de généralisation. On sait donc que, toutes
choses étant égales par ailleurs, le taux d’erreur d’une théorie est directement
proportionnel à sa dimension, mesurée en bits.
Cependant les choses ne sont pas égales par ailleurs. On peut facilement minimiser la
taille d’un encodage en minimisant la taille du système input-output observé. Plus le
système input-output observé est petit, plus sa description pourra être compacte. Mais
nous avons vu que le taux d’erreur d’une théorie dépend aussi de la représentativité du
système input-output observé. Or la représentativité du système input-output observé
dépend elle aussi, mais inversement, de la dimension du système input-output observé.

                                                                                         6
Plus un système input-output observé est grand, plus il a de chances d’être représentatif
du système input-output. Le taux d’erreur est donc à la fois directement et inversement
proportionnel à la taille du système input-output observé. La seconde dimension
normative pose un problème d’optimisation : il faut minimiser la dimension de l’encodage
tout en maximisant la dimension du système input-output observé qu’il encode. Nous
pourrions exprimer cette condition normative ainsi, où D(E) représente la taille en bits de
l’encodage et DIOo représente la taille en bits du système input-output :
  (PN2) T1 est meilleure que T2 si son ratio D(E)/D(IOo) est plus petit que celui de T2.
Je ne vais pas continuer car ce serait abuser de votre patience mais on pourrait définir
d’autres conditions normatives associées à la procédure d’apprentissage, au nombre de
neurones, etc.
Nous avons vu que si on accepte les deux série d’analogies, alors on peut voir les
cerveaux humains comme des constructeurs de théories. Et nous avons vu que
l’appareil conceptuel ouvert par la théorie dynamique des systèmes nous permet de
comprendre en termes non propositionnels un ensemble de propriétés sémantiques,
pragmatiques et normatives générales des théories. Le modèle permet aussi d’expliquer
d’une manière très économe le changement de théorie et pourquoi il arrive à l’occasion
qu’une nouvelle donnée reçoive deux interprétations distinctes au sein d’une même
théorie et qu’elle puisse même mener à l’élimination de la théorie à la faveur de théories
distinctes. Dans ces deux derniers cas, l’avantage de l’appareil conceptuel sur ses
prédécesseurs tient en ce qu’il ne requiert pas la position de nouveaux mécanismes
représentationnels : si les théories sont construites comme nous l’avons décrit, alors le
changement de théorie et la bifurcation des interprétations théoriques sont des
propriétés naturelles émergeant directement de leur mode de construction.
Je ne sais pas si cet appareil conceptuel se révélera une arme importante pour
comprendre la connaissance humaine et scientifique ou s’il n’est qu’une mode
temporaire, comme il y en a tant en philosophie. Les nouveaux programmes de
recherche se fondent moins dans l’assurance que dans la foi, et l’essence de la foi c’est
de croire qu’une possibilité existe. J’espère vous avoir convaincu aujourd’hui que la
possibilité d’une épistémologie neurocomputationnelle dynamique normative existe bel
et bien. D’une manière plus générale, j’espère vous avoir convaincu qu’il est possible de
poursuivre le projet quinien d’une épistémologie non propositionnelle sans passer par le
béhaviorisme.

                                                                                         7
Vous pouvez aussi lire