Présentation de la différence entre apprentissage individuel et collectif (Nick Vriend) - (publié au JEDC, 2000)
←
→
Transcription du contenu de la page
Si votre navigateur ne rend pas la page correctement, lisez s'il vous plaît le contenu de la page ci-dessous
Présentation de la différence entre apprentissage individuel et collectif (Nick Vriend) (publié au JEDC, 2000)
Problématique • Démonstration de la différence entre un apprentissage individuel et collectif pour des agents • Ici prend l’exemple d’un algorithme génétique pour des agents en situation de marché • Comparaison des comportements aux données théoriques
Apprentissage • Les deux perceptions • Individuelle : ses propres perceptions seulement • Sociale : savoir collectif • Les données pertinentes • Individuelles : ses actions passées et les gains correspondants • Collectives : les actions de tous et les gains correspondants • Note : La différence peut être en rapport avec la notion d’externalité, ou influence réciproque
Exemple choisi • N firmes produisent le même bien vendu sur un marché unique. • La firme i produit qi. Le total de production est Q. • Le prix de marché dépend de Q : P (Q) = a + b.Qc prix – (courbe du papier) quantité • Il y a des frais fixes K et un coût marginal k, d’où le coût total TC (q) = K + k.q
Analyse des choix optimaux Profit : Π(q)=[a+bQ c ]q-[K+kq] • Cas où la firme n’influence pas le marché : d Π(q)/dq=[a+bQ c ]-K= 0 (optimal) QW=((k-a) / b)1/c et qW = QW/n Équilibre walrasien • Cas où la firme influence le marché : d Π(q)/dq=P + dP/dq –k = [a+bQ c ]+d[a+bQ c ]/dq-k= 0 QW=((k-a) / b.((c/n)+1))1/c et qW = QW/n Avec a < 0 b>0 c -2n Équilibre de Cournot-Nash
Implémentation en modèle • 40 firmes sont implémentées, apprenant selon le modèle de l’algorithme génétique • Les règles ne sont pas des si… alors mais un bit string qui donne la production : 11 bits, définissant de 1 à 2048 la production. • A chaque pas de temps, usage d’une règle, gagne un gain. • Apprentissage social : n’utilise qu’une règle sur 100 pas de temps, connaît toutes les associations [règle > gain] de tout les agents. Révise tous les 100 pas de temps par imitation et recombinaison des règles qui gagnent le plus. • Apprentissage individuel : l’agent a 40 règles et les utilisent toutes en fonction des gains associés, construites aléatoirement, et il ne connaît que celle-là. Révise tous les 100 pas de temps par recombinaison des règles qui gagnent le plus.
Pseudo-code start main loop for each period do begin for each firm do Classifier Systems’s actions begin activerule : "CHOOSE - ACTION; output level : "action of active } rule; end; determine market price; for each firm do Classifier Systems’s outcomes begin profit : "(market price) ) (output level)}costs; utility : "monotonic transformation of profit; with active } rule do fitness : "utility; end; if period is multiple of 100 then application Genetic Algorithm begin if individual learning GA then for each firm do GENERATE } NEW } RULES else if social learning GA then begin create set of 40 rules taking the 1 rule from each firm; GENERATE } NEW } RULES; re-assign 1 rule to each of the 40 firms end; end
Pseudo-code INITIALIZATION for each firm do for each rule do (1 ou 40) begin make random bit string of length 11 with standard binary encoding; fitness : "1.00; end; function CHOOSE - ACTION; begin for each rule do begin linearly rescale the firm’s actual fitnesses to [0,1]; bid : "rescaled } fitness#e; Mwith e+N(0, 0.075)N with probability : "0.025 the bid is ignored; end; determine highest } bid; end; choose } action : "highest } bid;
Pseudo-code procedure GENERATE } NEW } RULES; linearly rescale the actual fitnesses to [0,1]; repeat; choose two mating parent rules from 30 fittest rules by roulette wheelselection; (each rule with probability : "rescaled - fitness/sum (rescaled- fitnesses) with probability : "0.95 do begin place the two binary strings side by side and choose random crossing point; swap bits before crossing point; choose one of the two offspring at random as new } rule; end; with new } rule do begin fitness : "average fitnesses of the two mating parent strings; for each bit do with prob. : "0.001 do mutate bit from 1 to 0 or other way round; end; if new } rule is not duplicate of existing rule T hen replace one of weakest 10 existing rule with new } rule else throwaway; until 10 new rules created;
Paramètres Minimum individual output level 1 Maximum individual output level 2048 Encoding of bit string Standard binary Length of bit string 11 Number rules individual GA 40 Number rules social GA 40 X 1 GA-rate 100 Number new rules 10 Selection tournament Prob. selection Fitness/Σfitnesses Crossover Point Prob. crossover 0.95 Prob. mutation 0.001
N.J. Vriend / Journal of Economic Dynamics & Control 24 (2000) 1}19 7 N.J. Vriend / Journal of Economic Dynamics & Control 24 (2000) 1}19 7 Résultats Fig. Fig. 5. Average 5. Average output output learning levels individual levels individual learning GA and social GAGA. learning and social learning GA. Table 1 Table 1 Output levels individual learning GA and social learning GA, periods 5001}10,000 Output levels individual learning GA and social learning GA, periods 5001}10,000 Indiv. learning GA Social learning GA Indiv. learning GA Social learning GA Average 805.1 1991.3 Average Standard deviation 80.5 805.1 24.7 1991.3 Standard deviation 80.5 24.7 for the periods 5001 to 10,000 in the two variants of the GA. We want to stress that these data are generated by exactly the same identical GA for exactly the
the competitive Walrasian output level. The explanation for this is the spite e!ect. In order to give the intuition behind the spite e!ect in this Cournot game, let us consider a simpli"ed version of a Cournot duopoly in which the inverse demand function is P"a#bQ, and in which both "xed and marginal costs are Analyse zero (see Scha!er, 1989). The Walrasian equilibrium is then Q!"!a/b, as indicated in Fig. 6. Suppose "rm i produces its equal share of the Walrasian output: q "Q!/2. If "rm j would do the same, aggregate output is Q!, the ! market price P will be zero, and both make a zero pro"t. What happens when • "rmOn voit le lien entre j produces more than Q!/2? The price P will become negative, and both "rms– will apprentissage make losses. Butindividuel et convergence it is "rm i that makes less losses,vers Cournot-Nash because it has a lower output level sold at the same market price P. What happens instead if "rm–j produces Apprentissage social less than Q!/2? et convergence The price P will be positive,vers walrasien and hence this will increase "rm j's pro"ts. But again it is "rm i that makes a greater pro"t, because • Explication par le modèle en duopoly Fig. 6. Example simple Cournot duopoly.
Analyse • En terme d’utilité, le modèle d’apprentissage individuel est plus efficace. • Il est aussi plus instable car il existe des équilibres multiples à adaptation permanente en fonction des actions des autres.
Discussion • Si n tend vers infini, les deux équilibres correspondent • On pourrait penser à des intermédiaires d’apprentissage « type learning », ici type est sigleton. • Spite effect influence l’évolution mais il existe aussi dans les one shot game, n’a pas besoin de l’évolution • Ceci n’est pas l’usage le plus typique des algorithmes génétiques. • Pourrait d’ailleurs être un autre type d’apprentissage o l’un est individuel et l’autre social – l’intérêt ici est l’identité des deux.
Conclusion • On a bien une différence intrinsèque entre les deux formes d’apprentissage • C’est important de bien réfléchir pour chaque application informatique • Souvent c’est l’apprentissage social qui est choisi pour des raisons de parcimonie, on peut dire que l’argument est mauvais • Lien à des études empiriques ??
Vous pouvez aussi lire