Présentation de la différence entre apprentissage individuel et collectif (Nick Vriend) - (publié au JEDC, 2000)

La page est créée Julien Ferrand
 
CONTINUER À LIRE
Présentation de la différence
entre apprentissage individuel
   et collectif (Nick Vriend)
      (publié au JEDC, 2000)
Problématique
• Démonstration de la différence entre un
  apprentissage individuel et collectif pour
  des agents
• Ici prend l’exemple d’un algorithme
  génétique pour des agents en situation de
  marché
• Comparaison des comportements aux
  données théoriques
Apprentissage
• Les deux perceptions
     • Individuelle : ses propres perceptions seulement
     • Sociale : savoir collectif
• Les données pertinentes
     • Individuelles : ses actions passées et les gains
       correspondants
     • Collectives : les actions de tous et les gains
       correspondants
• Note : La différence peut être en rapport
  avec la notion d’externalité, ou influence
  réciproque
Exemple choisi
• N firmes produisent le même bien vendu sur un
  marché unique.
• La firme i produit qi. Le total de production est Q.
• Le prix de marché dépend de Q : P (Q) = a + b.Qc
                           prix

         –   (courbe du papier)

                                              quantité

• Il y a des frais fixes K et un coût marginal k, d’où
  le coût total TC (q) = K + k.q
Analyse des choix optimaux
                Profit : Π(q)=[a+bQ c ]q-[K+kq]

• Cas où la firme n’influence pas le marché :
               d Π(q)/dq=[a+bQ c ]-K= 0 (optimal)
                 QW=((k-a) / b)1/c et qW = QW/n
                        Équilibre walrasien

• Cas où la firme influence le marché :
      d Π(q)/dq=P + dP/dq –k = [a+bQ c ]+d[a+bQ c ]/dq-k= 0
            QW=((k-a) / b.((c/n)+1))1/c et qW = QW/n
              Avec a < 0 b>0 c -2n
                 Équilibre de Cournot-Nash
Implémentation en modèle
• 40 firmes sont implémentées, apprenant selon le modèle de
  l’algorithme génétique
• Les règles ne sont pas des si… alors mais un bit string qui
  donne la production : 11 bits, définissant de 1 à 2048 la
  production.
• A chaque pas de temps, usage d’une règle, gagne un gain.
• Apprentissage social : n’utilise qu’une règle sur 100 pas de
  temps, connaît toutes les associations [règle > gain] de
  tout les agents. Révise tous les 100 pas de temps par
  imitation et recombinaison des règles qui gagnent le plus.
• Apprentissage individuel : l’agent a 40 règles et les utilisent
  toutes en fonction des gains associés, construites
  aléatoirement, et il ne connaît que celle-là. Révise tous les
  100 pas de temps par recombinaison des règles qui gagnent
  le plus.
Pseudo-code
start main loop
              for each period do
              begin
                             for each firm do Classifier Systems’s actions
                             begin
                                          activerule : "CHOOSE - ACTION;
                                          output level : "action of active } rule;
                             end;
determine market price;
             for each firm do Classifier Systems’s outcomes
           begin
                                     profit : "(market price) ) (output level)}costs;
                                     utility : "monotonic transformation of profit;
                                     with active } rule do fitness : "utility;
           end;
if period is multiple of 100 then application Genetic Algorithm
begin
               if individual learning GA then for each firm do
                                           GENERATE } NEW } RULES
               else if social learning GA then
               begin
                             create set of 40 rules taking the 1 rule from each firm;
                             GENERATE } NEW } RULES;
                             re-assign 1 rule to each of the 40 firms
               end;
end
Pseudo-code
INITIALIZATION
for each firm do for each rule do (1 ou 40)
begin
                     make random bit string of length 11 with standard binary encoding;
                      fitness : "1.00;
end;

            function CHOOSE - ACTION;
            begin
                      for each rule do
                      begin
                                  linearly rescale the firm’s actual fitnesses to [0,1];
                                  bid : "rescaled } fitness#e; Mwith e+N(0, 0.075)N
                                  with probability : "0.025 the bid is ignored;
                      end;
            determine highest } bid;
            end;
            choose } action : "highest } bid;
Pseudo-code

procedure GENERATE } NEW } RULES;
linearly rescale the actual fitnesses to [0,1];
repeat;
            choose two mating parent rules from 30 fittest rules by roulette wheelselection;
            (each rule with probability : "rescaled - fitness/sum (rescaled- fitnesses)
            with probability : "0.95 do
            begin
                          place the two binary strings side by side and choose random crossing point;
                          swap bits before crossing point;
                          choose one of the two offspring at random as new } rule;
             end;
            with new } rule do
            begin
                         fitness : "average fitnesses of the two mating parent strings;
                          for each bit do with prob. : "0.001 do mutate bit from 1 to 0 or other way round;
            end;
            if new } rule is not duplicate of existing rule
T           hen replace one of weakest 10 existing rule with new } rule else throwaway;
until 10 new rules created;
Paramètres

Minimum individual output level       1
Maximum individual output level       2048
Encoding of bit string Standard       binary
Length of bit string                  11
Number rules individual GA            40
Number rules social GA                40 X 1
GA-rate                               100
Number new rules                      10
Selection                             tournament
Prob. selection                       Fitness/Σfitnesses
Crossover                             Point
Prob. crossover                       0.95
Prob. mutation                        0.001
N.J. Vriend / Journal of Economic Dynamics & Control 24 (2000) 1}19               7

             N.J. Vriend / Journal of Economic Dynamics & Control 24 (2000) 1}19           7
                                                          Résultats

                      Fig.
         Fig. 5. Average   5. Average
                         output          output learning
                                levels individual levels individual learning
                                                          GA and social       GAGA.
                                                                        learning and social learning GA.

Table 1     Table 1
Output levels individual learning GA and social learning GA, periods 5001}10,000
           Output levels individual learning GA and social learning GA, periods 5001}10,000
                                 Indiv. learning GA                Social learning GA
                                                  Indiv. learning GA                    Social learning GA
Average                          805.1                             1991.3
           Average
Standard deviation                80.5            805.1              24.7               1991.3
           Standard deviation                      80.5                                   24.7

for the periods 5001 to 10,000 in the two variants of the GA. We want to stress
that these data are generated by exactly the same identical GA for exactly the
the competitive Walrasian output level. The explanation for this is the spite
  e!ect.
     In order to give the intuition behind the spite e!ect in this Cournot game, let
  us consider a simpli"ed version of a Cournot duopoly in which the inverse
  demand function is P"a#bQ, and in which both "xed and marginal costs are
                                          Analyse
  zero (see Scha!er, 1989). The Walrasian equilibrium is then Q!"!a/b, as
  indicated in Fig. 6. Suppose "rm i produces its equal share of the Walrasian
  output: q "Q!/2. If "rm j would do the same, aggregate output is Q!, the
             !
  market price P will be zero, and both make a zero pro"t. What happens when
• "rmOn     voit le lien entre
        j produces more than Q!/2? The price P will become negative, and both
  "rms– will
           apprentissage
               make losses. Butindividuel     et convergence
                                 it is "rm i that  makes less losses,vers   Cournot-Nash
                                                                       because it has
  a lower output level sold at the same market price P. What happens instead if
  "rm–j produces
           Apprentissage        social
                   less than Q!/2?       et convergence
                                     The price P will be positive,vers  walrasien
                                                                   and hence this will
  increase "rm j's pro"ts. But again it is "rm i that makes a greater pro"t, because
• Explication par le modèle en duopoly

                       Fig. 6. Example simple Cournot duopoly.
Analyse
• En terme d’utilité, le modèle d’apprentissage
  individuel est plus efficace.
• Il est aussi plus instable car il existe des
  équilibres multiples à adaptation permanente en
  fonction des actions des autres.
Discussion
• Si n tend vers infini, les deux équilibres correspondent
• On pourrait penser à des intermédiaires d’apprentissage
  « type learning », ici type est sigleton.
• Spite effect influence l’évolution mais il existe aussi dans
  les one shot game, n’a pas besoin de l’évolution
• Ceci n’est pas l’usage le plus typique des algorithmes
  génétiques.
• Pourrait d’ailleurs être un autre type d’apprentissage o
  l’un est individuel et l’autre social – l’intérêt ici est
  l’identité des deux.
Conclusion
• On a bien une différence intrinsèque entre les
  deux formes d’apprentissage
• C’est important de bien réfléchir pour chaque
  application informatique
• Souvent c’est l’apprentissage social qui est
  choisi pour des raisons de parcimonie, on peut
  dire que l’argument est mauvais
• Lien à des études empiriques ??
Vous pouvez aussi lire