Calibrage du seuil par linéarisation des scores par intervalles dans un système de filtrage adaptatif

La page est créée Jean-Pierre Lecomte
 
CONTINUER À LIRE
Calibrage du seuil par linéarisation des scores
par intervalles dans un système de filtrage
adaptatif

Mohamed Tmar
Laboratoire IRIT/SIG
Campus Univ. Toulouse III
118, Route de Narbonne
F-31062 Toulouse Cedex 4
tmar@irit.fr

RÉSUMÉ.  Dans un contexte incrémental, l’adaptation du profil change la distribution des scores
des documents, et doit par conséquent être suivie par l’adaptation du seuil. Dans ce papier,
nous proposons une méthode qui permet d’effectuer le seuillage en se basant sur l’estimation
de la distribution de probabilités des scores des documents reçus. Les paramètres des lois de
probabilités suivies par les scores des documents pertinents et non pertinents permettent de
trouver ce seuil.
ABSTRACT. In an incremental context, profile adaptation changes the overall document score
distribution, and must consequently be followed by threshold adaptation. In this paper, we
propose a method allowing to adapt the threshold based on the estimation of the document score
probability distribution. The parameters of the laws of probability followed by the relevant and
irrelevant document scores allow to find this threshold.
MOTS-CLÉS :   Apprentissage adaptatif, Filtre, seuil, distribution de probabilités, fonction d’utilité
KEYWORDS:     Adaptive learning, Filtre, threshold, probability distribution, utility function

XXème Congrès INFORSID - Nantes, 4 - 7 juin 2002. Volume 8 - n 8/2002, pages 1 à 17
2   XXème Congrès INFORSID - Nantes, 4 - 7 juin 2002. Volume 8 - n 8/2002

1. Introduction

    Depuis que le nombre d’utilisateurs d’Internet et la disponibilité de l’informa-
tion sous une forme électronique ont exponentiellement augmentés, le développement
d’outils qui règlent ce flux infini d’information est devenu nécessaire et urgent pour
protéger l’utilisateur de la distribution massive et abusive de toute information inutile.
Le filtrage d’information [BEL 92] offre des processus continus permettant, à partir
d’une source dynamique d’informations (Internet, E-mail, News  ) de sélectionner
et de présenter les seuls documents intéressant un utilisateur ayant un centre d’intérêt
relativement stable appelé profil.

     Malone [MAL 87] a défini trois modes de filtrage, selon la nature des critères de
sélection sur lesquels se base le filtrage. Le mode de filtrage le plus courant est le
filtrage cognitif, ou basé sur le contenu [ROB 00b]. Ce mode de filtrage suppose que
le seul critère de sélection ou de rejet d’un document est le contenu de ce document.
Le processus de filtrage est basé sur les statistiques des termes (nombre d’apparitions
d’un terme dans un document, nombre de documents pertinents, non pertinents conte-
nant un terme,  ) et des documents (nombre de documents pertinents, non pertinents,
longueur d’un document,  ). Le deuxième mode est le filtrage social, ou collaboratif
[GOL 92], dans ce mode de filtrage les utilisateurs du même système sont supposés
collaborer entre eux. Recevant un document, un utilisateur peut annoter ou recomman-
der ce document à un autre utilisateur. Le système se base sur ces annotations et ces
recommendations pour filtrer le document aux autres utilisateurs. Le dernier mode de
filtrage est le filtrage économique. Dans ce mode de filtrage on se base sur le profit de
sélection d’un document pertinent et le coût de sélection d’un document non pertinent.

   Les trois modes de filtrage ne sont pas indépendants, les critères de sélection
peuvent être combinés dans un processus de filtrage produisant ainsi un effet de sy-
nergie. Le mode de filtrage auquel nous nous intéressons est le filtrage cognitif.

    La plupart des modèles de filtrage d’information existant dans ce mode sont par-
ticulièrement basés sur des techniques de recherche d’information auxquelles une
fonction d’adaptation et une fonction de décision le plus souvent de type seuil sont
rajoutées. Cette approche adopte une base d’indexation des documents, liée à des es-
timations statistiques sur une collection d’apprentissage (solution batch) ou à la struc-
ture des documents en arrivée (solution adaptative). Les profils sont appris sur des
techniques de relevance feedback développées dans le domaine de la recherche d’in-
formation. Le choix et l’adaptation du seuil sont évidemment des problèmes majeurs
dans les systèmes de filtrage.

   Pour être performant, un système de filtrage doit choisir une valeur de seuil per-
mettant de sélectionner un maximum de documents pertinents et un minimum de do-
cuments non pertinents, et de rejeter un maximum de documents non pertinents et
Calibrage du seuil ...   3

un minimum de documents pertinents. La plupart des méthodes existantes mesurent
ce seuil par rapport aux scores des documents déjà filtrés. Robertson [ROB 00b] uti-
lise des techniques de régression pour estimer tous les paramètres de filtrage, dont le
seuil. Dans Clarit, Zhai [ZHA 00] a développé une méthode de seuillage appelée beta-
gamma. Cette méthode consiste à définir le seuil comme une combinaison linéaire de
deux seuils : un seuil optimal permettant de fournir l’utilité 1 [ROB 00a] optimale, et
un seuil zéro représentant le plus grand seuil inférieur au seuil optimal permettant de
fournir une utilité négative.

    Dans d’autres approches, les proportions des documents pertinents et non perti-
nents sélectionnés durant une période de temps sont utilisées comme critère de seuillage.
Hoashi [HOA 00] suggère que le seuil doit être adapté dans le temps sur des périodes
définies par un nombre de documents sélectionnés. Il multiplie incrémentalement le
seuil par deux valeurs : la première diminue quand la proportion de documents non
pertinents sélectionnés augmente, et la deuxième augmente quand la proportion de
documents pertinents sélectionnés augmente.

    L’inconvénient de ces méthodes est qu’il est difficile de relier le seuil directe-
ment aux scores des documents. Les seuils sont définis en utilisant des méthodes plu-
tôt expérimentales, qui dépendent surtout des conditions d’expérimentation. Zhang
[ZHA 01] a estimé que la distribution des scores des documents suit une certaine loi
de probabilité. En testant certaines lois (la loi gamma, la loi exponentielle, la loi nor-
male, la loi de poisson  ), il a trouvé que la distribution la plus adéquate aux scores
des documents pertinents est la loi normale, et la distribution la plus adéquate aux
documents non pertinents est la loi exponentielle. A l’aide de la méthode d’estimation
par le maximum de vraisemblance, il estime les paramètres de chaque loi et définit le
seuil en fonction de ces paramètres.

   L’inconvénient de cette méthode est qu’elle n’est pas indépendante de la fonction
de pondération des documents. Pour certains cas, la distribution des scores des docu-
ments (pertinents ou non pertinents) est plutôt uniforme, ou poissonniène. De plus, la
méthode d’estimation par le maximum de vraisemblance exige la connaissance d’un
nombre minimum d’observations (échantillons, documents pertinents ou non perti-
nents, théoriquement 30). Elle n’est donc pas fiable avant une certaine étape (nombre
de documents filtrés).

    Partant du principe qu’il est difficile, voire impossible, d’estimer la forme d’une
distribution indépendamment de la fonction de ressemblance, et des conditions ex-
périmentales (proportion des documents pertinents, variation des longueurs des do-
cuments  ), nous proposons dans ce papier une méthode permettant d’affiner l’es-

 . l’utilité est une fonction d’évaluation pour les systèmes de filtrage d’information, elle est
fonction du nombre de documents pertinents et non pertinents sélectionnés
4   XXème Congrès INFORSID - Nantes, 4 - 7 juin 2002. Volume 8 - n 8/2002

timation de cette forme. Nous supposons que le domaine de définition de la densité
de probabilité des scores des documents peut être divisé en un ensemble d’intervalles
tels que la densité de probabilité des scores des documents est linéaire sur chaque
intervalle. Nous démontrons que cette représentation est plus fiable. Nous utilisons
cette approche pour l’estimation d’un seuil optimum dans le filtrage d’information.
Dans la première section, nous présentons brièvement le modèle de filtrage adaptatif
Filtre [BOU 02]. Nous mettons l’accent sur la fonction d’adaptation du seuil dans la
deuxième section. Nous présentons dans cette section une démarche d’estimation de
la distribution des scores des documents en se basant sur une linéarisation par inter-
valles de scores. La linéarisation sera utilisée pour l’estimation d’un seuil optimum.
La troisième section sera consacrée à l’expérimentation et aux résultats obtenus sur
des documents issus du programme TREC 2.

2. Le système Filtre

     Filtre est inspiré du modèle connexionniste Mercure [BOU 99]. Le processus de
filtrage consiste à comparer chaque document au profil, en calculant un score qui sera
comparé au seuil pour décider si le document doit être sélectionné ou rejeté.

2.1. Représentation du profil

    Le profil utilisateur est représenté par :

                                               
                                            
                                                                                   (1)

                                 
    où  est un terme et   est le poids de ce terme dans le profil initial (à  ),
dans le reste de cette section, le poids du terme dans le profil sera noté   où
                                                                                  
représente l’instant où le système effectue la dernière mise à jour. Initialement, le
poids du terme dans le profil est calculé comme suit :

                                                           !"
                                             
                                                      #%$&('" !")'                       (2)

   où *+ est la fréquence du terme , dans le profil. La formule semble abusivement
simpliste, mais au début du processus de filtrage on ne dispose d’aucune information
sauf le profil initial. Cependant ce poids sera ajusté par apprentissage.
- . un programme international d’évaluation des systèmes de recherche et de filtrage d’informa-
tion, http://trec.nist.gov
Calibrage du seuil ...    5

2.2. Filtrage des nouveaux documents

    A chaque arrivée d’un document, celui-ci est indexé. Le résultat de cette opération
est une liste de termes. Chaque terme dans le document est pondéré en utilisant la
formule utilisée dans Mercure :

                                                 !                                       
                                                                                             
                                          !                                                                     (3)
                                                

   où :
 !    : fréquence d’apparition du terme ! dans le document  
                                                                       
                  : paramètres constants, pour l’expérimentation               et  
    
               : longueur du document   (nombre de termes)
    
                : longueur moyenne d’un document
     
               : nombre de documents
        : nombre de documents contenant le terme !
           Un score noté "!$#       est calculé entre le document et le profil :

                              "!$#            &%                              .  '  
                                                                                       /                                               (4)
                                                             (' )     
                                                               *+,)*
                                                               (' -  *+

   Pour décider si le document est accepté ou non :

               0                                                       76 !$1$8 3   
                   !$1 1$2 43 5    1$                   ! 3 "!$#
                                                               
                    "1:9;1 1$                        ! 3 
                                                                                                                                        (5)

2.3. Apprentissage adaptatif

    Le processus d’apprentissage est adaptatif et incrémental. Il est effectué à chaque
fois que l’utilisateur juge un document positivement. Il permet de modifer la représen-
tation du profil de l’utilisateur, en modifiant les poids des termes, ajoutant et éliminant
des termes du profil. Nous admettons qu’un terme intéressant doit être relativement
fréquent dans les documents pertinents et peu ou pas fréquent dans les documents non
pertinents.
6   XXème Congrès INFORSID - Nantes, 4 - 7 juin 2002. Volume 8 - n 8/2002

    L’apprentissage que nous utilisons est basé sur le renforcement [BOU 02]. En effet,
on considère que quand un document   est jugé pertinent, il faut affecter aux termes
du profil des poids permettant de satisfaire l’équation "!$#                     où est                          
le score désiré. Le problème à résoudre revient alors, à chercher les            '  
                                                                                        (poids des
termes dans le profil) qui satisfont l’équation suivante :

                                                       %                   .  '                                     (6)
                                                   (' )     
                                                     *+,)*
                                                     (' -  *+

    Or cette équation admet une infinité de solutions, nous ajoutons alors une contrainte
pour avoir une solution unique. En effet, parmi l’infinité de solutions de l’équation,
seulement peu permettent d’affecter aux termes les poids qui correspondent aux inté-
rêts de l’utilisateur. On veut que le poids qu’on affecte à chaque terme soit proche de
son poids idéal. On suppose que le poids idéal est donné par la fonction donnée par
la formule 12, est fonction de la fréquence d’apparition du terme dans le document
et du nombre de documents pertinents et non pertinents contenant le terme ( ' , '
                                                                                    
       
et ! ' ). Le système à résoudre devient alors :

                                            '       
                             (' )     
                             *+,)*
                            (' -  *+
                       
                                                                                                                                (7)
                                                                                                                 +
                               '                             
                                                                            '
                                                                      ' ' '
                                                                         
                                                                                  
                                                                                                         
                                                                                                           + + +
                                                                                                              

    La solution du système 7 est l’ensemble des poids du profil qui permet de retrouver
                
le document  . Pour retrouver tous les documents pertinents, il faut combiner les
solutions de tous ces documents pertinents. Par conséquent, une solution correspond
à des poids provisoires qui vont intervenir dans le poids global du profil.

                                                
  Soient                  !   et  le nombre de termes distincts dans le docu-
ment   . Le système 7 peut être réecrit en : 3
                                                     
                                                        
                                                                                                           
                                    '                                                            
                                                                              '       '   '    
                                  ' '                                                            '
                                      '    ..                                                     '
                                                                               '      '    '    

                                         '   .
                                                                                                                                (8)

                                          '                                                           
                                                                               '       '   '    
                                                                                                                '
Calibrage du seuil ...    7

                                                                                                                                                   
    Où 9 correspond à l’index dans le document du terme indexé par dans le profil
(    )' ). En additionnant le premier opérande de chaque équation, on obtient :

                                       3      %  
                                                     
                                                                                '    %
                                                                                                     
                                                                                                           '    
                                                                                                                               
                                                                                                                             
                                                                                                                                                                    (9)
                                                                   -                                -
                                                                                                       

    or
             
                  -
                          '               d’où :

                                       
                                  %          '     
                                                                 
                                                               
                                                                                        
                                                                                                                  
                                                                                                                             
                                                                                                                              '  
                                                                                                                                                                (10)
                                       -                                                                               -

    Pour chaque terme du document, le poids provisoire solution du système 7 est le
suivant :

                                             3 *                                        !    
                                                                                     '    '    ! '    . '  
                                                                                                                                                                (11)
                                                                         '

    La fonction                            est proportionnelle à l’importance du terme :

                                                                                                           
                                                                                                             !    
                                                                                                                   
                                 !                                                                 
                                                                                          !               
                                                                                                                                                                (12)

                       
    Où  ( !  ) est le nombre de documents pertinents (non pertinents) contenant le
terme  à l’instant ,   (    ) est le nombre de documents pertinents (non perti-
nents) à l’instant .

                                                          
   Le poids provisoire *  contribut à l’apprentissage des poids des termes dans le
profil, nous utilisons la formule de propagation de gradient suivante :

                                                           
                                                               *                                                                   (13)

    Pour valider ces différentes formules, des expérimentations ont été effectuées sur
des collections issues de TREC. Nous avons montré qu’on arrive effectivement à ap-
prendre le profil et séparer les documents pertinents des non pertinents. Le lecteur
intéressé peut se référer à l’article [BOU 02] qui détaille ces résultats. Dans le présent
papier, nous nous intéressons particulièrement à l’apprentissage du seuil.
8   XXème Congrès INFORSID - Nantes, 4 - 7 juin 2002. Volume 8 - n 8/2002

3. Apprentissage du seuil

     Pour trouver le meilleur seuil, le système suit l’évolution des scores des documents
et ajuste le seuil de manière à sélectionner le maximum de documents pertinents, et à
rejeter le maximum de documents non pertinents. Nous supposons que la distribution
des scores des documents suit une certaine loi de probabilité. En se basant sur cette
loi, nous pouvons décider si un document est pertinent ou non en se basant sur sa pro-
babilité de pertinence. Cette loi de probabilité nous permettra alors de déterminer le
seuil.

3.1. Modélisation des distributions des scores

    Dans un système de filtrage d’information, la fonction de comparaison permet de
fournir un score donné pour ce document. La probabilité qu’un document tiré aléatoi-
rement ait un score donné est égal au nombre de documents ayant eu ce score divisé
par le nombre de documents total :

                                                                               !$2  "1   
                                                                               
                                                                                                 
                           !$2  "1                          !$2 "1
                                                                                                    (14)

                                       
   Puisque les valeurs sont expérimentalement   très variées
tendance à être équiprobables ( !$2 "1   !$2 "1
                                                        
                                                                ou ), et la distribution
                                                              (voir figure 1), elles ont
des scores tend à être par conséquent uniforme (voir figure 2).

        Pour donner des probabilités plus proches de la réalité, au lieu de calculer la pro-
babilité qu’un document ait un score, nous proposons de mesurer la probabilité que
le score d’un document appartient à un intervalle 3 . Nous définissons  intervalles
  
            de même rayon où :
             

                                                                                  
                                                                !$2 "1  $! 2 "1 
                                                            
                                                                                                      (15)
                                                           #                    
                              !$2 "1                              !$2 "1                            (16)
                                                              #%$& !$2  "1 
                             !$2 "1             
                                                                                                     (17)

    où est un document. La probabilité d’appartenance d’un document à une inter-
valle est défini par :

  . Il existe une méthode d’estimation des paramètres des lois de probabilités permettant de dé-
finir un intervalle plus ou moins précis contenant probablement ce paramètre appelé intervalle
de confiance plutôt que d’estimer une valeur qui sera moins probablement égale à ce paramètre
Calibrage du seuil ...   9

                                10

                                9

                                8

                                7

                                6
                   scores

                                5

                                4

                                3

                                2

                                1

                                0
                                     0          2       4       6           8             10               12            14         16
                                                                        documents

Figure 1. La distribution des scores est très éparpillée

                                0.0606

                                0.0604

                                0.0602
                   p(X=score)

                                     0.06

                                0.0598

                                0.0596

                                0.0594

                                0.0592
                                            0       1   2   3           4          5      6        7             8            9     10
                                                                                 scores

Figure 2. La distribution uniforme n’est pas significative

                                                                                                                       
                                                                                                           !$2 "1   $! 2 "1                
                                                                                                            
                                                                                                                                                  
                                                                              !$2 "1
         !$2 "1   !$2 "1    
                                                                                                                                           
                                                                                                                                                      (18)

     La distribution des probabilités par intervalle de scores est plus réaliste.
                                                                                La figure 3
illustre un exemple de distribution des probabilités calculés comme !$2 "1  
   
!$2 "1    ayant une allure poissonnienne.

    Il existe plusieurs méthodes pour l’estimation de la loi de probabilité suivi par les
scores des documents : la régression paramétrique et l’estimation par le maximum
de vraisemblance. Pour les deux méthodes, la connaissance à priori de la forme de
la fonction est obligatoire, l’application d’une telle méthode permet d’estimer les pa-
ramètres qui permettent de fournir la représentation la plus fiable possible (celle qui
10    XXème Congrès INFORSID - Nantes, 4 - 7 juin 2002. Volume 8 - n 8/2002

                                                 0.3

                                                0.25

                                                 0.2
                         p(score i
Calibrage du seuil ...        11

                                Probabilités
                        0.28

                        0. 24

                        0.2

                        0.16

                        0.12

                        0.08

                        0.04

                                                                                                                           Scores

Figure 4. Linéarisation de la distribution des probabilités

                 3 
                                                                                                        
          a)
        b) déterminer l’équation de la droite                                                                                  par la régression
                                                                                                                                            
linéaire sur tous les points de coordonnées 9  '                                                  !$2 "1 '                  !$2 "1     !$2 "1 '   
avec 9
          c) calculer l’erreur définie par:

                                                                              %              9  )'             
                                                                                     
                                                                                                                                                   (19)
                                                                                ')
                                                                                     9                 )'
                                               9  )'                 
                                                                                          
                                                                                               
                                                                                                                                                 (20)

                           # (' )     #% $& ' )       avec   et   sont
          d) si l’erreur dépasse un seuil d’erreur
                        
les coefficients de l’équation de la droite
                                                         par la' régression                      3
                                                                                              linéaire sur
tous les points de coordonnées 9  !$2 "1 '                                         avec 9
                     
                                                                                                                                               
                                                   $
                                                   ! 2    "1       $
                                                                   ! 2  "1

                   3  
                 2/
                    2

     La régression
             en fonction
                       linéaire est une méthode permettant d’estimer une droite d’équation
                            d’un ensemble de vecteurs représentés dans un espace vectoriel.

    Une transformation est nécessaire à ce niveau pour que les droites forment une
distribution de probabilité continue:
                                                                                                                                           
                                                                                                                                
                                                                                                                                       
    1) rendre continue la distribution: pour deux classes linéaire successives       et
      , lier les deux extrémités et         par une droite d’équation       
                                                                                                            
                                                                                      ,
                                                                   
cette droite doit passer par les points             et                 , d’où:
12    XXème Congrès INFORSID - Nantes, 4 - 7 juin 2002. Volume 8 - n 8/2002

                               
                                                        
                                                                  

                                                                                                                                                           (21)

                                                                                           
                                                              
                                                                                                                                                               (22)

     Soit         la fonction définie par:

                                                                                                                        
                                         !! 33   2    # 1$2    #%$&   '  
            
                !$2 "1   !$2 "1    
                                                                                                                                  R                               (23)
                                                  0                       

                                                  
    2) normaliser les coefficients   ,  ,   et  pour que:

                                                
                                                                                                       (24)

                      représente la surface de l’aire formée par la représenta-
    Puisque         
    La figure 5 illustre un exemple de cette transformation.

tion graphique de et l’axe des abscisses, il suffit de diviser les  ,  ,  et  par
cette valeur. L’aire de cette surface est calculée comme la somme des aires de chaque
                               
surface d’un intervalle, soit 2 le nombre de classes linéaires, alors:

                                                                           
                                                                                                                                
                                                                                                                                               
                                                                             %                                                             
                                                                                        - 
                                                       %          

                                                                                                                                     
                                                         -                                                                                         
                                                                                                                                                         (25)

    La linéarisation est effectuée pour l’ensemble des documents pertinents et l’en-
semble des documents non pertinents, la figure 6 montre que la linéarisation des pro-
babilités des scores tend à avoir une allure exponentielle pour les documents pertinents
et une allure gaussienne pour les documents pertinents.

3.3. Optimisation du seuil de filtrage

                      
    Le but est de déterminer un seuil permettant de maximiser théoriquement une fonc-
tion d’utilité définie par:
Calibrage du seuil ...   13

                            Probabilités
                  0.28

                  0. 24

                  0.2

                  0.16

                  0.12

                  0.08

                  0.04

                                                                             Scores
                            Probabilités

                  0.21

                  0.18

                  0.15

                  0.12

                  0.09

                  0.06

                  0.03

                                                                             Scores

Figure 5. Transformation en une fonction de densité de probabilité continue

                          0.35

                           0.3

                          0.25

                           0.2

                          0.15

                           0.1

                          0.05

                               0
                                           0   5   10   15   20   25   30        35

Figure 6. Densité de probabilité des scores des documents pertinents et non pertinents
(profil1)
14        XXème Congrès INFORSID - Nantes, 4 - 7 juin 2002. Volume 8 - n 8/2002

                                                                             !$1$8 3
                                                                                                                            
                                                                                                                                 
                                                                                                                                         #%$&
                                                                                                                                                 
                                                                                          
                                                                                                                                                                                                                   (26)
                                                                                                                                    
                                                                                                                                                         

                                                                                                                                                            
                                                                                                                                                                                                                   (27)

      : deux constantes positives
   où:
        : nombre de documents pertinents sélectionnés
 
       : nombre de documents non pertinents sélectionnés
           et  dépendent du choix du seuil et sont estimées par:

                                                                                                                                                   
                                                                                                               !$2 "1                  
                                                                                                                                              !$1$8 3  .                                                          (28)
                                                                                                                                                   
                                                                 
                                                                                                              !$2 "1                   
                                                                                                                                             !$1$8 3 !  .           
                                                                                                                                                                                                                   (29)
                    
         et  représentent
                            le nombre total
                                              de documents pertinents et non pertinents.
     !$2 "1    !$1$8 3  ( !$2 "1  !$1$8 3 !  ) représente la probabilité
                
                                                                             qu’un   document
                                                                                         
soit sélectionné sachant qu’il est pertinent (non pertinent). !$2 "1
                                                                               
                                                                                  !$1$8 3  re-
présente l’aire de la surface formée par la courbe de la densité de probabilité des
scores des documents pertinents à partir du seuil. Soit 2 * le nombre d’intervalles ayant
                    linéaires différentes sur les scores des documents pertinents, et 
                                                                                                                                                                                                                   
3(   
des équations
                               
         (2 * ) un intervalle de la forme  , " de scores de documents
                                                                                   pertinents
                                                                                                                          
ayant comme coefficients linéaires (* et  , !$2 "1             !$1$8 3  est donc calculée
                                                               

comme suit:

                                            
                                                                             
                                                                                                                                                                      "
                                                                                                                                                                (                                

                                                                                  )'  !$1$ 8 3    ()'   )'"  )'
          !$2 "1            
                                     !$1$8 3
                                                 
                                                                                    %                                        "                                                         
                                                                                ;* '                             
                                                                                                                                                                                   
                                                                                                                                                                            !$1$8 3                            (30)
                                                                            "' ")'  .
      où 9 est tel que !$1$8 3                                       

    De la même manière, si on considère 2 
tions linéaires différentes sur les scores des
                                                                                                                                           le nombre d’intervalles ayant des équa-
                                                                                                                                           documents non pertinents, et  ( 3
                                                                                                                                                                                                     

   2  ) un intervalle de la forme     
ayant comme coefficients linéaires   et                                                                                                de scores des documents          non pertinents
                                                                                                                                              , !$2  "1  !$1$8 3   !  sera calculée
comme suit:

                                          
                                                                         
                                                                                                                                                      
                                                                                                                                                                                                    

                                                                               
       !$2 "1           
                                    !$1$8 3 !                                                   %                                                                                          
                                                                             '   
                                                                             !$1$8 3                                             
                                                                                                                                               !$1$8 3                                                  (31)
Calibrage du seuil ...    15

                                                                           
    où        est tel que !$1$8 3                                                                  
                                                                                                         .

4. Expérimentation et résultats

   Nous avons effectué les expérimentations sur une base issue de TREC, contenant
des articles de presse de l’agence Reuters. cette base contient:
    –  ))) documents environs
                                                                                                                        
    –  profils différents, nous utilisons les                                                                                    premiers profils
    L’adaptation du profil est effectuée en utilisant le système Filtre [BOU 02]. La
fonction d’utilité utilisée est la fonction T10SU utilisée dans TREC-10 [ROB 00a]
définie par:

                                                                                                                                   3        3 
                                                                               
                                                                                                                                            3                             (32)
                                                                                                           
                                                                                                                                                                                (33)
                                      3                                                       )
                                                                                                                                                                                 (34)

   où        
               .
                       est l’utilité maximum théorique (l’utilité obtenue par un sys-
tème qui sélectionne tous et seulement les documents pertinents).
Le but est d’évaluer notre approche de seuillage. Pour cela, nous avons intégré cette
méthode de seuillage dans le système Filtre pour l’adaptation incrémentale du seuil.
Le processus d’adaptation est le suivant:
              
    1) !$1$8 3 ,        
    2) Tant que   existe
                                                                                                                                             
             a) déterminer le score du document !$2 "1
                                                                   
             b) si !$2 "1         !$1$8 3
                                         

                      si  
                             est pertinent
                                     
                                                                                                       
                               actualiser      le profil
                                                                                       
                                                                                                                                                                
                      recalculer     le score             élément   de    et   
                         
                               
                                              de
                                                     
                                                       chaque
                                                       
                                                                   
                      si                        et                     (les documents reçus  constitut
un échantillon), déterminer un nouveau seuil en utilisant les ensembles    et   
                              
                                                                                                      
               sinon
                                                                         

             c) incrémenter
16   XXème Congrès INFORSID - Nantes, 4 - 7 juin 2002. Volume 8 - n 8/2002

                                                    
    Le tableau 1 illustre les résultats obtenus sur    profils de test comparés aux ré-
sultats obtenus par les autres participants de TREC-10. La première colonne du ta-
bleau représente le profil traité, la deuxième colonne représente nos résultats, la troi-
sième représente les meilleures valeurs d’utilité obtenues, pour chaque profil (tout
système confondu), et la quatrième représente l’utilité moyenne obtenue (tout sys-
tème confondu). Par exemple, pour le premier profil, l’utilité que nous avons obtenue
                                                                                    
est de    , la meilleure utilité obtenue dans la compagne TREC-10, est de    ,
                                 
                                 
et l’utilité moyenne est de   . La dernière ligne compte le nombre de profils pour
lesquels nous avons obtenu la meilleure utilité et ceux pour lesquels l’utilité est supé-
rieure à la moyenne.

            profil       utilité obtenue   utilité maximale     utilité moyenne
              1               0.108              0.102                0.016
              2               0.576              0.303                0.134
              3               0.030              0.141                0.020
              4               0.550              0.239                0.069
              5               0.844              0.347                0.059
              6               0.626              0.332                0.150
              7               0.281              0.373                0.137
              8               0.280              0.508                0.258
              9               0.362              0.338                0.149
              10              0.518              0.766                0.292
              11              0.274              0.110                0.014
              12              0.454              0.409                0.110
              13              0.263              0.206                0.061
              14              0.259              0.101                0.030
              15              0.517              0.219                0.060
         récapitulatif                             11                   15

Tableau 1. Résultats profil par profil

Conclusion

    Nous avons présenté dans ce papier une technique de seuillage basée sur les dis-
tributions des probabilités des scores des documents pertinents et des documents non
pertinents. Nous avons intégré cette technique dans le système Filtre basé sur l’ap-
prentissage par renforcement. Pour estimer les densités de probabilités correspondant
à chacune des distributions, nous avons utilisé la regression linéare, afin de représenter
plus fiablement la forme de chaque distribution, et par conséquent éviter le problème
de biais provoqué par l’estimation paramétrique. Des expérimentations ont été effec-
tuées sur le corpus Reuters issu de TREC-10. Les résultats obtenus sont meilleurs
que ceux obtenus dans le cadre de TREC-10 tout système confondu. Nos futurs tra-
vaux concernent l’optimisation de la fonction d’apprentissage du profil et du seuil. En
Calibrage du seuil ...   17

effet, l’apprentissage du profil et par conséquent du seuil converge à partir d’un certain
document durant le processus de filtrage, le but sera de déterminer ce document.

5. Bibliographie

[BEL 92] N. J. B ELKIN , W. B. C ROFT , Information retrieval and information filtering: two
   sides of the same coin?, C OMMUNICATIONS OF THE ACM 35(12) 1992, PAGES 29-38.
[BOU 99] M. B OUGHANEM , C. C HRISMENT, C. S OULE -D UPUY , Query modification ba-
   sed on relevance back-propagation in Ad-hoc environment, I NFORMATION P ROCESSING
   AND M ANAGEMENT 35, AVRIL 1999, PAGES 121-139, E LSEVIER S CIENCE .
[BOU 02] M. B OUGHANEM , M. T MAR , Incremental adaptive filtering: Profile learning and
   threshold calibration, ACM SAC, 10-14 M ARS 2002, M ADRID S PAIN , AP.
[GOL 92] D. G OLDBERG , D. N ICHOLS , B. M. O KI , D. T ERRY , Using collaborative filte-
   ring to weave an information tapestry, ACM, PAGES 61-70, 1992.
[HOA 00] K. H OASHI , K. M ATSUMOTO , N. I NOUE , K. H ASHIMOTO , Experiments on the
   TREC-8 filtering track, TREC-8, N OVEMBRE 2000, PAGES 457-463.
[MAL 87] T. W. M ALONE , K. R. G RANT , F. A. T URBAK , S. A. B ROBST , M. D. C OHEN ,
  Intelligent information sharing systems, C OMMUNICATIONS ACM, 30(5), PAGES 390-
  402, 1987.
[ROB 00 A ] S. E. ROBERTSON , D. H ULL , The TREC-9 filtering track final report, TREC-9,
   2000.
[ROB 00 B ] S. E. ROBERTSON , S. WALKER , Okapi/Keenbow at TREC-8, TREC-8, N O -
   VEMBRE 2000, PAGES 151-161.
[ZHA 00] C. Z HAI , P. JANSEN , N. ROMA , E. S TOICA , D. A. E VANS , Optimization in CLA-
   RIT TREC-8 adaptive filtering, TREC-8, N OVEMBRE 2000, PAGES 253-258.
[ZHA 01] Y. Z HANG , J. C ALLAN , Maximum likelihood estimation for filtering thresholds
   ACM SIGIR 2001, 9-13 S EPTEMBRE 2001, N EW O RLEANS L OUISIANA USA.
Vous pouvez aussi lire