Calibrage du seuil par linéarisation des scores par intervalles dans un système de filtrage adaptatif
←
→
Transcription du contenu de la page
Si votre navigateur ne rend pas la page correctement, lisez s'il vous plaît le contenu de la page ci-dessous
Calibrage du seuil par linéarisation des scores par intervalles dans un système de filtrage adaptatif Mohamed Tmar Laboratoire IRIT/SIG Campus Univ. Toulouse III 118, Route de Narbonne F-31062 Toulouse Cedex 4 tmar@irit.fr RÉSUMÉ. Dans un contexte incrémental, l’adaptation du profil change la distribution des scores des documents, et doit par conséquent être suivie par l’adaptation du seuil. Dans ce papier, nous proposons une méthode qui permet d’effectuer le seuillage en se basant sur l’estimation de la distribution de probabilités des scores des documents reçus. Les paramètres des lois de probabilités suivies par les scores des documents pertinents et non pertinents permettent de trouver ce seuil. ABSTRACT. In an incremental context, profile adaptation changes the overall document score distribution, and must consequently be followed by threshold adaptation. In this paper, we propose a method allowing to adapt the threshold based on the estimation of the document score probability distribution. The parameters of the laws of probability followed by the relevant and irrelevant document scores allow to find this threshold. MOTS-CLÉS : Apprentissage adaptatif, Filtre, seuil, distribution de probabilités, fonction d’utilité KEYWORDS: Adaptive learning, Filtre, threshold, probability distribution, utility function XXème Congrès INFORSID - Nantes, 4 - 7 juin 2002. Volume 8 - n 8/2002, pages 1 à 17
2 XXème Congrès INFORSID - Nantes, 4 - 7 juin 2002. Volume 8 - n 8/2002 1. Introduction Depuis que le nombre d’utilisateurs d’Internet et la disponibilité de l’informa- tion sous une forme électronique ont exponentiellement augmentés, le développement d’outils qui règlent ce flux infini d’information est devenu nécessaire et urgent pour protéger l’utilisateur de la distribution massive et abusive de toute information inutile. Le filtrage d’information [BEL 92] offre des processus continus permettant, à partir d’une source dynamique d’informations (Internet, E-mail, News ) de sélectionner et de présenter les seuls documents intéressant un utilisateur ayant un centre d’intérêt relativement stable appelé profil. Malone [MAL 87] a défini trois modes de filtrage, selon la nature des critères de sélection sur lesquels se base le filtrage. Le mode de filtrage le plus courant est le filtrage cognitif, ou basé sur le contenu [ROB 00b]. Ce mode de filtrage suppose que le seul critère de sélection ou de rejet d’un document est le contenu de ce document. Le processus de filtrage est basé sur les statistiques des termes (nombre d’apparitions d’un terme dans un document, nombre de documents pertinents, non pertinents conte- nant un terme, ) et des documents (nombre de documents pertinents, non pertinents, longueur d’un document, ). Le deuxième mode est le filtrage social, ou collaboratif [GOL 92], dans ce mode de filtrage les utilisateurs du même système sont supposés collaborer entre eux. Recevant un document, un utilisateur peut annoter ou recomman- der ce document à un autre utilisateur. Le système se base sur ces annotations et ces recommendations pour filtrer le document aux autres utilisateurs. Le dernier mode de filtrage est le filtrage économique. Dans ce mode de filtrage on se base sur le profit de sélection d’un document pertinent et le coût de sélection d’un document non pertinent. Les trois modes de filtrage ne sont pas indépendants, les critères de sélection peuvent être combinés dans un processus de filtrage produisant ainsi un effet de sy- nergie. Le mode de filtrage auquel nous nous intéressons est le filtrage cognitif. La plupart des modèles de filtrage d’information existant dans ce mode sont par- ticulièrement basés sur des techniques de recherche d’information auxquelles une fonction d’adaptation et une fonction de décision le plus souvent de type seuil sont rajoutées. Cette approche adopte une base d’indexation des documents, liée à des es- timations statistiques sur une collection d’apprentissage (solution batch) ou à la struc- ture des documents en arrivée (solution adaptative). Les profils sont appris sur des techniques de relevance feedback développées dans le domaine de la recherche d’in- formation. Le choix et l’adaptation du seuil sont évidemment des problèmes majeurs dans les systèmes de filtrage. Pour être performant, un système de filtrage doit choisir une valeur de seuil per- mettant de sélectionner un maximum de documents pertinents et un minimum de do- cuments non pertinents, et de rejeter un maximum de documents non pertinents et
Calibrage du seuil ... 3 un minimum de documents pertinents. La plupart des méthodes existantes mesurent ce seuil par rapport aux scores des documents déjà filtrés. Robertson [ROB 00b] uti- lise des techniques de régression pour estimer tous les paramètres de filtrage, dont le seuil. Dans Clarit, Zhai [ZHA 00] a développé une méthode de seuillage appelée beta- gamma. Cette méthode consiste à définir le seuil comme une combinaison linéaire de deux seuils : un seuil optimal permettant de fournir l’utilité 1 [ROB 00a] optimale, et un seuil zéro représentant le plus grand seuil inférieur au seuil optimal permettant de fournir une utilité négative. Dans d’autres approches, les proportions des documents pertinents et non perti- nents sélectionnés durant une période de temps sont utilisées comme critère de seuillage. Hoashi [HOA 00] suggère que le seuil doit être adapté dans le temps sur des périodes définies par un nombre de documents sélectionnés. Il multiplie incrémentalement le seuil par deux valeurs : la première diminue quand la proportion de documents non pertinents sélectionnés augmente, et la deuxième augmente quand la proportion de documents pertinents sélectionnés augmente. L’inconvénient de ces méthodes est qu’il est difficile de relier le seuil directe- ment aux scores des documents. Les seuils sont définis en utilisant des méthodes plu- tôt expérimentales, qui dépendent surtout des conditions d’expérimentation. Zhang [ZHA 01] a estimé que la distribution des scores des documents suit une certaine loi de probabilité. En testant certaines lois (la loi gamma, la loi exponentielle, la loi nor- male, la loi de poisson ), il a trouvé que la distribution la plus adéquate aux scores des documents pertinents est la loi normale, et la distribution la plus adéquate aux documents non pertinents est la loi exponentielle. A l’aide de la méthode d’estimation par le maximum de vraisemblance, il estime les paramètres de chaque loi et définit le seuil en fonction de ces paramètres. L’inconvénient de cette méthode est qu’elle n’est pas indépendante de la fonction de pondération des documents. Pour certains cas, la distribution des scores des docu- ments (pertinents ou non pertinents) est plutôt uniforme, ou poissonniène. De plus, la méthode d’estimation par le maximum de vraisemblance exige la connaissance d’un nombre minimum d’observations (échantillons, documents pertinents ou non perti- nents, théoriquement 30). Elle n’est donc pas fiable avant une certaine étape (nombre de documents filtrés). Partant du principe qu’il est difficile, voire impossible, d’estimer la forme d’une distribution indépendamment de la fonction de ressemblance, et des conditions ex- périmentales (proportion des documents pertinents, variation des longueurs des do- cuments ), nous proposons dans ce papier une méthode permettant d’affiner l’es- . l’utilité est une fonction d’évaluation pour les systèmes de filtrage d’information, elle est fonction du nombre de documents pertinents et non pertinents sélectionnés
4 XXème Congrès INFORSID - Nantes, 4 - 7 juin 2002. Volume 8 - n 8/2002 timation de cette forme. Nous supposons que le domaine de définition de la densité de probabilité des scores des documents peut être divisé en un ensemble d’intervalles tels que la densité de probabilité des scores des documents est linéaire sur chaque intervalle. Nous démontrons que cette représentation est plus fiable. Nous utilisons cette approche pour l’estimation d’un seuil optimum dans le filtrage d’information. Dans la première section, nous présentons brièvement le modèle de filtrage adaptatif Filtre [BOU 02]. Nous mettons l’accent sur la fonction d’adaptation du seuil dans la deuxième section. Nous présentons dans cette section une démarche d’estimation de la distribution des scores des documents en se basant sur une linéarisation par inter- valles de scores. La linéarisation sera utilisée pour l’estimation d’un seuil optimum. La troisième section sera consacrée à l’expérimentation et aux résultats obtenus sur des documents issus du programme TREC 2. 2. Le système Filtre Filtre est inspiré du modèle connexionniste Mercure [BOU 99]. Le processus de filtrage consiste à comparer chaque document au profil, en calculant un score qui sera comparé au seuil pour décider si le document doit être sélectionné ou rejeté. 2.1. Représentation du profil Le profil utilisateur est représenté par : (1) où est un terme et est le poids de ce terme dans le profil initial (à ), dans le reste de cette section, le poids du terme dans le profil sera noté où représente l’instant où le système effectue la dernière mise à jour. Initialement, le poids du terme dans le profil est calculé comme suit : !" #%$&('" !")' (2) où *+ est la fréquence du terme , dans le profil. La formule semble abusivement simpliste, mais au début du processus de filtrage on ne dispose d’aucune information sauf le profil initial. Cependant ce poids sera ajusté par apprentissage. - . un programme international d’évaluation des systèmes de recherche et de filtrage d’informa- tion, http://trec.nist.gov
Calibrage du seuil ... 5 2.2. Filtrage des nouveaux documents A chaque arrivée d’un document, celui-ci est indexé. Le résultat de cette opération est une liste de termes. Chaque terme dans le document est pondéré en utilisant la formule utilisée dans Mercure : ! ! (3) où : ! : fréquence d’apparition du terme ! dans le document : paramètres constants, pour l’expérimentation et : longueur du document (nombre de termes) : longueur moyenne d’un document : nombre de documents : nombre de documents contenant le terme ! Un score noté "!$# est calculé entre le document et le profil : "!$# &% . ' / (4) (' ) *+,)* (' - *+ Pour décider si le document est accepté ou non : 0 76 !$1$8 3 !$1 1$2 43 5 1$ ! 3 "!$# "1:9;1 1$ ! 3 (5) 2.3. Apprentissage adaptatif Le processus d’apprentissage est adaptatif et incrémental. Il est effectué à chaque fois que l’utilisateur juge un document positivement. Il permet de modifer la représen- tation du profil de l’utilisateur, en modifiant les poids des termes, ajoutant et éliminant des termes du profil. Nous admettons qu’un terme intéressant doit être relativement fréquent dans les documents pertinents et peu ou pas fréquent dans les documents non pertinents.
6 XXème Congrès INFORSID - Nantes, 4 - 7 juin 2002. Volume 8 - n 8/2002 L’apprentissage que nous utilisons est basé sur le renforcement [BOU 02]. En effet, on considère que quand un document est jugé pertinent, il faut affecter aux termes du profil des poids permettant de satisfaire l’équation "!$# où est le score désiré. Le problème à résoudre revient alors, à chercher les ' (poids des termes dans le profil) qui satisfont l’équation suivante : % . ' (6) (' ) *+,)* (' - *+ Or cette équation admet une infinité de solutions, nous ajoutons alors une contrainte pour avoir une solution unique. En effet, parmi l’infinité de solutions de l’équation, seulement peu permettent d’affecter aux termes les poids qui correspondent aux inté- rêts de l’utilisateur. On veut que le poids qu’on affecte à chaque terme soit proche de son poids idéal. On suppose que le poids idéal est donné par la fonction donnée par la formule 12, est fonction de la fréquence d’apparition du terme dans le document et du nombre de documents pertinents et non pertinents contenant le terme ( ' , ' et ! ' ). Le système à résoudre devient alors : ' (' ) *+,)* (' - *+ (7) + ' ' ' ' ' + + + La solution du système 7 est l’ensemble des poids du profil qui permet de retrouver le document . Pour retrouver tous les documents pertinents, il faut combiner les solutions de tous ces documents pertinents. Par conséquent, une solution correspond à des poids provisoires qui vont intervenir dans le poids global du profil. Soient ! et le nombre de termes distincts dans le docu- ment . Le système 7 peut être réecrit en : 3 ' ' ' ' ' ' ' ' .. ' ' ' ' ' . (8) ' ' ' ' '
Calibrage du seuil ... 7 Où 9 correspond à l’index dans le document du terme indexé par dans le profil ( )' ). En additionnant le premier opérande de chaque équation, on obtient : 3 % ' % ' (9) - - or - ' d’où : % ' ' (10) - - Pour chaque terme du document, le poids provisoire solution du système 7 est le suivant : 3 * ! ' ' ! ' . ' (11) ' La fonction est proportionnelle à l’importance du terme : ! ! ! (12) Où ( ! ) est le nombre de documents pertinents (non pertinents) contenant le terme à l’instant , ( ) est le nombre de documents pertinents (non perti- nents) à l’instant . Le poids provisoire * contribut à l’apprentissage des poids des termes dans le profil, nous utilisons la formule de propagation de gradient suivante : * (13) Pour valider ces différentes formules, des expérimentations ont été effectuées sur des collections issues de TREC. Nous avons montré qu’on arrive effectivement à ap- prendre le profil et séparer les documents pertinents des non pertinents. Le lecteur intéressé peut se référer à l’article [BOU 02] qui détaille ces résultats. Dans le présent papier, nous nous intéressons particulièrement à l’apprentissage du seuil.
8 XXème Congrès INFORSID - Nantes, 4 - 7 juin 2002. Volume 8 - n 8/2002 3. Apprentissage du seuil Pour trouver le meilleur seuil, le système suit l’évolution des scores des documents et ajuste le seuil de manière à sélectionner le maximum de documents pertinents, et à rejeter le maximum de documents non pertinents. Nous supposons que la distribution des scores des documents suit une certaine loi de probabilité. En se basant sur cette loi, nous pouvons décider si un document est pertinent ou non en se basant sur sa pro- babilité de pertinence. Cette loi de probabilité nous permettra alors de déterminer le seuil. 3.1. Modélisation des distributions des scores Dans un système de filtrage d’information, la fonction de comparaison permet de fournir un score donné pour ce document. La probabilité qu’un document tiré aléatoi- rement ait un score donné est égal au nombre de documents ayant eu ce score divisé par le nombre de documents total : !$2 "1 !$2 "1 !$2 "1 (14) Puisque les valeurs sont expérimentalement très variées tendance à être équiprobables ( !$2 "1 !$2 "1 ou ), et la distribution (voir figure 1), elles ont des scores tend à être par conséquent uniforme (voir figure 2). Pour donner des probabilités plus proches de la réalité, au lieu de calculer la pro- babilité qu’un document ait un score, nous proposons de mesurer la probabilité que le score d’un document appartient à un intervalle 3 . Nous définissons intervalles de même rayon où : !$2 "1 $! 2 "1 (15) # !$2 "1 !$2 "1 (16) #%$& !$2 "1 !$2 "1 (17) où est un document. La probabilité d’appartenance d’un document à une inter- valle est défini par : . Il existe une méthode d’estimation des paramètres des lois de probabilités permettant de dé- finir un intervalle plus ou moins précis contenant probablement ce paramètre appelé intervalle de confiance plutôt que d’estimer une valeur qui sera moins probablement égale à ce paramètre
Calibrage du seuil ... 9 10 9 8 7 6 scores 5 4 3 2 1 0 0 2 4 6 8 10 12 14 16 documents Figure 1. La distribution des scores est très éparpillée 0.0606 0.0604 0.0602 p(X=score) 0.06 0.0598 0.0596 0.0594 0.0592 0 1 2 3 4 5 6 7 8 9 10 scores Figure 2. La distribution uniforme n’est pas significative !$2 "1 $! 2 "1 !$2 "1 !$2 "1 !$2 "1 (18) La distribution des probabilités par intervalle de scores est plus réaliste. La figure 3 illustre un exemple de distribution des probabilités calculés comme !$2 "1 !$2 "1 ayant une allure poissonnienne. Il existe plusieurs méthodes pour l’estimation de la loi de probabilité suivi par les scores des documents : la régression paramétrique et l’estimation par le maximum de vraisemblance. Pour les deux méthodes, la connaissance à priori de la forme de la fonction est obligatoire, l’application d’une telle méthode permet d’estimer les pa- ramètres qui permettent de fournir la représentation la plus fiable possible (celle qui
10 XXème Congrès INFORSID - Nantes, 4 - 7 juin 2002. Volume 8 - n 8/2002 0.3 0.25 0.2 p(score i
Calibrage du seuil ... 11 Probabilités 0.28 0. 24 0.2 0.16 0.12 0.08 0.04 Scores Figure 4. Linéarisation de la distribution des probabilités 3 a) b) déterminer l’équation de la droite par la régression linéaire sur tous les points de coordonnées 9 ' !$2 "1 ' !$2 "1 !$2 "1 ' avec 9 c) calculer l’erreur définie par: % 9 )' (19) ') 9 )' 9 )' (20) # (' ) #% $& ' ) avec et sont d) si l’erreur dépasse un seuil d’erreur les coefficients de l’équation de la droite par la' régression 3 linéaire sur tous les points de coordonnées 9 !$2 "1 ' avec 9 $ ! 2 "1 $ ! 2 "1 3 2/ 2 La régression en fonction linéaire est une méthode permettant d’estimer une droite d’équation d’un ensemble de vecteurs représentés dans un espace vectoriel. Une transformation est nécessaire à ce niveau pour que les droites forment une distribution de probabilité continue: 1) rendre continue la distribution: pour deux classes linéaire successives et , lier les deux extrémités et par une droite d’équation , cette droite doit passer par les points et , d’où:
12 XXème Congrès INFORSID - Nantes, 4 - 7 juin 2002. Volume 8 - n 8/2002 (21) (22) Soit la fonction définie par: !! 33 2 # 1$2 #%$& ' !$2 "1 !$2 "1 R (23) 0 2) normaliser les coefficients , , et pour que: (24) représente la surface de l’aire formée par la représenta- Puisque La figure 5 illustre un exemple de cette transformation. tion graphique de et l’axe des abscisses, il suffit de diviser les , , et par cette valeur. L’aire de cette surface est calculée comme la somme des aires de chaque surface d’un intervalle, soit 2 le nombre de classes linéaires, alors: % - % - (25) La linéarisation est effectuée pour l’ensemble des documents pertinents et l’en- semble des documents non pertinents, la figure 6 montre que la linéarisation des pro- babilités des scores tend à avoir une allure exponentielle pour les documents pertinents et une allure gaussienne pour les documents pertinents. 3.3. Optimisation du seuil de filtrage Le but est de déterminer un seuil permettant de maximiser théoriquement une fonc- tion d’utilité définie par:
Calibrage du seuil ... 13 Probabilités 0.28 0. 24 0.2 0.16 0.12 0.08 0.04 Scores Probabilités 0.21 0.18 0.15 0.12 0.09 0.06 0.03 Scores Figure 5. Transformation en une fonction de densité de probabilité continue 0.35 0.3 0.25 0.2 0.15 0.1 0.05 0 0 5 10 15 20 25 30 35 Figure 6. Densité de probabilité des scores des documents pertinents et non pertinents (profil1)
14 XXème Congrès INFORSID - Nantes, 4 - 7 juin 2002. Volume 8 - n 8/2002 !$1$8 3 #%$& (26) (27) : deux constantes positives où: : nombre de documents pertinents sélectionnés : nombre de documents non pertinents sélectionnés et dépendent du choix du seuil et sont estimées par: !$2 "1 !$1$8 3 . (28) !$2 "1 !$1$8 3 ! . (29) et représentent le nombre total de documents pertinents et non pertinents. !$2 "1 !$1$8 3 ( !$2 "1 !$1$8 3 ! ) représente la probabilité qu’un document soit sélectionné sachant qu’il est pertinent (non pertinent). !$2 "1 !$1$8 3 re- présente l’aire de la surface formée par la courbe de la densité de probabilité des scores des documents pertinents à partir du seuil. Soit 2 * le nombre d’intervalles ayant linéaires différentes sur les scores des documents pertinents, et 3( des équations (2 * ) un intervalle de la forme , " de scores de documents pertinents ayant comme coefficients linéaires (* et , !$2 "1 !$1$8 3 est donc calculée comme suit: " ( )' !$1$ 8 3 ()' )'" )' !$2 "1 !$1$8 3 % " ;* ' !$1$8 3 (30) "' ")' . où 9 est tel que !$1$8 3 De la même manière, si on considère 2 tions linéaires différentes sur les scores des le nombre d’intervalles ayant des équa- documents non pertinents, et ( 3 2 ) un intervalle de la forme ayant comme coefficients linéaires et de scores des documents non pertinents , !$2 "1 !$1$8 3 ! sera calculée comme suit: !$2 "1 !$1$8 3 ! % ' !$1$8 3 !$1$8 3 (31)
Calibrage du seuil ... 15 où est tel que !$1$8 3 . 4. Expérimentation et résultats Nous avons effectué les expérimentations sur une base issue de TREC, contenant des articles de presse de l’agence Reuters. cette base contient: – ))) documents environs – profils différents, nous utilisons les premiers profils L’adaptation du profil est effectuée en utilisant le système Filtre [BOU 02]. La fonction d’utilité utilisée est la fonction T10SU utilisée dans TREC-10 [ROB 00a] définie par: 3 3 3 (32) (33) 3 ) (34) où . est l’utilité maximum théorique (l’utilité obtenue par un sys- tème qui sélectionne tous et seulement les documents pertinents). Le but est d’évaluer notre approche de seuillage. Pour cela, nous avons intégré cette méthode de seuillage dans le système Filtre pour l’adaptation incrémentale du seuil. Le processus d’adaptation est le suivant: 1) !$1$8 3 , 2) Tant que existe a) déterminer le score du document !$2 "1 b) si !$2 "1 !$1$8 3 si est pertinent actualiser le profil recalculer le score élément de et de chaque si et (les documents reçus constitut un échantillon), déterminer un nouveau seuil en utilisant les ensembles et sinon c) incrémenter
16 XXème Congrès INFORSID - Nantes, 4 - 7 juin 2002. Volume 8 - n 8/2002 Le tableau 1 illustre les résultats obtenus sur profils de test comparés aux ré- sultats obtenus par les autres participants de TREC-10. La première colonne du ta- bleau représente le profil traité, la deuxième colonne représente nos résultats, la troi- sième représente les meilleures valeurs d’utilité obtenues, pour chaque profil (tout système confondu), et la quatrième représente l’utilité moyenne obtenue (tout sys- tème confondu). Par exemple, pour le premier profil, l’utilité que nous avons obtenue est de , la meilleure utilité obtenue dans la compagne TREC-10, est de , et l’utilité moyenne est de . La dernière ligne compte le nombre de profils pour lesquels nous avons obtenu la meilleure utilité et ceux pour lesquels l’utilité est supé- rieure à la moyenne. profil utilité obtenue utilité maximale utilité moyenne 1 0.108 0.102 0.016 2 0.576 0.303 0.134 3 0.030 0.141 0.020 4 0.550 0.239 0.069 5 0.844 0.347 0.059 6 0.626 0.332 0.150 7 0.281 0.373 0.137 8 0.280 0.508 0.258 9 0.362 0.338 0.149 10 0.518 0.766 0.292 11 0.274 0.110 0.014 12 0.454 0.409 0.110 13 0.263 0.206 0.061 14 0.259 0.101 0.030 15 0.517 0.219 0.060 récapitulatif 11 15 Tableau 1. Résultats profil par profil Conclusion Nous avons présenté dans ce papier une technique de seuillage basée sur les dis- tributions des probabilités des scores des documents pertinents et des documents non pertinents. Nous avons intégré cette technique dans le système Filtre basé sur l’ap- prentissage par renforcement. Pour estimer les densités de probabilités correspondant à chacune des distributions, nous avons utilisé la regression linéare, afin de représenter plus fiablement la forme de chaque distribution, et par conséquent éviter le problème de biais provoqué par l’estimation paramétrique. Des expérimentations ont été effec- tuées sur le corpus Reuters issu de TREC-10. Les résultats obtenus sont meilleurs que ceux obtenus dans le cadre de TREC-10 tout système confondu. Nos futurs tra- vaux concernent l’optimisation de la fonction d’apprentissage du profil et du seuil. En
Calibrage du seuil ... 17 effet, l’apprentissage du profil et par conséquent du seuil converge à partir d’un certain document durant le processus de filtrage, le but sera de déterminer ce document. 5. Bibliographie [BEL 92] N. J. B ELKIN , W. B. C ROFT , Information retrieval and information filtering: two sides of the same coin?, C OMMUNICATIONS OF THE ACM 35(12) 1992, PAGES 29-38. [BOU 99] M. B OUGHANEM , C. C HRISMENT, C. S OULE -D UPUY , Query modification ba- sed on relevance back-propagation in Ad-hoc environment, I NFORMATION P ROCESSING AND M ANAGEMENT 35, AVRIL 1999, PAGES 121-139, E LSEVIER S CIENCE . [BOU 02] M. B OUGHANEM , M. T MAR , Incremental adaptive filtering: Profile learning and threshold calibration, ACM SAC, 10-14 M ARS 2002, M ADRID S PAIN , AP. [GOL 92] D. G OLDBERG , D. N ICHOLS , B. M. O KI , D. T ERRY , Using collaborative filte- ring to weave an information tapestry, ACM, PAGES 61-70, 1992. [HOA 00] K. H OASHI , K. M ATSUMOTO , N. I NOUE , K. H ASHIMOTO , Experiments on the TREC-8 filtering track, TREC-8, N OVEMBRE 2000, PAGES 457-463. [MAL 87] T. W. M ALONE , K. R. G RANT , F. A. T URBAK , S. A. B ROBST , M. D. C OHEN , Intelligent information sharing systems, C OMMUNICATIONS ACM, 30(5), PAGES 390- 402, 1987. [ROB 00 A ] S. E. ROBERTSON , D. H ULL , The TREC-9 filtering track final report, TREC-9, 2000. [ROB 00 B ] S. E. ROBERTSON , S. WALKER , Okapi/Keenbow at TREC-8, TREC-8, N O - VEMBRE 2000, PAGES 151-161. [ZHA 00] C. Z HAI , P. JANSEN , N. ROMA , E. S TOICA , D. A. E VANS , Optimization in CLA- RIT TREC-8 adaptive filtering, TREC-8, N OVEMBRE 2000, PAGES 253-258. [ZHA 01] Y. Z HANG , J. C ALLAN , Maximum likelihood estimation for filtering thresholds ACM SIGIR 2001, 9-13 S EPTEMBRE 2001, N EW O RLEANS L OUISIANA USA.
Vous pouvez aussi lire