RECHERCHE D'INFORMATION RESSOURCES ? POUR QUOI ? - Patrice Bellot Aix-Marseille Université - CNRS (LSIS UMR 7296) - OpenEdition ...
←
→
Transcription du contenu de la page
Si votre navigateur ne rend pas la page correctement, lisez s'il vous plaît le contenu de la page ci-dessous
RECHERCHE D’INFORMATION … RESSOURCES ? POUR QUOI ? Patrice Bellot Aix-Marseille Université - CNRS (LSIS UMR 7296) — OpenEdition patrice.bellot@univ-amu.fr
Nous avons maintenant toutes les requêtes du fichier 'clicklog' accompagné du nombre de fois où elles apparaissent dans le fichier. Nous allons consigner les résultats les plus nombreux dans un A real query log (sample) tableau, puis dans un diagramme. Occurrence de requêtes courtes meuble info amazon/ebay/fnac map emloi/job poste youtube jeu/game orange/sfr language mail video facebook gratuit/free ter sex/porn google/GOOGLE 0 500 1000 1500 2000 2500 Nombre d'occurrences 50% queries very short = only 1 word 2% = Natural Language questions (long) P. Bellot (AMU-CNRS, LSIS-OpenEdition) 2
A real query log (sample) Cette observation s'explique par le fait que certains utilisateurs emploient plusieurs mots interrogatifs dans une question. Exemple : ' Comment est ce-que je pourrais nettoyer ma moto ?' Occurrence des caractères interrogatifs Comment Où ? Qui Pourquoi Que Mots Combien Quand Est-ce que Quel Quelle 0 1000 2000 3000 4000 5000 6000 Occurrence La présence de pronoms interrogatifs augmente le nombre de résultats. La plupart des questions P. Bellot (AMU-CNRS, LSIS-OpenEdition) 3
Conceptualisation des questions • Objectif : extraire de la question le + d’informations à localiser la réponse Entité recherchée : - nom, - nom de lieu, - nom de volcan « What is the name of the volcano that destroyed the ancient city of Pompeii? » (trec11-1396) Éléments Supports Type de la question : Enrichissement : (focus) - nom, destroyed à doivent être présents dans le voisinage - lieu, etc. - destroy, - destruct, - ruin, - demolish, etc. P. Bellot 4
SBS Collection : des requêtes réelles issues du forum Library Thing http://social-book-search.humanities.uva.nl P. Bellot (AMU-CNRS, LSIS-OpenEdition) 6
mi Term Weighting i=n X Indexing and TF-IDF Index Term Weighting • Luhn’s hypothesis (1957) : the Luhn’s ~ ~q— analysis s(d, ) = frequency of a word Observation w m is a· w ,d measurement of its significance … and mi ,q i then a criterion that measures the capacity of a word to discriminate documents by their content i=1 f Upper cut−off Lower cut−off wi,d wi,d =Resolving qP Frequency of words common words power n 2 j=1 wj,d from M. Lalmas, 2012 Significant rare words words r i=n X d~ · ~q Words by rank order ~ ~q ) = wi,d wi,q ~ ~q ) s(d, qP · qP = = cos(d, n w 2 n w 2 ~ 2 · k~q k2 kdk i=1 j=1 j,d Mounia Lalmas (Yahoo! Research) j=1 j,q 20-21 June 2011 44 / 171 • In a given document, a word is important (discriminant) if it occurs often and it is rare in the collection ni QteInfo(mi ) = log2 P (mi ) ! IDF (mi ) = log N P. Bellot (AMU-CNRS, LSIS-OpenEdition) 10
Vector Space Model : some drawbacks • The dimensions are orthogonal – “automobile” and “car” are as distant as “car” and “apricot tree”… —> the user query must contain the same words than the documents that he wishes to find… • The word order and the syntax are not used – the cat drove out the dog of the neighbor – ≈ the dog drove out the cat of the neighbor – ≈ the cat close to the dog drives out – It assumes words are statistically independent – It does not take into account the syntax of the sentences, nor the negations… – this paper is about politics VS. this paper is not about politics : very similar sentences… P. Bellot (AMU-CNRS, LSIS-OpenEdition) 11TAL et RI - Rech. doc - Classif. et catégorisation - Q&A - Campagnes
N WS eu D bi Tut 01 t.l or 7 IR M2 y/ ia One-hot representation (local) l- Dim = |V| sim(banana,mango) = 0 banana 0 0 0 0 0 1 0 0 0 0 0 0 mango 0 0 0 0 0 0 0 0 0 1 0 0 Notes: 1) Popular sim() is cosine, 2) Words/tokens come from some tokenization and transformation Download slides from: Download slides from: http://bit.ly/NeuIRTutorial-WSDM2017
N WS eu D bi Tut 01 t.l or 7 IR M2 y/ ia Context-based distributed representation l- Non-zero Zero banana mango sim(banana,mango) > 0 Appear in same documents “ You shall know a word by the ” Appear near same words company it keeps Firth, J. R. (1957). A synopsis of linguistic theory 1930–1955. In Studies in Linguistic Analysis, p. 11. Blackwell, Oxford. Turney and Pantel. From frequency to meaning: Vector space models of semantics. Journal of artificial intelligence research 2010 Download slides from: http://bit.ly/NeuIRTutorial-WSDM2017
N WS eu D bi Tut 01 t.l or 7 IR M2 y/ ia Distributional Semantics l- Word-Document banana Doc2 Doc7 Doc9 Word-Word banana (yellow) (on) (grows) (tree) (africa) Word-WordDist banana (yellow, -1) (on, +2) (grows, +1) (tree, +3) (africa, +5) Word hash banana (not context-based) #ba na# ana nan ban “You shall know a word by the ” company it keeps Download slides from: http://bit.ly/ NeuIRTutorial-WSDM2017
> 5 million books unigrams, bi-grams… 5-grams downloadable http://storage.googleapis.com/books/ngrams/books/datasetsv2.html https://books.google.com/ngrams P. Bellot (AMU-CNRS, LSIS-OpenEdition) 15
Latent Semantic Analysis / Indexing P. Bellot (AMU-CNRS, LSIS-OpenEdition) 16
N WS eu D bi Tut 01 t.l or 7 IR M2 y/ ia l- Word2vec Goal: simple (shallow) neural model learning from billion words scale corpus Predict middle word from neighbors within a fixed size context window Two different architectures: 1. Skip-gram 2. CBOW (Mikolov et al., 2013)
Représentations distribuées
jeuxdemots.org CC BY-SA 3.0 Wordnet
P. Bellot (AMU-CNRS, LSIS-OpenEdition) 20
P. Bellot (AMU-CNRS, LSIS-OpenEdition) 21
incandescent light
Conclusion — Des résultats positifs mais… parfois décevants — Quels types de ressources pour quelles applications ? — Quand utiliser des ressources et quand ne pas les utiliser ? — Quelles interfaces et quel niveau d’interaction ? — Ressources génériques vs. ressources spécialisées vs. ressources personnalisées — … dépasser le signe en gardant la forme Concept Le signe et la forme Signe Référent 23 P. Bellot (AMU-CNRS, LSIS-OpenEdition) 23
Vous pouvez aussi lire