RECHERCHE D'INFORMATION RESSOURCES ? POUR QUOI ? - Patrice Bellot Aix-Marseille Université - CNRS (LSIS UMR 7296) - OpenEdition ...

 
CONTINUER À LIRE
RECHERCHE D'INFORMATION RESSOURCES ? POUR QUOI ? - Patrice Bellot Aix-Marseille Université - CNRS (LSIS UMR 7296) - OpenEdition ...
RECHERCHE D’INFORMATION
… RESSOURCES ? POUR QUOI ?

Patrice Bellot
Aix-Marseille Université - CNRS (LSIS UMR 7296) — OpenEdition

patrice.bellot@univ-amu.fr
RECHERCHE D'INFORMATION RESSOURCES ? POUR QUOI ? - Patrice Bellot Aix-Marseille Université - CNRS (LSIS UMR 7296) - OpenEdition ...
Nous avons maintenant toutes les requêtes du fichier 'clicklog' accompagné du nombre de fois où
elles apparaissent dans le fichier. Nous allons consigner les résultats les plus nombreux dans un
        A real query log (sample)
tableau, puis dans un diagramme.

                                         Occurrence de requêtes courtes
                meuble
                    info
    amazon/ebay/fnac
                  map
              emloi/job
                 poste
               youtube
             jeu/game
            orange/sfr
             language
                   mail
                 video
             facebook
           gratuit/free
                     ter
              sex/porn
     google/GOOGLE

                             0              500        1000           1500   2000       2500
                                                    Nombre d'occurrences

                                              50% queries very short = only 1 word
                                              2% = Natural Language questions (long)
P. Bellot (AMU-CNRS, LSIS-OpenEdition)                                2
RECHERCHE D'INFORMATION RESSOURCES ? POUR QUOI ? - Patrice Bellot Aix-Marseille Université - CNRS (LSIS UMR 7296) - OpenEdition ...
A real query log (sample)
Cette observation s'explique par le fait que certains utilisateurs emploient plusieurs mots
interrogatifs dans une question.
Exemple : ' Comment est ce-que je pourrais nettoyer ma moto ?'

                                         Occurrence des caractères interrogatifs
            Comment
                       Où
                         ?
                      Qui
              Pourquoi
                     Que
    Mots

              Combien
                 Quand
           Est-ce que
                    Quel
                 Quelle

                             0            1000       2000          3000   4000     5000   6000
                                                            Occurrence
La présence de pronoms interrogatifs augmente le nombre de résultats. La plupart des questions
P. Bellot (AMU-CNRS, LSIS-OpenEdition)                         3
RECHERCHE D'INFORMATION RESSOURCES ? POUR QUOI ? - Patrice Bellot Aix-Marseille Université - CNRS (LSIS UMR 7296) - OpenEdition ...
Conceptualisation des questions
     • Objectif : extraire de la question le + d’informations à localiser la réponse

                                       Entité recherchée :
                                              - nom,
                                          - nom de lieu,
                                        - nom de volcan

             « What is the name of the volcano that destroyed the ancient city of Pompeii? »
                                                (trec11-1396)

                                                                       Éléments Supports
               Type de la question :        Enrichissement :                (focus)
                      - nom,                   destroyed à        doivent être présents dans le voisinage
                    - lieu, etc.                 - destroy,
                                                - destruct,
                                                   - ruin,
                                             - demolish, etc.

P. Bellot                                                                                                   4
RECHERCHE D'INFORMATION RESSOURCES ? POUR QUOI ? - Patrice Bellot Aix-Marseille Université - CNRS (LSIS UMR 7296) - OpenEdition ...
Similarités de surface ?

P. Bellot                         5
RECHERCHE D'INFORMATION RESSOURCES ? POUR QUOI ? - Patrice Bellot Aix-Marseille Université - CNRS (LSIS UMR 7296) - OpenEdition ...
SBS Collection : des requêtes réelles issues du
      forum Library Thing

                                         http://social-book-search.humanities.uva.nl
P. Bellot (AMU-CNRS, LSIS-OpenEdition)                         6
RECHERCHE D'INFORMATION RESSOURCES ? POUR QUOI ? - Patrice Bellot Aix-Marseille Université - CNRS (LSIS UMR 7296) - OpenEdition ...
Le catalogue de
                                             la personne qui
                                             pose la question

P. Bellot (AMU-CNRS, LSIS-OpenEdition)   7
RECHERCHE D'INFORMATION RESSOURCES ? POUR QUOI ? - Patrice Bellot Aix-Marseille Université - CNRS (LSIS UMR 7296) - OpenEdition ...
Et… que cherche-t-on ?

Qu’est-ce qu’une réponse pertinente ?

                         8
RECHERCHE D'INFORMATION RESSOURCES ? POUR QUOI ? - Patrice Bellot Aix-Marseille Université - CNRS (LSIS UMR 7296) - OpenEdition ...
Approche générale de RI
RECHERCHE D'INFORMATION RESSOURCES ? POUR QUOI ? - Patrice Bellot Aix-Marseille Université - CNRS (LSIS UMR 7296) - OpenEdition ...
mi

        Term Weighting
                                                                                                            i=n
                                                                                                            X
                                                                                                       Indexing and TF-IDF   Index Term Weighting

        • Luhn’s hypothesis (1957)    : the
                                  Luhn’s     ~ ~q—
                                         analysis
                                          s(d,    ) =
                                            frequency  of a word
                                                    Observation
                                                            w m
                                                                  is a· w
                                                                  ,d
                                                                        measurement of its significance … and
                                                                         mi ,q
                                                                i
          then a criterion that measures the capacity of a word to discriminate documents by their content
                                                                                                             i=1
                                                                f                                  Upper cut−off              Lower cut−off

                                                                                                                    wi,d
                                                                                    wi,d               =Resolving
                                                                                                          qP

                                                               Frequency of words

                                                                                    common words
                                                                                                                  power
                                                                                                                    n             2
                                                                                                                             j=1 wj,d

                                                                                                                                                                  from M. Lalmas, 2012
                                                                                                        Significant                rare words
                                                                                                        words
                                                                                                                                                             r
                                         i=n
                                         X                                                                                                                d~ · ~q
                                                                                    Words by rank order

                    ~ ~q ) =                     wi,d                                                   wi,q                                                                             ~ ~q )
                  s(d,                         qP                                                   · qP                                     =                                     = cos(d,
                                                 n
                                                           w 2                                          n
                                                                                                                        w 2                          ~ 2 · k~q k2
                                                                                                                                                    kdk
                                         i=1            j=1 j,d
                                                Mounia Lalmas (Yahoo! Research)
                                                                                                                     j=1 j,q                          20-21 June 2011   44 / 171

          • In a given document, a word is important (discriminant) if it occurs often and it is rare in the
              collection

                                                                                                                                                                              ni
                                 QteInfo(mi ) = log2 P (mi ) ! IDF (mi ) =                                                                                                log
                                                                                                                                                                              N

P. Bellot (AMU-CNRS, LSIS-OpenEdition)                                                                            10
Vector Space Model : some drawbacks
        • The dimensions are orthogonal
                 – “automobile” and “car” are as distant as “car” and “apricot tree”…

                   —> the user query must contain the same words
                   than the documents that he wishes to find…

        • The word order and the syntax are not used

                 – the cat drove out the dog of the neighbor
                 – ≈ the dog drove out the cat of the neighbor
                 – ≈ the cat close to the dog drives out
         – It assumes words are statistically independent
         – It does not take into account the syntax of the sentences, nor the negations…
                 – this paper is about politics VS. this paper is not about politics :
                     very similar sentences…

P. Bellot (AMU-CNRS, LSIS-OpenEdition)                        11TAL et RI - Rech. doc - Classif. et catégorisation - Q&A - Campagnes
N WS
                                                                                    eu D
                                                                                    bi Tut 01
                                                                                      t.l or 7
                                                                                       IR M2

                                                                                         y/ ia
    One-hot representation (local)

                                                                                               l-
              Dim = |V|
    sim(banana,mango) = 0
      banana        0    0    0    0   0    1    0     0     0   0    0     0

      mango         0    0    0    0   0    0    0     0     0   1    0     0

                                                     Notes: 1) Popular sim() is cosine, 2)
                                                     Words/tokens come from some
                                                     tokenization and transformation
 Download slides from:
Download slides from: http://bit.ly/NeuIRTutorial-WSDM2017
N WS
                                                                                                                  eu D
                                                                                                                  bi Tut 01
                                                                                                                    t.l or 7
                                                                                                                     IR M2

                                                                                                                       y/ ia
  Context-based distributed representation

                                                                                                                             l-
                                                                                            Non-zero         Zero

    banana

    mango

    sim(banana,mango) > 0
      Appear in same documents                                                        “  You shall know a
                                                                                         word by the
                                                                                                                       ”
      Appear near same words                                                             company it keeps
                                                                           Firth, J. R. (1957). A synopsis of linguistic theory
                                                                           1930–1955. In Studies in Linguistic Analysis, p.
                                                                           11. Blackwell, Oxford.
              Turney and Pantel. From frequency to meaning: Vector space models of semantics. Journal of
              artificial intelligence research 2010

Download slides from: http://bit.ly/NeuIRTutorial-WSDM2017
N WS
                                                                                                                       eu D
                                                                                                                       bi Tut 01
                                                                                                                         t.l or 7
                                                                                                                          IR M2

                                                                                                                            y/ ia
Distributional Semantics

                                                                                                                                  l-
                           Word-Document banana
                                                       Doc2              Doc7   Doc9

                              Word-Word banana
                                                      (yellow) (on) (grows)     (tree)         (africa)

                           Word-WordDist banana
                                                (yellow, -1)    (on, +2)
                                                                      (grows, +1)         (tree, +3) (africa, +5)

                Word hash banana
       (not context-based)
                                                        #ba    na# ana   nan        ban

                                                                                                          “You shall know a
                                                                                                           word by the
                                                                                                                               ”
                                                                                                           company it keeps

                                     Download slides from: http://bit.ly/
                                     NeuIRTutorial-WSDM2017
> 5 million books
                                                              unigrams,
                                                              bi-grams…
                                                              5-grams

                                                                    downloadable
                                              http://storage.googleapis.com/books/ngrams/books/datasetsv2.html

                                                   https://books.google.com/ngrams
P. Bellot (AMU-CNRS, LSIS-OpenEdition)   15
Latent Semantic Analysis / Indexing

P. Bellot (AMU-CNRS, LSIS-OpenEdition)   16
N WS
                                                                eu D
                                                                bi Tut 01
                                                                  t.l or 7
                                                                   IR M2

                                                                     y/ ia
                                                                           l-
Word2vec
Goal: simple (shallow) neural model
learning from billion words scale
corpus

Predict middle word from neighbors
within a fixed size context window

Two different architectures:
1. Skip-gram
2. CBOW

                                      (Mikolov et al., 2013)
Représentations distribuées
jeuxdemots.org
             CC BY-SA 3.0

Wordnet
P. Bellot (AMU-CNRS, LSIS-OpenEdition)   20
P. Bellot (AMU-CNRS, LSIS-OpenEdition)   21
incandescent light
Conclusion

        — Des résultats positifs mais… parfois décevants

        — Quels types de ressources pour quelles applications ?

        — Quand utiliser des ressources et quand ne pas les utiliser ?

        — Quelles interfaces et quel niveau d’interaction ?

        — Ressources génériques vs. ressources spécialisées vs. ressources personnalisées

        — … dépasser le signe en gardant la forme

                                                                               Concept

             Le signe et la forme                                  Signe                    Référent

                                               23

P. Bellot (AMU-CNRS, LSIS-OpenEdition)                     23
Vous pouvez aussi lire