Qu'est-ce le Web sémantique? Ivan Herman, W3C

 
CONTINUER À LIRE
Qu'est-ce le Web sémantique? Ivan Herman, W3C
Qu’est-ce le Web sémantique?

Ivan Herman, W3C
Qu'est-ce le Web sémantique? Ivan Herman, W3C
Organisons un voyage à Budapest en
                      utilisant le Web!

Copyright © 2008, W3C        (2)
Qu'est-ce le Web sémantique? Ivan Herman, W3C
On essaye de trouver un vol approprié
                           avec …

Copyright © 2008, W3C         (3)
Qu'est-ce le Web sémantique? Ivan Herman, W3C
… une grosse compagnie réputée, ou …

Copyright © 2008, W3C     (4)
Qu'est-ce le Web sémantique? Ivan Herman, W3C
… la compagnie du pays de destination, ou …

Copyright © 2008, W3C   (5)
Qu'est-ce le Web sémantique? Ivan Herman, W3C
… une compagnie low cost

Copyright © 2008, W3C              (6)
Qu'est-ce le Web sémantique? Ivan Herman, W3C
Nous devons aussi trouver un hôtel, donc
              on essaye de trouver…

Copyright © 2008, W3C    (7)
Qu'est-ce le Web sémantique? Ivan Herman, W3C
… un hôtel très bon marché, ou …

Copyright © 2008, W3C            (8)
Qu'est-ce le Web sémantique? Ivan Herman, W3C
… un hôtel de luxe, ou …

Copyright © 2008, W3C              (9)
Qu'est-ce le Web sémantique? Ivan Herman, W3C
… un hôtel abordable mais correct …

Copyright © 2008, W3C        (10)
aïe, ce site pose un problème, c’est en
              Hongrois, une langue que presque
               personne ne comprend ; mais…

Copyright © 2008, W3C         (11)
… celui-ci devrait aller

Copyright © 2008, W3C              (12)
Naturellement, nous pouvons aussi nous
               fier à un site spécialisé…

Copyright © 2008, W3C    (13)
… comme celui-ci, ou…

Copyright © 2008, W3C             (14)
… celui-là

Copyright © 2008, W3C       (15)
Vous voudriez, peut-être, avoir une idée de
      Budapest avant d’y aller ; essayons de
             trouver des photos…

Copyright © 2008, W3C   (16)
… sur flickr …

Copyright © 2008, W3C         (17)
… sur Google …

Copyright © 2008, W3C         (18)
… vous pouvez aussi regarder mes photos

Copyright © 2008, W3C   (19)
…ou consulter un site (social) de voyages

Copyright © 2008, W3C    (20)
Qu’avons nous fait ?
        Nous avons consulté un nombre de sites de styles
        différents créés pour des utilisations différentes,
        peut-être même dans des langues différentes…
        Nous avons dû intégrer toutes ces informations
        pour arriver à notre but
        Nous savons tous que, dans certains cas, il s’agit
        là d’un processus long et fatigant !

Copyright © 2008, W3C            (21)
En fait, toutes ces pages ne sont que les parties
        visibles de l’iceberg ! En effet :
              les vrais données sont cachées dans des bases de
              données, des fichiers XML, des pages Excel…
              nous avons accès uniquement à ce que les concepteurs
              des sites nous laissent voir

Copyright © 2008, W3C                 (22)
Les sites spécialisées (Expedia, TripAdvisor) font
        un peu plus :
              ils collectent et combinent des données de sources diverses
              mais ils continuent a contrôler ce que l’utilisateur peut voir
        Dans certains cas, vous voudriez personnaliser :
        c’est à dire, accéder aux données et les combiner
        vous-même !

Copyright © 2008, W3C                    (23)
Voici un exemple…

Copyright © 2008, W3C           (24)
Des compagnies utilisatrices sont contraintes à
        embaucher des experts pour manier ce genres de
        bases de données !

Copyright © 2008, W3C         (25)
Un autre exemple : les sites sociaux. J’ai
               une liste « d’amis » sur…

Copyright © 2008, W3C       (26)
… Dopplr,

Copyright © 2008, W3C       (27)
… Twine,

Copyright © 2008, W3C      (28)
… LinkedIn,

Copyright © 2008, W3C       (29)
… et, naturellement, Facebook

Copyright © 2008, W3C                (30)
J’ai dû re-ajouter et re-contacter mes amis pour
        tous les sites, indépendamment l’un de l’autre
        Ceci est même pire qu’avant : c’est moi qui ajoute
        à l’iceberg, mais je n’ai pas nécessairement accès
        à mes propre données…

Copyright © 2008, W3C           (31)
Que voudrions-nous avoir ?
        Pouvoir utiliser les données sur le Web comme
        nous utilisons les documents :
              pouvoir créer des liens à des données (indépendamment de
              leur présentation)
              pouvoir utiliser les données comme nous le voulons sur nos
              sites et programmes sur le Web

Copyright © 2008, W3C                  (32)
En d’autres termes…
        Nous voudrions élargir le Web actuel pour arriver à
        un « Web des données »
              permettre aux applications d’exploiter les données
              directement

Copyright © 2008, W3C                   (33)
Une minute ! N’est-ce pas ce que les
                    « mashups » font déjà ?

Copyright © 2008, W3C           (34)
Un exemple d’un « mashup » :

Copyright © 2008, W3C                (35)
D’un certain sens oui, et cela montre le potentiel
        énorme du Web des données
        Mais ces sites sont contraints à faire un travail ad-
        hoc :
              les données ne sont souvent accessibles que par le biais de
              services
              tous ont des APIs, des logiques, des structures différentes
              pour toutes nouvelles données, les sites doivent
              recommencer à zéro, parce qu’il n’existe aucun moyen
              standard pour accéder aux données

Copyright © 2008, W3C                  (36)
En d’autre termes …
        Nous voudrions élargir le Web actuel pour arriver à
        un « Web des données » par des moyens
        standards

Copyright © 2008, W3C           (37)
Mais qu’est-ce que cela veut dire en
                            pratique ?
        Comment fonctionne le Web actuel ?
              des document sont créés
              ils reçoivent une adresse (un URI) et ils sont mis à
              disposition sur le Web

Copyright © 2008, W3C                    (38)
Un exemple : le site de Steven sur Amsterdam
            (créé pour des amis)

Copyright © 2008, W3C   (39)
Puis vient la magie…
        D’autres découvrent le site et ils s’y « lient »
        Plus il y a ce genre de liens, plus la page est
        importante, donc plus la page est connu
              c’est l’essentiel du fonctionnement de Google !
        C’est « l’effet réseau » : certaines pages
        deviennent importants, sont exploitées par
        d’autres, souvent d’une manière inattendue même
        pour l’auteur de l’original

Copyright © 2008, W3C                   (40)
Ceci n’était pas une surprise…

Copyright © 2008, W3C                 (41)
mais celui-ci, provenant de l’autre bout du
                Globe, en était une…

Copyright © 2008, W3C    (42)
Que veut dire tout cela pour le Web des
                         données?
        Nous devrions être capable de
              « publier » les données sur le Web par des moyens
              standards
                       en analogie avec les documents : donnons des URI aux
                        données
              créer des liens aux URI-s à partir d’autres données
              (documents ou autres)
                       une solution générique et standard devrait être utilisée
                       les applications ne devraient pas être forcées de développer
                        des approches différentes pour toutes sources de données
              et laissons l’effet réseau agir …

Copyright © 2008, W3C                            (43)
Exemple : combiner des données
        Une compagnie pharmaceutique a une quantité
        importante de données sur son intranet
              dans des formats différents (XML, BdD,…)

        Pour les réutiliser :
              les informations
              essentielles sont mises
              sur le Web par des
              moyens standards
              un outil public est utilisé
              pour l’intégration, la
              visualisation, la
              recherche

Courtesy of Nigel Wilkinson, Lee Harland, Pfizer Ltd, Melliyal Annamalai, Oracle (SWEO Case Study)
Copyright © 2008, W3C                                      (44)
En pratique, c’est un peu plus compliqué
        Sur le Web traditionnel l’humain est implicitement
        pris en compte :
              un lien a aussi un « contexte » qu’une personne peut
              reconnaître et utiliser

Copyright © 2008, W3C                  (45)
Par exemple, l’adresse sur ma page

Copyright © 2008, W3C           (46)
… mène a la page suivante :

Copyright © 2008, W3C               (47)
L’humain comprend que ceci est la page d’accueil
        de mon institution
        Il saura, plus ou moins, que cela signifie un institut
        de recherche à Amsterdam
        Sur le Web des données il y a donc quelque chose
        qui manque : en soi, la machine ne comprend pas
        la signification du lien

Copyright © 2008, W3C            (48)
Une nouvelle contrainte :
              un élément d’information doit être ajoutée au lien : « ceci est
              un lien vers mon institution, un institut de recherche »
              cette information doit être accessible par la machine
        Ceci est, en fait, une classification (caractérisation)
        aussi bien du lien que de la page qui est liée
              en certain cas, cette classification peut permettre un forme
              limitée de raisonnement

Copyright © 2008, W3C                    (49)
Mettons tout ensemble !
        Pour un Web des données, nous avons besoin :
              de l’utilisation des URI-s pour publier nos données
              de permettre de créer des liens à partir des données vers
              d’autres données
              de caractériser/classifier les données et les liens pour
              transmettre un peu plus d’information
              d’utiliser des moyens standards pour tout cela !

Copyright © 2008, W3C                   (50)
Exemple : trouver les experts chez NASA

        Il y a presque 70,000 fonctionnaires chez la NASA,
        répartis sur tous les États Unis
        Leur expertise est décrite dans 6-7 bases de
        données différentes, réparties sur tout le territoire
        des USA, avec des schémas, des structures, etc.
        tous différents …
        Problème : trouver les experts requis pour une
        tâche spécifique au sein de la NASA!

Michael Grove, Clark & Parsia, LLC, and Andrew Schain, NASA, (SWEO Case Study)
Copyright © 2008, W3C                                  (51)
Exemple : trouver les experts chez NASA
        L’approche choisie : intégration standard des
        données, description des données et des liens
        avec des vocabulaires génériques

Michael Grove, Clark & Parsia, LLC, and Andrew Schain, NASA, (SWEO Case Study)
Copyright © 2008, W3C                                  (52)
Mais qu’est ce que c’est le Web
                                sémantique ?

Copyright © 2008, W3C                 (53)
Un ensemble de technologies standards
           pour réaliser le Web des données

Copyright © 2008, W3C    (54)
C’est aussi simple que cela…
        Naturellement, les détails peuvent être compliqués
              un modèle commun doit être défini pour une structure des
              liens et pour les classifications
              pour un domaine spécifique, la classifications des termes
              peut être très compliquée : c’est là où les ontologies, les
              vocabulaires, etc, entrent en jeu

Copyright © 2008, W3C                   (55)
Exemple : eTourism à Zaragoza

                                                                       Service d’itinéraire
                                                                       personnalisé
                                                                       Intégration de bases
                                                                       de données à
                                                                       Zaragoza (utilisant
                                                                       des ontologies)
                                                                       Utilisation d’un
                                                                       moteur de
                                                                       raisonnement

Courtesy of Jesús Fernández, Municipality of Zaragoza, and Antonio Campos, CTIC (SWEO Use Case)
Copyright © 2008, W3C                                   (56)
Une minute ! Dois-je convertir toute mes
       données pour pouvoir fonctionner sur un
                Web des données ?

Copyright © 2008, W3C     (57)
Pas nécessairement ; ça ne serait pas toujours
        possible
        Il y a des technologies pour accéder aux données
        par des moyens standards sans les convertir
              des « ponts » (par exemple, ré-écriture des requêtes)
              annotations des données existantes (par exemple, des
              pages XHTML)
        Ces techniques sont encore en développement

Copyright © 2008, W3C                  (58)
Exemple : intégration des connaissances de
     la médecine chinoise traditionnelle
        Intégration de plus de 80 bases de données
        Utilisation d’ontologies spécifiques
        Génération des interrogation en SQL « on the fly »

Courtesy of Huajun Chen, Zhejiang University, (SWEO Case Study)
Copyright © 2008, W3C                                    (59)
Groupe d’intérêt de W3C pour la santé et les
              sciences du vivant
        La communauté « HCLS » se trouve en face de
        problèmes majeurs d’intégration
              recherche pharmaceutique, données médicales des
              patients, processus pour approuver de nouveaux
              médicaments,…
        La communauté avait besoin
              d’un lieu neutre pour discuter des problèmes techniques
              d’un contact plus direct avec la communauté du Web
              sémantique
        W3C avait besoin
              des contacts avec une communauté d’utilisateurs majeure
              de pouvoir ajuster les choix techniques au besoins
              pratiques, de bénéficier des expériences
Copyright © 2008, W3C                  (60)
Groupe HCLS
        Développe des « expérimentations », des
        démonstrations pour prouver la fiabilité de la
        technologie
              le groupe est divisé en « task forces » pour se concentrer
              sur des problèmes différents
        Publie des notes, des articles, etc, sur le sujet
        Développe des stratégies de communication vers
        l’industrie (réunions, conférences, rencontres
        industrielles)
        Offre un forum de discussion pour les experts

Copyright © 2008, W3C                   (61)
Démonstration HCLS : cibles pour la maladie
                d’Alzheimer

        Signal transduction pathways are
        considered to be rich in proteins
        that might respond to chemical
        therapy
        CA1 Pyramidal Neurons are
        known to be particularly damaged
        in Alzheimer’s disease
        Can we find candidate genes
        known to be involved in signal
        transduction and active in
        Pyramidal Neurons?

Copyright © 2008, W3C                       (62)
Pour la réponse : intégration de données
        W3C HCLS IG a intégré un nombre de bases de
        données et d’ontologies publiques
              assigner un URI aux entités biologiques
              conversion ou accès aux données avec des techniques du
              Web sémantique (400M de relations en mai 2007)
              utilisation d’un moteur d’inférence pour trouver des
              nouvelles relations
              utilisation d’un langage d’interrogation pour répondre aux
              questions spécifiques

Copyright © 2008, W3C                   (63)
Les bases de données

Copyright © 2008, W3C            (64)
Utilisation du langage d’interrogation…
    prefix go: 
    prefix rdfs: 
    prefix owl: 
    prefix mesh: 
    prefix sc: 

                                                                                 Mesh: Pyramidal Neurons
    prefix ro: 
    select ?genename ?processname
    where
    { graph 
       { ?paper ?p mesh:D017966 .
         ?article sc:identified_by_pmid ?paper.
         ?gene sc:describes_gene_or_gene_product_mentioned_by ?article.
       }
      graph 
       { ?protein rdfs:subClassOf ?res.
         ?res owl:onProperty ro:has_function.
                                                                                 Pubmed: Journal Articles
         ?res owl:someValuesFrom ?res2.
         ?res2 owl:onProperty ro:realized_as.
         ?res2 owl:someValuesFrom ?process.
      graph 
       {{?process  go:GO_0007166}
         union
        {?process rdfs:subClassOf go:GO_0007166 }}
         ?protein rdfs:subClassOf ?parent.
         ?parent owl:equivalentClass ?res3.
                                                                                 Entrez Gene: Genes
         ?res3 owl:hasValue ?gene.
        }
      graph 
       { ?gene rdfs:label ?genename }
      graph 
       { ?process rdfs:label ?processname}
    }
                                                                                 GO: Signal Transduction

Courtesy of Susie Stephens, Eli Lilly, Alan Ruttenberg, Science Commons, and the W3C HCLS IG

Copyright © 2008, W3C                                                     (65)
Tout ceci produit des réponses…
 Many of the genes are indeed related to Alzheimer’s Disease through gamma secretase (presenilin) activity

      DRD1, 1812         adenylate cyclase activation
      ADRB2, 154         adenylate cyclase activation
      ADRB2, 154         arrestin mediated desensitization of G-protein coupled receptor protein signaling pathway
      DRD1IP, 50632      dopamine receptor signaling pathway
      DRD1, 1812         dopamine receptor, adenylate cyclase activating pathway
      DRD2, 1813         dopamine receptor, adenylate cyclase inhibiting pathway
      GRM7, 2917         G-protein coupled receptor protein signaling pathway
      GNG3, 2785         G-protein coupled receptor protein signaling pathway
      GNG12, 55970       G-protein coupled receptor protein signaling pathway
      DRD2, 1813         G-protein coupled receptor protein signaling pathway
      ADRB2, 154         G-protein coupled receptor protein signaling pathway
      CALM3, 808         G-protein coupled receptor protein signaling pathway
      HTR2A, 3356        G-protein coupled receptor protein signaling pathway
      DRD1, 1812         G-protein signaling, coupled to cyclic nucleotide second messenger
      SSTR5, 6755        G-protein signaling, coupled to cyclic nucleotide second messenger
      MTNR1A, 4543       G-protein signaling, coupled to cyclic nucleotide second messenger
      CNR2, 1269         G-protein signaling, coupled to cyclic nucleotide second messenger
      HTR6, 3362         G-protein signaling, coupled to cyclic nucleotide second messenger
      GRIK2, 2898        glutamate signaling pathway
      GRIN1, 2902        glutamate signaling pathway
      GRIN2A, 2903       glutamate signaling pathway
      GRIN2B, 2904       glutamate signaling pathway
      ADAM10, 102        integrin-mediated signaling pathway
      GRM7, 2917         negative regulation of adenylate cyclase activity
      LRP1, 4035         negative regulation of Wnt receptor signaling pathway
      ADAM10, 102        Notch receptor processing
      ASCL1, 429         Notch signaling pathway
      HTR2A, 3356        serotonin receptor signaling pathway
      ADRB2, 154         transmembrane receptor protein tyrosine kinase activation (dimerization)
      PTPRG, 5793        transmembrane receptor protein tyrosine kinase signaling pathway
      EPHA4, 2043        transmembrane receptor protein tyrosine kinase signaling pathway
      NRTN, 4902         transmembrane receptor protein tyrosine kinase signaling pathway
      CTNND1, 1500       Wnt receptor signaling pathway

Courtesy of Susie Stephens, Eli Lilly, Alan Ruttenberg, Science Commons, and the W3C HCLS IG

Copyright © 2008, W3C                                          (66)
L’essentiel…
        L’essentiel de la démonstration était l’accès et
        l’intégration des données publiques par le biais du
        Web sémantique

Copyright © 2008, W3C           (67)
Vous pouvez aussi lire