Qu'est-ce le Web sémantique? Ivan Herman, W3C
←
→
Transcription du contenu de la page
Si votre navigateur ne rend pas la page correctement, lisez s'il vous plaît le contenu de la page ci-dessous
aïe, ce site pose un problème, c’est en Hongrois, une langue que presque personne ne comprend ; mais… Copyright © 2008, W3C (11)
… celui-ci devrait aller Copyright © 2008, W3C (12)
Naturellement, nous pouvons aussi nous fier à un site spécialisé… Copyright © 2008, W3C (13)
… comme celui-ci, ou… Copyright © 2008, W3C (14)
… celui-là Copyright © 2008, W3C (15)
Vous voudriez, peut-être, avoir une idée de Budapest avant d’y aller ; essayons de trouver des photos… Copyright © 2008, W3C (16)
… sur flickr … Copyright © 2008, W3C (17)
… sur Google … Copyright © 2008, W3C (18)
… vous pouvez aussi regarder mes photos Copyright © 2008, W3C (19)
…ou consulter un site (social) de voyages Copyright © 2008, W3C (20)
Qu’avons nous fait ? Nous avons consulté un nombre de sites de styles différents créés pour des utilisations différentes, peut-être même dans des langues différentes… Nous avons dû intégrer toutes ces informations pour arriver à notre but Nous savons tous que, dans certains cas, il s’agit là d’un processus long et fatigant ! Copyright © 2008, W3C (21)
En fait, toutes ces pages ne sont que les parties visibles de l’iceberg ! En effet : les vrais données sont cachées dans des bases de données, des fichiers XML, des pages Excel… nous avons accès uniquement à ce que les concepteurs des sites nous laissent voir Copyright © 2008, W3C (22)
Les sites spécialisées (Expedia, TripAdvisor) font un peu plus : ils collectent et combinent des données de sources diverses mais ils continuent a contrôler ce que l’utilisateur peut voir Dans certains cas, vous voudriez personnaliser : c’est à dire, accéder aux données et les combiner vous-même ! Copyright © 2008, W3C (23)
Voici un exemple… Copyright © 2008, W3C (24)
Des compagnies utilisatrices sont contraintes à embaucher des experts pour manier ce genres de bases de données ! Copyright © 2008, W3C (25)
Un autre exemple : les sites sociaux. J’ai une liste « d’amis » sur… Copyright © 2008, W3C (26)
… Dopplr, Copyright © 2008, W3C (27)
… Twine, Copyright © 2008, W3C (28)
… LinkedIn, Copyright © 2008, W3C (29)
… et, naturellement, Facebook Copyright © 2008, W3C (30)
J’ai dû re-ajouter et re-contacter mes amis pour tous les sites, indépendamment l’un de l’autre Ceci est même pire qu’avant : c’est moi qui ajoute à l’iceberg, mais je n’ai pas nécessairement accès à mes propre données… Copyright © 2008, W3C (31)
Que voudrions-nous avoir ? Pouvoir utiliser les données sur le Web comme nous utilisons les documents : pouvoir créer des liens à des données (indépendamment de leur présentation) pouvoir utiliser les données comme nous le voulons sur nos sites et programmes sur le Web Copyright © 2008, W3C (32)
En d’autres termes… Nous voudrions élargir le Web actuel pour arriver à un « Web des données » permettre aux applications d’exploiter les données directement Copyright © 2008, W3C (33)
Une minute ! N’est-ce pas ce que les « mashups » font déjà ? Copyright © 2008, W3C (34)
Un exemple d’un « mashup » : Copyright © 2008, W3C (35)
D’un certain sens oui, et cela montre le potentiel énorme du Web des données Mais ces sites sont contraints à faire un travail ad- hoc : les données ne sont souvent accessibles que par le biais de services tous ont des APIs, des logiques, des structures différentes pour toutes nouvelles données, les sites doivent recommencer à zéro, parce qu’il n’existe aucun moyen standard pour accéder aux données Copyright © 2008, W3C (36)
En d’autre termes … Nous voudrions élargir le Web actuel pour arriver à un « Web des données » par des moyens standards Copyright © 2008, W3C (37)
Mais qu’est-ce que cela veut dire en pratique ? Comment fonctionne le Web actuel ? des document sont créés ils reçoivent une adresse (un URI) et ils sont mis à disposition sur le Web Copyright © 2008, W3C (38)
Un exemple : le site de Steven sur Amsterdam (créé pour des amis) Copyright © 2008, W3C (39)
Puis vient la magie… D’autres découvrent le site et ils s’y « lient » Plus il y a ce genre de liens, plus la page est importante, donc plus la page est connu c’est l’essentiel du fonctionnement de Google ! C’est « l’effet réseau » : certaines pages deviennent importants, sont exploitées par d’autres, souvent d’une manière inattendue même pour l’auteur de l’original Copyright © 2008, W3C (40)
Ceci n’était pas une surprise… Copyright © 2008, W3C (41)
mais celui-ci, provenant de l’autre bout du Globe, en était une… Copyright © 2008, W3C (42)
Que veut dire tout cela pour le Web des données? Nous devrions être capable de « publier » les données sur le Web par des moyens standards en analogie avec les documents : donnons des URI aux données créer des liens aux URI-s à partir d’autres données (documents ou autres) une solution générique et standard devrait être utilisée les applications ne devraient pas être forcées de développer des approches différentes pour toutes sources de données et laissons l’effet réseau agir … Copyright © 2008, W3C (43)
Exemple : combiner des données Une compagnie pharmaceutique a une quantité importante de données sur son intranet dans des formats différents (XML, BdD,…) Pour les réutiliser : les informations essentielles sont mises sur le Web par des moyens standards un outil public est utilisé pour l’intégration, la visualisation, la recherche Courtesy of Nigel Wilkinson, Lee Harland, Pfizer Ltd, Melliyal Annamalai, Oracle (SWEO Case Study) Copyright © 2008, W3C (44)
En pratique, c’est un peu plus compliqué Sur le Web traditionnel l’humain est implicitement pris en compte : un lien a aussi un « contexte » qu’une personne peut reconnaître et utiliser Copyright © 2008, W3C (45)
Par exemple, l’adresse sur ma page Copyright © 2008, W3C (46)
… mène a la page suivante : Copyright © 2008, W3C (47)
L’humain comprend que ceci est la page d’accueil de mon institution Il saura, plus ou moins, que cela signifie un institut de recherche à Amsterdam Sur le Web des données il y a donc quelque chose qui manque : en soi, la machine ne comprend pas la signification du lien Copyright © 2008, W3C (48)
Une nouvelle contrainte : un élément d’information doit être ajoutée au lien : « ceci est un lien vers mon institution, un institut de recherche » cette information doit être accessible par la machine Ceci est, en fait, une classification (caractérisation) aussi bien du lien que de la page qui est liée en certain cas, cette classification peut permettre un forme limitée de raisonnement Copyright © 2008, W3C (49)
Mettons tout ensemble ! Pour un Web des données, nous avons besoin : de l’utilisation des URI-s pour publier nos données de permettre de créer des liens à partir des données vers d’autres données de caractériser/classifier les données et les liens pour transmettre un peu plus d’information d’utiliser des moyens standards pour tout cela ! Copyright © 2008, W3C (50)
Exemple : trouver les experts chez NASA Il y a presque 70,000 fonctionnaires chez la NASA, répartis sur tous les États Unis Leur expertise est décrite dans 6-7 bases de données différentes, réparties sur tout le territoire des USA, avec des schémas, des structures, etc. tous différents … Problème : trouver les experts requis pour une tâche spécifique au sein de la NASA! Michael Grove, Clark & Parsia, LLC, and Andrew Schain, NASA, (SWEO Case Study) Copyright © 2008, W3C (51)
Exemple : trouver les experts chez NASA L’approche choisie : intégration standard des données, description des données et des liens avec des vocabulaires génériques Michael Grove, Clark & Parsia, LLC, and Andrew Schain, NASA, (SWEO Case Study) Copyright © 2008, W3C (52)
Mais qu’est ce que c’est le Web sémantique ? Copyright © 2008, W3C (53)
Un ensemble de technologies standards pour réaliser le Web des données Copyright © 2008, W3C (54)
C’est aussi simple que cela… Naturellement, les détails peuvent être compliqués un modèle commun doit être défini pour une structure des liens et pour les classifications pour un domaine spécifique, la classifications des termes peut être très compliquée : c’est là où les ontologies, les vocabulaires, etc, entrent en jeu Copyright © 2008, W3C (55)
Exemple : eTourism à Zaragoza Service d’itinéraire personnalisé Intégration de bases de données à Zaragoza (utilisant des ontologies) Utilisation d’un moteur de raisonnement Courtesy of Jesús Fernández, Municipality of Zaragoza, and Antonio Campos, CTIC (SWEO Use Case) Copyright © 2008, W3C (56)
Une minute ! Dois-je convertir toute mes données pour pouvoir fonctionner sur un Web des données ? Copyright © 2008, W3C (57)
Pas nécessairement ; ça ne serait pas toujours possible Il y a des technologies pour accéder aux données par des moyens standards sans les convertir des « ponts » (par exemple, ré-écriture des requêtes) annotations des données existantes (par exemple, des pages XHTML) Ces techniques sont encore en développement Copyright © 2008, W3C (58)
Exemple : intégration des connaissances de la médecine chinoise traditionnelle Intégration de plus de 80 bases de données Utilisation d’ontologies spécifiques Génération des interrogation en SQL « on the fly » Courtesy of Huajun Chen, Zhejiang University, (SWEO Case Study) Copyright © 2008, W3C (59)
Groupe d’intérêt de W3C pour la santé et les sciences du vivant La communauté « HCLS » se trouve en face de problèmes majeurs d’intégration recherche pharmaceutique, données médicales des patients, processus pour approuver de nouveaux médicaments,… La communauté avait besoin d’un lieu neutre pour discuter des problèmes techniques d’un contact plus direct avec la communauté du Web sémantique W3C avait besoin des contacts avec une communauté d’utilisateurs majeure de pouvoir ajuster les choix techniques au besoins pratiques, de bénéficier des expériences Copyright © 2008, W3C (60)
Groupe HCLS Développe des « expérimentations », des démonstrations pour prouver la fiabilité de la technologie le groupe est divisé en « task forces » pour se concentrer sur des problèmes différents Publie des notes, des articles, etc, sur le sujet Développe des stratégies de communication vers l’industrie (réunions, conférences, rencontres industrielles) Offre un forum de discussion pour les experts Copyright © 2008, W3C (61)
Démonstration HCLS : cibles pour la maladie d’Alzheimer Signal transduction pathways are considered to be rich in proteins that might respond to chemical therapy CA1 Pyramidal Neurons are known to be particularly damaged in Alzheimer’s disease Can we find candidate genes known to be involved in signal transduction and active in Pyramidal Neurons? Copyright © 2008, W3C (62)
Pour la réponse : intégration de données W3C HCLS IG a intégré un nombre de bases de données et d’ontologies publiques assigner un URI aux entités biologiques conversion ou accès aux données avec des techniques du Web sémantique (400M de relations en mai 2007) utilisation d’un moteur d’inférence pour trouver des nouvelles relations utilisation d’un langage d’interrogation pour répondre aux questions spécifiques Copyright © 2008, W3C (63)
Les bases de données Copyright © 2008, W3C (64)
Utilisation du langage d’interrogation… prefix go: prefix rdfs: prefix owl: prefix mesh: prefix sc: Mesh: Pyramidal Neurons prefix ro: select ?genename ?processname where { graph { ?paper ?p mesh:D017966 . ?article sc:identified_by_pmid ?paper. ?gene sc:describes_gene_or_gene_product_mentioned_by ?article. } graph { ?protein rdfs:subClassOf ?res. ?res owl:onProperty ro:has_function. Pubmed: Journal Articles ?res owl:someValuesFrom ?res2. ?res2 owl:onProperty ro:realized_as. ?res2 owl:someValuesFrom ?process. graph {{?process go:GO_0007166} union {?process rdfs:subClassOf go:GO_0007166 }} ?protein rdfs:subClassOf ?parent. ?parent owl:equivalentClass ?res3. Entrez Gene: Genes ?res3 owl:hasValue ?gene. } graph { ?gene rdfs:label ?genename } graph { ?process rdfs:label ?processname} } GO: Signal Transduction Courtesy of Susie Stephens, Eli Lilly, Alan Ruttenberg, Science Commons, and the W3C HCLS IG Copyright © 2008, W3C (65)
Tout ceci produit des réponses… Many of the genes are indeed related to Alzheimer’s Disease through gamma secretase (presenilin) activity DRD1, 1812 adenylate cyclase activation ADRB2, 154 adenylate cyclase activation ADRB2, 154 arrestin mediated desensitization of G-protein coupled receptor protein signaling pathway DRD1IP, 50632 dopamine receptor signaling pathway DRD1, 1812 dopamine receptor, adenylate cyclase activating pathway DRD2, 1813 dopamine receptor, adenylate cyclase inhibiting pathway GRM7, 2917 G-protein coupled receptor protein signaling pathway GNG3, 2785 G-protein coupled receptor protein signaling pathway GNG12, 55970 G-protein coupled receptor protein signaling pathway DRD2, 1813 G-protein coupled receptor protein signaling pathway ADRB2, 154 G-protein coupled receptor protein signaling pathway CALM3, 808 G-protein coupled receptor protein signaling pathway HTR2A, 3356 G-protein coupled receptor protein signaling pathway DRD1, 1812 G-protein signaling, coupled to cyclic nucleotide second messenger SSTR5, 6755 G-protein signaling, coupled to cyclic nucleotide second messenger MTNR1A, 4543 G-protein signaling, coupled to cyclic nucleotide second messenger CNR2, 1269 G-protein signaling, coupled to cyclic nucleotide second messenger HTR6, 3362 G-protein signaling, coupled to cyclic nucleotide second messenger GRIK2, 2898 glutamate signaling pathway GRIN1, 2902 glutamate signaling pathway GRIN2A, 2903 glutamate signaling pathway GRIN2B, 2904 glutamate signaling pathway ADAM10, 102 integrin-mediated signaling pathway GRM7, 2917 negative regulation of adenylate cyclase activity LRP1, 4035 negative regulation of Wnt receptor signaling pathway ADAM10, 102 Notch receptor processing ASCL1, 429 Notch signaling pathway HTR2A, 3356 serotonin receptor signaling pathway ADRB2, 154 transmembrane receptor protein tyrosine kinase activation (dimerization) PTPRG, 5793 transmembrane receptor protein tyrosine kinase signaling pathway EPHA4, 2043 transmembrane receptor protein tyrosine kinase signaling pathway NRTN, 4902 transmembrane receptor protein tyrosine kinase signaling pathway CTNND1, 1500 Wnt receptor signaling pathway Courtesy of Susie Stephens, Eli Lilly, Alan Ruttenberg, Science Commons, and the W3C HCLS IG Copyright © 2008, W3C (66)
L’essentiel… L’essentiel de la démonstration était l’accès et l’intégration des données publiques par le biais du Web sémantique Copyright © 2008, W3C (67)
Vous pouvez aussi lire