E-SIA : un système d'annotation et de recherche de documents audiovisuels
←
→
Transcription du contenu de la page
Si votre navigateur ne rend pas la page correctement, lisez s'il vous plaît le contenu de la page ci-dessous
E-SIA : un système d'annotation et de recherche de documents audiovisuels Elöd EGYED-ZSIGMOND LIRIS, Bâtiment Blaise Pascal, 20 avenue Albert Einstein 69621 VILLEURBANNE CEDEX, http://lisi.insa-lyon.fr elod.egyed-zsigmond@insa-lyon.fr [Catégorie Jeunes Chercheurs] RÉSUMÉ. L'annotation et la recherche de documents audiovisuels sont des tâches complexes. Dans ce papier nous présentons un modèle d'organisation des annotations dans un graphe connexe orienté étiqueté ainsi que des méthodes de recherche et d'exploration basées sur cette structure. Le graphe contient aussi bien les annotations elles-mêmes que le vocabulaire utilisé pour annoter, des éléments qui permettent de structurer ce vocabulaire et des représentants des fragments de documents annotés. Nous décrivons également le prototype client serveur développé dans le cadre d'un projet RNRT en partenariat avec France Télécom R&D et INRIA pour démontrer la faisabilité de nos théories. ABSTRACT. Audio-visual document annotation and search are complex tasks. In his paper we present an annotation model, based on a connected, oriented labeled graph and a set of search and exploration methods based on this graph structure. The graph contains as well the proper annotations as the vocabulary used to annotate, the vocabulary structuring elements and the annotated document units. We also developed as a part of a National Research (RNRT) project, together with France Télécom R&D and INRIA a prototype application in order to prove the feasibility of our theories. MOTS-CLÉS : Annotation, vidéo, graphe, recherche de documents audiovisuels, IHM KEYWORDS: annotation, video, .graph, audio-visual document search, CHI
1. Introduction Dans ce papier, nous étudierons les modalités de description de données audiovisuelles. En effet, l'organisation et l'exploitation de ces descripteurs sont fondamentales pour la recherche dans ce type de données. Il est également important de proposer des méthodes simples aux utilisateurs, qui exploitent les documents, de découvrir la manière dont ceux-ci ont été annotés. De cette manière les requêtes peuvent être mieux ciblées. Ils arriveront ainsi à de bons résultats en moins d’étapes et donc en moins de temps. Il est difficile de décrire ce que nous aimerions trouver. A partir, par exemple d'une image, d'une mélodie, d'un dialogue qu'il a en tête, l'utilisateur voudrait retrouver le fragment de vidéo qui les contient. Pour faire comprendre au système son souhait, celui-ci doit proposer des interfaces de création de requêtes riches, multimodales, personnalisables. En effet il est bien différent d'entrer des mots clés dans un champ d’édition, de donner des descripteurs numériques, de dessiner une esquisse ou bien de siffler une mélodie dans un microphone pour construire une requête. Il est utile également, dans ce cas, de savoir comment les documents dans lesquels la recherche s'effectue ont été annotés et comment ces annotations sont organisées. Si l’utilisateur connaît la manière dont l’annotation a été réalisée, il peut plus facilement poser des requêtes pertinentes. Aussi bien la recherche, que l'annotation passent par un processus de description. Dans le premier cas nous décrivons ce que nous aimerions trouver, dans le second la description porte sur ce que nous observons. Il est important que la description des documents audiovisuels soit homogène. Dans le cadre d’une émission sportive par exemple, si les participants à une course cycliste sont désignés parfois par les mots clés : cyclistes, coureurs ou encore concurrents, il serait beaucoup plus complexe de formuler une requête retrouvant toutes leurs occurrences que s’ils étaient identifiés toujours par le même mot clé. Les tâches de recherche et d'annotation sont complexes. La complexité de ces tâches provient de la très grande variabilité potentielle des points de vues aussi bien pour décrire initialement (à l’archivage) un document que pour le décrire par la suite (pour une recherche, une analyse,…). Les descripteurs sont potentiellement infinis ce qui rend extrêmement difficile pour un utilisateur d’être cohérent et homogène avec d’autres annotations. Il est donc pertinent de mettre en place des assistants informatiques qui facilitent les tâches de recherche et d’annotation et contribuent au bon déroulement des interactions homme-machine. Pour résumer la problématique : nous voulons enrichir les services de recherche et d’accès à l’information multimédia. Pour cela nous étudierons les méthodes de description et d'exploitation de ces informations ainsi que l'assistance aux utilisateurs pour effectuer cette exploitation et description.
2. Un exemple introductif Il s'agit d'élaborer un système qui permette à l'utilisateur d'exprimer facilement et précisément sa requête, un système qui trouve rapidement des résultats pertinents, propose des moyens pour raffiner la requête et qui mette à disposition plusieurs méthodes de visualisation des résultats. Imaginons par exemple un réalisateur d'émissions de télévision qui voudrait faire une rétrospective des chutes de Virenque lors de ses différentes courses cyclistes. Il veut donc retrouver tous les fragments vidéo contenant ces chutes. Supposons que les archives de la chaîne de télévision soient numériques et qu'il existe un système de recherche dans ces archives. Pour effectuer sa recherche il peut se baser sur des mots clés : vélo, Virenque, etc. et sur des images exemples : un cycliste quelconque, un cycliste qui tombe, le portrait de Virenque, etc. Eventuellement il peut préciser le type d'émission dans lequel la recherche doit être menée (d'émissions de sport ou journaux télévisés dans notre cas). Après avoir effectué une première recherche par mots clés, le système lui retourne une centaine de vidéos, qui se révèlent être des extraits représentant les principales courses cyclistes (Tour de France, Tour d’Espagne, les grands classiques, …) couvertes par la chaîne, ainsi que les interviews accordées par Virenque. Sur la lecture de la description associée à une séquence du Tour de France, il note que le mot clé course est assigné. Il reformule alors sa requête en y rajoutant ce mot clé pour éliminer les interviews. Comme l'ensemble des résultats est encore trop volumineux (représente une centaine d'heures à regarder), il raffine sa requête en la complétant avec une image exemple. Cette image représente un cycliste qui tombe et réduit l'ensemble des vidéos trouvées à des séquences qui contiennent des images similaires à celle donnée comme exemple. Le nombre de résultats se réduit à une vingtaine, parmi lesquels certaines séquences se résument à des images, mais d'autres sont encore beaucoup trop longues. En dernière étape il précise que parmi les résultats ainsi trouvés il lui faut seulement les plans d'une durée inférieure à 15s. Lors de ses recherches le réalisateur d’émission a utilisé ses connaissances du domaine des courses cyclistes pour préciser les premiers éléments de sa requête. Il a ensuite utilisé les possibilités offertes par le système et le caractère des résultats intermédiaires pour raffiner sa demande jusqu’à ce qu’il aboutisse à un résultat suffisamment précis. Dans notre exemple l’utilisateur construit sa requête à partir des mots clés et des images exemples. Les mots clés sont pertinents si lors de l'archivage, les séquences audiovisuelles ont été effectivement annotées par ces mêmes mots. Encore faut-il que les mots clés désignent des séquences pertinentes et limitées à ce qui est recherché et non par exemple la vidéo entière, car ce serait trop imprécis et nécessiterait trop de temps pour effectivement localiser la bonne séquence. Il est donc important que les
annotations soient précises, bien organisées, homogènes et que le directeur d'émission puisse trouver facilement les mots clés qui correspondent à sa requête. Dans notre illustration, si le réalisateur d'émission avait la possibilité de donner en même temps que l'image exemple, les mots clés, et préciser qu'il veut des plans de durées courtes, cela lui aurait économisé du temps. Le système aurait d'ailleurs pu classer les résultats automatiquement en scènes de courses et interviews en proposant des raffinements de requêtes pour les départager. Les services proposés par le système pouvaient être plus riches. Le système que nous présentons a pour but de faciliter la découverte des canons d’annotation utilisés pour permettre la construction de requêtes précises. Il fournit également un cadre pour une assistance basée sur la réutilisation de l’expérience pour l’annotation et la recherche de documents. 3. Travaux apparentés Plusieurs systèmes traitent le problème de l'annotation et de la recherche des documents audiovisuels. La plupart utilisent des outils automatiques pour décrire les documents (Zhong, 2000; Blei, Ng et al., 2003). Des projets comme OPALES (Betaille, Nanard et al., 2001), MIA (Schreiber, Dubbeldam et al., 2001), HyperProp (Soares, Rodrigues et al., 2000) permettent une annotation manuelle, en utilisant des vocabulaires structurés. Dans ces cas les annotations sont seulement textuelles. Les quelques moteurs de recherche disponibles en ligne (Naughton, DeWitt et al., 2000; Virage, 2000; Webseek, 2002) regroupent les documents dans des catégories identifiées par des mots clés. Très peu de travaux (Goodrum, 2000) traitent la recherche selon des critères multimédias, permettant de formuler des requêtes composées à la fois de mots clés, images ou sons exemples. La recherche des documents audiovisuels (vidéos, musiques) se fait actuellement essentiellement par des mots clés (Mediasite, 2000; Webseek, 2002; Altavista, 2003). Ces systèmes mettent à la disposition du grand public, une recherche par mots clés sur le web. Plusieurs outils commerciaux existent (Mediasite, 2000; Virage, 2000) qui permettent l'annotation des vidéos. Plusieurs grands fournisseurs de contenu vidéo (ABCNews1, Metro Goldwyn Mayer2, CNN3, …) les utilisent pour mettre en ligne leurs émissions. Ces outils permettent le découpage semi-automatique de la vidéo en plans, et l’affectation manuelle des mots clés aux plans ainsi délimités. Il s'agit d'extraire des caractéristiques textuelles (mots clés) des documents audiovisuels, les organiser dans des bases de données dans lesquels la recherche va s'effectuer. 1 http://abcnews.go.com/ (2003) 2 http://www.mgm.com/ (2003) 3 http://cgi.cnn.com/cgi-bin/virage (2003)
La présentation des résultats est également essentielle. (Celentano, Gaggi et al., 2002) proposent un langage semblable à SQL permettant la recherche dans des documents multimédias annotés et la mise en forme des résultats spatialement et temporellement cohérents. La recherche se porte donc dans ces cas uniquement sur des mots clés. Il existe des travaux portant sur la recherche de documents audiovisuels en se basant sur des requêtes non textuelles. (Thuong, 1999), (Dagtas and Ghafoor, 1999) présentent des systèmes qui permettent la recherche d'objets dans une vidéo selon leurs relations spatio-temporelles. (Zhong, 2000) a élaboré des interfaces pour une recherche multimodale, c'est à dire fournissant la possibilité de chercher des documents multimédias, dans une base de journaux télévisés par exemple selon l'endroit du reportage, sur une carte du monde. (Li, Gupta et al., 2000) travaillent sur un système de création de résumés personnalisés en images de vidéos en se basant sur des résultats de recherche. Pour pallier le fossé sémantique nous avons mis en place différentes stratégies, comme la création d'outils pour définir des métaphores permettant de représenter des caractéristiques numériques (Costabile, Malerba et al., 1998; Xiong and Donath, 1999). 4. Cadre du travail de recherche Nos travaux de recherche se déroulent dans le cadre du projet RECIS soutenu par le Réseau National de Recherche en Télécommunications. Le projet se fait en commun avec France Télécom Recherche et Développement, le LIRIS (ex Laboratoire d'Ingénierie des Systèmes d'Information (LISI)) et le projet IMEDIA de l’INRIA. L'objectif de ce projet est d'étudier et de développer des outils permettant d’enrichir les services de recherche et d’accès au contenu multimédia. Il s'agit d'élaborer un système qui permette à l'utilisateur d'exprimer facilement et précisément une requête, un système qui trouve rapidement des résultats pertinents, puis propose des moyens pour raffiner la requête et qui mette à disposition de l’utilisateur plusieurs méthodes de visualisation des résultats. Les travaux de notre équipe portent sur l’annotation de documents et sur l’étude de l’aide à l’utilisateur dans la mise en place et l’exploitation de ces annotations. Nous avons en effet identifié trois tâches principales qui se retrouvent dans la plupart des tâches d’un utilisateur : l’annotation d’un fragment de document, la recherche de fragments de document, la navigation entre fragments de documents. Nous chercherons donc à mettre en place une modélisation des connaissances expliquant l’expérience utile pour assister ces trois tâches génériques dans le contexte des tâches réelles de l’utilisateur (nos résultats sur ce dernier point sont publiés dans (Egyed-Zs., Mille et al., 2002; Egyed-Zs., Mille et al., 2003) ).
5. Présentation du modèle théorique Dans cette section, nous présentons le modèle théorique (Modèle Etendu des Strates Interconnectées par les Annotations (E-SIA) (Prié, 1999; Egyed-Zs., Prié et al., 2000; Bénel, Egyed-Zs. et al., 2001) qui nous permet de représenter et d’utiliser les annotations. SD Premier Secours Rcont Rcont Rcont ReSD ReSD RDA: Secouriste RDA: Opération RDA: Victime Rrep Rrep Rr Rrep Eléments : DA: Opération DA: Secouriste DA: Victime SD: SD schéma de description Tout AD RDA représentant de dimension d’analyse Armstrong Lt. Tonton Massage Voisin AD DA dimension d’analyse Virenque AA EAA élément d’annotation abstrait Vérification Dégagement Rr Rif EA EA élément d’annotation Rif Rif Rif Rr Rif UA UAV unitée audiovisuelle Dégagement Re Relations : Rr Lt. Tonton Re Massage Re • Ra: relation d’annotation Re Re Rr Virenque • Re : relation élémentaire Vérification Re • Rif : relation d’inscription dans le flux Ra Ra Ra Ra • ... Ra Opérations Secouristes Graphe orienté Victimes connecté étiqueté t0 Le flux vidéo (cyclistes - secourisme) tn Figure 1 Exemple de graphe des différentes « couches » de l’annotation dans E- SIA (document vidéo sur le secourisme) Dans E-SIA (Figure 1), les documents sont décrits par des annotations élément d’annotation (EA) tirées d’un vocabulaire utilisable pour l’annotation. Les termes, éléments d’annotation abstraits (EAA) constituant ce vocabulaire peuvent être regroupés dans des dimensions d’analyse (DA) formant ainsi des ensembles utiles dans le cadre d’une tâche d’annotation donnée. Un terme (EAA) peut être instancié par plusieurs éléments d’annotation(EA) pour annoter plusieurs fragments de documents. Les éléments d’annotation (EA) annotent des fragments de documents matérialisés dans le graphe par des unités audiovisuelles (UAV). Ils peuvent être contextualisés en les mettant en relation (au sein même de l’annotation) à l’aide d’une relation élémentaire (Re). Sur l’exemple de la Figure 1 des Re explicitent le fait que ce soit le Lt. Tonton qui dégage Virenque. L’ensemble des éléments forme un graphe connexe orienté étiqueté.
Une tâche d’annotation est partiellement décrite à l’aide d’une structure appelée schéma de description (SD). Cette structure permet d’imposer un cadre plus ou moins contraignant à l’annotation en précisant quelles sont les dimensions d’analyse à utiliser, ainsi que les relations à mettre en place entre les descripteurs posés en instanciant des termes (EAA) de ces dimensions d’analyse. Nous parlons d’annotation «selon un schéma de description». Pour permettre la modélisation des relations à créer lors d’une annotation selon un schéma de description nous introduisons des nœuds de type représentant de dimension d’analyse (RDA). Les schémas de description permettent de documenter et de contraindre la façon de décrire un document. Ce sont également les schémas de description qui ensemble avec les dimensions d’analyse permettent de construire des structures hiérarchiques dans les termes. Ces hiérarchies ne sont néanmoins pas valables de manière globale sur le vocabulaire. En pratique lors d’une annotation, l’utilisateur choisit un schéma de description, repère dans le document à annoter les fragments intéressants et les annote en instanciant les termes (EAA-s) contenus dans les dimensions d’analyse composant le schéma de description. Dans notre exemple, le SD «premier secours» a été utilisé pour annoter. Le choix du schéma de description adapté guidé par le type de document à annoter et les connaissances de l’utilisateur. Nous étudions la mise en place d’un assistant de recommandation de schéma de description à partir des premières annotations posées selon un schéma générique. DA: Opération Lt Tonton * * * * N1 Figure 2 Graphe potentiel représentant la requête : « Trouver les séquences où Lt.Tonton effectue une opération » Pour exploiter les annotations nous utilisons des Graphes Potentiels (GP), constituant l’expression des requêtes dans E-SIA. Le graphe potentiel est décrit par des nœuds typés (SD, DA, EAA, EA, …) qui correspondent à des nœuds du graphe global. Une partie de ces sommets peuvent être rendus génériques en laissant certains attributs non renseignés ; ils peuvent alors correspondre à plusieurs nœuds
du graphe global. Pour traduire la requête « trouver les séquences vidéo où Lt. Tonton effectue une opération» nous construisons le graphe potentiel de la Figure 2. Les nœuds de départ sont le terme EAA «Lt.Tonton» et la dimension d’analyse DA «Opération». Les nœuds étiquetés par un «*» sont des nœuds génériques que nous allons essayer d'instancier. Nous leur cherchons des correspondances dans le graphe global. Le nœud représentant l’unité audiovisuelle cherchée est étiqueté N1. Ce nœud est un nœud caractérisé, représentant l’objet de notre requête. Une fois la requête traduite en graphe potentiel, nous recherchons les sous- graphes dans le graphe global qui lui sont isomorphes. L’instanciation du GP dans le graphe global utilise un algorithme de multi-propagation. Un résultat est illustré sur la Figure 1 (le sous graphe marqué par la forme foncée), l’UAV cherchée, correspondant au nœud N1 du graphe potentiel est celle annotée par l’EA «Dégagement». Il y a deux autres fragments correspondant à la requête : l’UAV annotée par l’élément d’annotation EA «Vérification» et celle annotée par l’EA «Massage». Dans un graphe potentiel nous pouvons utiliser des relations qui ne sont pas explicitées dans le graphe global mais qui sont calculables pendant la recherche de sous-graphes isomorphes. Ces relations sont les relations temporelles, comme : pendant, avant, après, … (toutes les relations d'Allen (Allen, 1983)) et peuvent relier deux éléments d'annotation. Les relations temporelles se réfèrent aux unités audiovisuelles annotées par l'élément d'annotation. L'algorithme de recherche permet de trouver des sous-graphes isomorphes au graphe représentant la requête dans le graphe global des annotations. C'est un algorithme any-time, c'est à dire qu'il fournit les résultats trouvés avant de se terminer, dès qu'un résultat est complet. L'idée de base est la multi-propagation à partir des nœuds connus. Sur la Figure 2, les nœuds EAA «Lt.Tonton» et DA «Opération» sont de tels nœuds connus. Les nœuds génériques du graphe potentiel sont mis en correspondance avec des nœuds du graphe global en respectant les relations et les types de nœuds, ainsi que des critères de similarité entre les nœuds. En effet chaque nœud générique contient une liste de fonctions de comparaison qui permet de comparer une partie de ses attributs aux attributs de même type des nœuds du graphe global. L'algorithme de recherche de sous-graphe isomorphe à un graphe potentiel est détaillé dans le papier : (Prié, Limane et al., 2000). Le temps d'exécution est proportionnel à la taille du graphe potentiel et non à la taille du graphe global, ce qui le rend applicable à des annotations de grande taille. En connaissant les schémas de description utilisés pour annoter un ensemble de documents, l’utilisateur peut construire des requêtes plus précises. Des interfaces homme-machine très variées peuvent être mises en place pour la gestion des annotations et la création des requêtes. En effet, même pour un seul utilisateur la création et la gestion d'un vocabulaire structuré d'annotation est une tâche extrêmement difficile. En visualisant la vidéo, l'utilisateur cherche des mots avec lesquels il peut l'annoter. Si ces mots n'existent
pas dans le vocabulaire déjà mis en place, il faut qu'ils puissent être créés. Il regroupe ensuite ses mots en ensembles, matérialisés dans le modèle par les dimensions d'analyse. Ces dimensions d'analyse contiennent des mots qui ont un rôle similaire pour un utilisateur ou un groupe d'utilisateurs dans le cadre d'une annotation donnée. Les dimensions d'analyse sont organisées en schémas de description. L'annotation est basée sur ces schémas. 6. Le prototype Les objectifs du prototype sont de démontrer la faisabilité des modèles théoriques développés et d’illustrer les techniques mises au point par les différents partenaires du projet RECIS. Dans le cadre de ce projet, France Télécom Recherche et Développement a apporté des techniques de traitement de vidéos, INRIA a fourni des solutions concernant l’indexation et la recherche des images. Le LIRIS, notre laboratoire, a été chargé des aspects de structuration et exploitation des descripteurs de documents ainsi que de la capitalisation et réutilisation de l’expérience de l’utilisateur. Nous étions également les maîtres d’œuvres du prototype, France Télécom Recherche et Développement ayant le rôle du client industriel. L’un des objectifs du projet RECIS, qui est d’offrir une interface Homme- Machine multimédia, se traduit par la nécessité de concevoir un formalisme commun de description d’une requête utilisateur et des séquences audiovisuelles. Il s’agit donc de concevoir et valider un modèle de description de haut niveau d’abstraction adapté d’une part à une séquence audiovisuelle et, d’autre part, à une requête utilisateur. Dans ce but, les recherches se sont orientées selon les axes suivants : - Elaboration de nouvelles interfaces de dialogue et perfectionnement de l’aide à l’utilisateur : celui-ci doit pouvoir formuler facilement ses requêtes et se promener de manière interactive dans des séquences audiovisuelles. Les formulaires de requêtes qui seront définis devront être compréhensibles par le grand public. L’aide à l’utilisateur sera améliorée au moyen des techniques de bouclage de pertinence et de raisonnement à partir de cas. - Conception des outils permettant de traduire les requêtes sous une forme exploitable par le processus de recherche. - Extraction automatique des descripteurs de séquences audiovisuelles : descripteurs du son, d’images et de la vidéo. - Conception des schémas de description spécifiques aux données audio et vidéo. - Etude des processus de recherche dans les informations audiovisuelles, définition des mesures de similarité et de distance pour la mise en correspondance des images et du son.
6.1. Architecture Prenant en compte ces contraintes nous avons développé un prototype qui se compose de plusieurs modules. Les différents modules peuvent se trouver sur des ordinateurs distincts. L’architecture globale du prototype est présentée dans la Figure 3. Le démonstrateur est composé de 3 grandes parties : - l’application centrale, - les interfaces homme machine, - les assistants d’annotation. Les modules communiquent entre eux à l’aide d’un protocole basé sur XML utilisant des connexions http. Au sein de chaque module il y a des sous-modules de traitement ainsi que des sous-modules de communication. Assistants automatiques d ’analyse d ’images, de vidéos et du son Web Server Requêtes http CGI scripts (CGI - XML) Vidéos Application centrale Images Base de Interface de données contrôle locale A D: Operat ion DS :Accident AD: Victim AD: Fireman AD: F irem an AD :Vic tim A ll Cycl ist Neighbor Th esauru s AD: Ope ra tion Fire Massage cook Lt. Tonton Freeing Verification Lt . Tont on Freei ng Fire Massage Verif icat ion cook Navigateur Annotations Serveur Client Figure 3 Architecture globale du prototype Sur le serveur le graphe des annotations est représenté en XML et cette représentation est stockée dans une base de données. Nous avons présenté nos travaux sur la représentation de graphes en XML et des bases de données dans (Egyed-Zs., 1999; Egyed-Zs., Prié et al., 1999; Egyed-Zs., Prié et al., 1999; Egyed- Zs., Prié et al., 2000; Donnet, 2002).
6.2. Interfaces homme machine Les interfaces homme machine sont pour la plupart développées pour pouvoir s'exécuter sur des clients par le Web. Ce sont des pages html générées dynamiquement ainsi que des applets java. Nous avons également mis en place une interface de contrôle coté serveur en C++ pour superviser l'activité de l'application centrale. Il n'y a pas de standards établis dans la littérature concernant les interfaces homme machine pour la manipulation de documents audiovisuels. Nous avons créé plusieurs interfaces de différents styles et nous en avons inclus certains dans le prototype. L'interface "experte" permet aussi bien l'annotation des vidéos que l'exploration des annotations posées. Pour annoter, l'utilisateur doit choisir un schéma de description, sélectionner les termes qui en font partie et les attacher à des fragments de la vidéo. Cette annotation est illustrée sur la Figure 5. Le schéma choisi par l'utilisateur est affiché en permanence (1) ainsi que la liste des dimensions d'analyse contenues dans le schéma (2). Une dimension d'analyse étant choisie, la liste de termes qui la composent apparaît (3). Ces termes peuvent être utilisés pour annoter un fragment de la vidéo spécifiée grâce au curseur (4)(5). Les annotations créées apparaissent sous la forme d'un graphe (6). Sur l'interface de contrôle, coté serveur il est possible d'annoter sans la contrainte des schémas de description, cette utilisation est néanmoins peu recommandée. Figure 4 Une interface d'annotation spécialisée
Nous avons développé également des interfaces spécialisées, liées à des schémas de description, permettant d'annoter une vidéo selon un schéma donné. L'exemple de la Figure 4 illustre une interface en html pour le schéma de description "Premier secours", schéma utilisé dans l'exemple de la Figure 5 également. Cette interface cache la complexité du modèle, l'utilisateur ne voit pas de graphes, seulement des menus déroulants dans lesquels il choisit les termes qu'il souhaite associer au document. Une fois les termes choisis, l'utilisateur appuie sur le bouton Envoyer déclenchant l'appel d'un script cgi qui crée les annotations et les intègre au graphe global sur le serveur, de la même manière que pour celles créées à l'aide de l'interface "experte" 6 1 5 2 3 4 Figure 5 L'interface d'annotation "experte" L'interface d'exploration des annotations est composée d'un cadre affichant le graphe et un autre contenant une vue temporelle des annotations comme illustré sur la Figure 6. En cliquant sur un nœud du graphe, ses voisins directs s'affichent permettant la découverte de proche en proche et dans le sens souhaité du graphe. L'interface "expert" permet de découvrir le graphe des annotations dans toute sa complexité. Nous avons également mis en place des interfaces plus simples basées sur des pages html dynamiques pour parcourir les annotations.
Figure 6. Interface d'exploration "experte" 7. Conclusion et perspectives Le système présenté dans ce papier est développé dans le cadre d'un projet exploratoire RNRT. C'est une démonstration de faisabilité du modèle d'annotation et d'exploitation de documents audiovisuels E-SIA. Le modèle E-SIA met en place une organisation originale des annotations sous la forme d'un graphe et permet l'annotation et la recherche des documents annotés. Nous avons également mis en place une méthode robuste pour gérer un vocabulaire étendu et utilisé par plusieurs personnes ou plusieurs groupes. En introduisant les dimensions d'analyse et les schémas de description nous laissons une liberté considérable pour annoter tout en permettant de documenter les diverses manières d'annotation. Des utilisateurs tiers peuvent avoir un aperçu rapide sur le vocabulaire et les structures utilisées pour annoter un ensemble de documents, les méta-données utilisées pouvant être calculés et présentés dynamiquement. De cette manière, la construction de requêtes pertinentes devient plus rapide et le raffinement des requêtes plus efficace. Les utilisateurs novices sont libres d'annoter
à leur guise, mais sont assistés au fur et à mesure par le système à s'encadrer dans les canons d'annotation déjà mis en place. De cette manière l'annotation est plus homogène et cohérente ce qui peut poser certes un problème d'ordre philosophique, mais facilite beaucoup l'exploitation de la base de documents annotés. Notre attention se concentre maintenant sur l'opérationnalisation d'un système d'aide intelligente à l'annotation et à la formulation de requêtes basée sur le modèle E-SIA et la capitalisation de l'expérience présentée dans (Egyed-Zs., Mille et al., 2002). Nous continuons le développement du prototype en suivant de très près l'évolution de MPEG7(MPEG, 2000), RDFS(W3C, 2000) et autres standards de description. La création de nouvelles interfaces est également prévue. 8. Bibliographie 1. Allen, J., 1983. Maintaining temporal knowledge about temporal intervals. ACM, 832- 843. 2. Altavista, 2003, (en ligne) Altavista, http://www.altavista.com/ (2003) 3. Bénel, A., E. Egyed-Zs., et al., 2001. Truth in the Digital Library: From Ontological to Hermeneutical Systems. ECDL 2001 European Conference on Research and Advanced Technology for Digital Libraries, Darmstadt (D), Springer-Verlag,366-377. 4. Betaille, H., M. Nanard, et al., 2001. OPALES: An Environnement For Sharing Knowledge Among Experts Working On Multimedia Archives, Museums and the Web, Seattle, WA, 12p. 5. Blei, D. M., A. Y. Ng, et al., 2003. Latent Dirichlet allocation. Journal of Machine Learning Research 3, 993-1022. 6. Celentano, A., O. Gaggi, et al., 2002. Retrieving Consistent Multimedia Presentation Fragments. Workshop on Multimedia Information Systems, Tempe, It, 9. 7. Costabile, M. F., D. Malerba, et al., 1998. Building Metaphors for Supporting User Interaction with Multimedia Databases - A Demonstration. 4th IFIP 2.6 Working Conference on Visual DataBase Systems - VDB 4, L'Aqulia, Italy, 154-160. 8. Dagtas, S. and A. Ghafoor, 1999. Indexing and Retrieval of Video based on Spatial Relation Sequences. ACM Multimedia ‘99, Orlando, FL, 119-123. 9. Donnet, S., 2002, Etude de la persistance de graphes représentés en XML, CNAM, INSA de Lyon, 106p 10. Egyed-Zs., E., 1999, Représentation et exploitation de graphes de description de documents multimédias dans un langage structuré, DEA Informatique de Lyon, INSA Lyon, 30p 11. Egyed-Zs., E., A. Mille, et al., 2003. Club (Trèfle): a use trace model. à paraître dans les actes de ICCBR 03, Trondheim, 15p. 12. Egyed-Zs., E., A. Mille, et al., 2002. Trèfle : un modèle de traces d'utilisation. Ingénierie des Connaissances, Rouen, F, 13p.
13. Egyed-Zs., E., Y. Prié, et al., 1999. Représentation des annotations multimédias dans des langages structurés (XML) et leur exploitation. Journée jeunes chercheurs GDR- PRC I3 et GRACQ, Paris, France, 8p. 14. Egyed-Zs., E., Y. Prié, et al., 1999. Représenter un graphe d’annotations de documents multimédia réparti sur plusieurs sites à l’aide d’un langage dérivé de XML. Journée jeunes chercheurs GDR-PRC I3, Tours, France, 9p. 15. Egyed-Zs., E., Y. Prié, et al., 2000. A graph based audio-visual document annotation and browsing system. RIAO 2000, Paris, France, 1381-1389. 16. Goodrum, A., 2000. Image information retrieval: An overview of current research. Informing Science 3(2): 63-66. 17. Li, F. C., A. Gupta, et al., 2000. Browsing digital video. CHI 2000 conference on Human factors in computing systems, The Hague Netherlands, ACM,169 - 176. 18. Mediasite, 2000, (en ligne) Mediasite, http://www.mediasite.com/. 19. MPEG, 2000, (en ligne) MPEG7, http://ipsi.fraunhofer.de/delite/Projects/MPEG7/ (2003) 20. Naughton, J., D. DeWitt, et al., 2000, (en ligne) NIAGARA Query Engine, http://www.cs.wisc.edu/niagara/ (2003) 21. Prié, Y., 1999, Modélisation de documents audiovisuels en Strates Interconnectées par les annotations pour l'exploitation contextuelle, Thèse Informatique, INSA-Lyon, 270p 22. Prié, Y., T. Limane, et al., 2000. Isomorphisme de sous-graphe pour la recherche d'information audiovisuelle contextuelle. 12ème congrès Reconnaissance de Formes et Intelligence Artificielle, RFIA2000, Paris, FR, 277-286. 23. Schreiber, A. T., B. Dubbeldam, et al., 2001. Ontology-based photo annotation. IEEE Intelligent Systems May/June 2001, 2-10. 24. Soares, L. F., R. F. Rodrigues, et al., 2000. Modeling, authoring and formatting hypermedia documents in the HyperProp system. Multimedia Systems 8, 118-134. 25. Thuong, T., 1999, Description de la structure des vidéos pour les applications multimédias, DEA Imagerie Vision et Robotique (IVR) Grenoble, 26. Virage, 2000, (en ligne) Virage, http://www.virage.com (2003) 27. W3C, 2000, Resource Description Framework (RDF), (en ligne) http://www.w3.org/RDF/ (2003) 28. Webseek, 2002, (en ligne) Webseek, http://www.ctr.columbia.edu/webseek/ (2002) 29. Xiong, R. and J. Donath, 1999. PeopleGarden: Creating Data Portraits for Users. ACM UIST ’99, Asheville, NC, USA, ACM,37-45. 30. Zhong, Y., 2000, Apply Multimodal Search and Relevance Feedback In a Digital Video Library (MsC thesis), CS, Carnegie Mellon University, 40p.
Vous pouvez aussi lire