E-SIA : un système d'annotation et de recherche de documents audiovisuels

La page est créée Yannis Barbe
 
CONTINUER À LIRE
E-SIA : un système d'annotation et de recherche de documents audiovisuels
E-SIA : un système d'annotation et de
recherche de documents audiovisuels
Elöd EGYED-ZSIGMOND

LIRIS, Bâtiment Blaise Pascal, 20 avenue Albert Einstein
69621 VILLEURBANNE CEDEX, http://lisi.insa-lyon.fr
elod.egyed-zsigmond@insa-lyon.fr
[Catégorie Jeunes Chercheurs]

RÉSUMÉ.  L'annotation et la recherche de documents audiovisuels sont des tâches complexes.
Dans ce papier nous présentons un modèle d'organisation des annotations dans un graphe
connexe orienté étiqueté ainsi que des méthodes de recherche et d'exploration basées sur
cette structure. Le graphe contient aussi bien les annotations elles-mêmes que le
vocabulaire utilisé pour annoter, des éléments qui permettent de structurer ce vocabulaire
et des représentants des fragments de documents annotés. Nous décrivons également le
prototype client serveur développé dans le cadre d'un projet RNRT en partenariat avec
France Télécom R&D et INRIA pour démontrer la faisabilité de nos théories.
ABSTRACT. Audio-visual document annotation and search are complex tasks. In his paper we
present an annotation model, based on a connected, oriented labeled graph and a set of
search and exploration methods based on this graph structure. The graph contains as well
the proper annotations as the vocabulary used to annotate, the vocabulary structuring
elements and the annotated document units. We also developed as a part of a National
Research (RNRT) project, together with France Télécom R&D and INRIA a prototype
application in order to prove the feasibility of our theories.
MOTS-CLÉS :   Annotation, vidéo, graphe, recherche de documents audiovisuels, IHM
KEYWORDS:   annotation, video, .graph, audio-visual document search, CHI
1.   Introduction

    Dans ce papier, nous étudierons les modalités de description de données
audiovisuelles. En effet, l'organisation et l'exploitation de ces descripteurs sont
fondamentales pour la recherche dans ce type de données. Il est également
important de proposer des méthodes simples aux utilisateurs, qui exploitent les
documents, de découvrir la manière dont ceux-ci ont été annotés. De cette manière
les requêtes peuvent être mieux ciblées. Ils arriveront ainsi à de bons résultats en
moins d’étapes et donc en moins de temps.
    Il est difficile de décrire ce que nous aimerions trouver. A partir, par exemple
d'une image, d'une mélodie, d'un dialogue qu'il a en tête, l'utilisateur voudrait
retrouver le fragment de vidéo qui les contient. Pour faire comprendre au système
son souhait, celui-ci doit proposer des interfaces de création de requêtes riches,
multimodales, personnalisables. En effet il est bien différent d'entrer des mots clés
dans un champ d’édition, de donner des descripteurs numériques, de dessiner une
esquisse ou bien de siffler une mélodie dans un microphone pour construire une
requête. Il est utile également, dans ce cas, de savoir comment les documents dans
lesquels la recherche s'effectue ont été annotés et comment ces annotations sont
organisées. Si l’utilisateur connaît la manière dont l’annotation a été réalisée, il
peut plus facilement poser des requêtes pertinentes.
    Aussi bien la recherche, que l'annotation passent par un processus de
description. Dans le premier cas nous décrivons ce que nous aimerions trouver,
dans le second la description porte sur ce que nous observons. Il est important que
la description des documents audiovisuels soit homogène. Dans le cadre d’une
émission sportive par exemple, si les participants à une course cycliste sont
désignés parfois par les mots clés : cyclistes, coureurs ou encore concurrents, il
serait beaucoup plus complexe de formuler une requête retrouvant toutes leurs
occurrences que s’ils étaient identifiés toujours par le même mot clé.
    Les tâches de recherche et d'annotation sont complexes. La complexité de ces
tâches provient de la très grande variabilité potentielle des points de vues aussi bien
pour décrire initialement (à l’archivage) un document que pour le décrire par la
suite (pour une recherche, une analyse,…). Les descripteurs sont potentiellement
infinis ce qui rend extrêmement difficile pour un utilisateur d’être cohérent et
homogène avec d’autres annotations. Il est donc pertinent de mettre en place des
assistants informatiques qui facilitent les tâches de recherche et d’annotation et
contribuent au bon déroulement des interactions homme-machine.
    Pour résumer la problématique : nous voulons enrichir les services de recherche
et d’accès à l’information multimédia. Pour cela nous étudierons les méthodes de
description et d'exploitation de ces informations ainsi que l'assistance aux
utilisateurs pour effectuer cette exploitation et description.
2.   Un exemple introductif

   Il s'agit d'élaborer un système qui permette à l'utilisateur d'exprimer facilement
et précisément sa requête, un système qui trouve rapidement des résultats
pertinents, propose des moyens pour raffiner la requête et qui mette à disposition
plusieurs méthodes de visualisation des résultats.
    Imaginons par exemple un réalisateur d'émissions de télévision qui voudrait
faire une rétrospective des chutes de Virenque lors de ses différentes courses
cyclistes. Il veut donc retrouver tous les fragments vidéo contenant ces chutes.
Supposons que les archives de la chaîne de télévision soient numériques et qu'il
existe un système de recherche dans ces archives. Pour effectuer sa recherche il
peut se baser sur des mots clés : vélo, Virenque, etc. et sur des images exemples :
un cycliste quelconque, un cycliste qui tombe, le portrait de Virenque, etc.
Eventuellement il peut préciser le type d'émission dans lequel la recherche doit être
menée (d'émissions de sport ou journaux télévisés dans notre cas). Après avoir
effectué une première recherche par mots clés, le système lui retourne une centaine
de vidéos, qui se révèlent être des extraits représentant les principales courses
cyclistes (Tour de France, Tour d’Espagne, les grands classiques, …) couvertes par
la chaîne, ainsi que les interviews accordées par Virenque. Sur la lecture de la
description associée à une séquence du Tour de France, il note que le mot clé
course est assigné. Il reformule alors sa requête en y rajoutant ce mot clé pour
éliminer les interviews. Comme l'ensemble des résultats est encore trop volumineux
(représente une centaine d'heures à regarder), il raffine sa requête en la complétant
avec une image exemple. Cette image représente un cycliste qui tombe et réduit
l'ensemble des vidéos trouvées à des séquences qui contiennent des images
similaires à celle donnée comme exemple. Le nombre de résultats se réduit à une
vingtaine, parmi lesquels certaines séquences se résument à des images, mais
d'autres sont encore beaucoup trop longues. En dernière étape il précise que parmi
les résultats ainsi trouvés il lui faut seulement les plans d'une durée inférieure à
15s.
    Lors de ses recherches le réalisateur d’émission a utilisé ses connaissances du
domaine des courses cyclistes pour préciser les premiers éléments de sa requête. Il a
ensuite utilisé les possibilités offertes par le système et le caractère des résultats
intermédiaires pour raffiner sa demande jusqu’à ce qu’il aboutisse à un résultat
suffisamment précis.
   Dans notre exemple l’utilisateur construit sa requête à partir des mots clés et
des images exemples.
   Les mots clés sont pertinents si lors de l'archivage, les séquences audiovisuelles
ont été effectivement annotées par ces mêmes mots. Encore faut-il que les mots clés
désignent des séquences pertinentes et limitées à ce qui est recherché et non par
exemple la vidéo entière, car ce serait trop imprécis et nécessiterait trop de temps
pour effectivement localiser la bonne séquence. Il est donc important que les
annotations soient précises, bien organisées, homogènes et que le directeur
d'émission puisse trouver facilement les mots clés qui correspondent à sa requête.
   Dans notre illustration, si le réalisateur d'émission avait la possibilité de donner
en même temps que l'image exemple, les mots clés, et préciser qu'il veut des plans
de durées courtes, cela lui aurait économisé du temps. Le système aurait d'ailleurs
pu classer les résultats automatiquement en scènes de courses et interviews en
proposant des raffinements de requêtes pour les départager. Les services proposés
par le système pouvaient être plus riches.
   Le système que nous présentons a pour but de faciliter la découverte des canons
d’annotation utilisés pour permettre la construction de requêtes précises. Il fournit
également un cadre pour une assistance basée sur la réutilisation de l’expérience
pour l’annotation et la recherche de documents.

3.   Travaux apparentés

    Plusieurs systèmes traitent le problème de l'annotation et de la recherche des
documents audiovisuels. La plupart utilisent des outils automatiques pour décrire
les documents (Zhong, 2000; Blei, Ng et al., 2003). Des projets comme OPALES
(Betaille, Nanard et al., 2001), MIA (Schreiber, Dubbeldam et al., 2001),
HyperProp (Soares, Rodrigues et al., 2000) permettent une annotation manuelle, en
utilisant des vocabulaires structurés. Dans ces cas les annotations sont seulement
textuelles. Les quelques moteurs de recherche disponibles en ligne (Naughton,
DeWitt et al., 2000; Virage, 2000; Webseek, 2002) regroupent les documents dans
des catégories identifiées par des mots clés. Très peu de travaux (Goodrum, 2000)
traitent la recherche selon des critères multimédias, permettant de formuler des
requêtes composées à la fois de mots clés, images ou sons exemples.
   La recherche des documents audiovisuels (vidéos, musiques) se fait
actuellement essentiellement par des mots clés (Mediasite, 2000; Webseek, 2002;
Altavista, 2003). Ces systèmes mettent à la disposition du grand public, une
recherche par mots clés sur le web.
    Plusieurs outils commerciaux existent (Mediasite, 2000; Virage, 2000) qui
permettent l'annotation des vidéos. Plusieurs grands fournisseurs de contenu vidéo
(ABCNews1, Metro Goldwyn Mayer2, CNN3, …) les utilisent pour mettre en ligne
leurs émissions. Ces outils permettent le découpage semi-automatique de la vidéo
en plans, et l’affectation manuelle des mots clés aux plans ainsi délimités. Il s'agit
d'extraire des caractéristiques textuelles (mots clés) des documents audiovisuels, les
organiser dans des bases de données dans lesquels la recherche va s'effectuer.

1
  http://abcnews.go.com/ (2003)
2
  http://www.mgm.com/ (2003)
3
  http://cgi.cnn.com/cgi-bin/virage (2003)
La présentation des résultats est également essentielle. (Celentano, Gaggi et al.,
2002) proposent un langage semblable à SQL permettant la recherche dans des
documents multimédias annotés et la mise en forme des résultats spatialement et
temporellement cohérents. La recherche se porte donc dans ces cas uniquement sur
des mots clés.
    Il existe des travaux portant sur la recherche de documents audiovisuels en se
basant sur des requêtes non textuelles. (Thuong, 1999), (Dagtas and Ghafoor,
1999) présentent des systèmes qui permettent la recherche d'objets dans une vidéo
selon leurs relations spatio-temporelles. (Zhong, 2000) a élaboré des interfaces pour
une recherche multimodale, c'est à dire fournissant la possibilité de chercher des
documents multimédias, dans une base de journaux télévisés par exemple selon
l'endroit du reportage, sur une carte du monde. (Li, Gupta et al., 2000) travaillent
sur un système de création de résumés personnalisés en images de vidéos en se
basant sur des résultats de recherche. Pour pallier le fossé sémantique nous avons
mis en place différentes stratégies, comme la création d'outils pour définir des
métaphores permettant de représenter des caractéristiques numériques (Costabile,
Malerba et al., 1998; Xiong and Donath, 1999).

4.   Cadre du travail de recherche

    Nos travaux de recherche se déroulent dans le cadre du projet RECIS soutenu
par le Réseau National de Recherche en Télécommunications. Le projet se fait en
commun avec France Télécom Recherche et Développement, le LIRIS (ex
Laboratoire d'Ingénierie des Systèmes d'Information (LISI)) et le projet IMEDIA de
l’INRIA.
    L'objectif de ce projet est d'étudier et de développer des outils permettant
d’enrichir les services de recherche et d’accès au contenu multimédia. Il s'agit
d'élaborer un système qui permette à l'utilisateur d'exprimer facilement et
précisément une requête, un système qui trouve rapidement des résultats pertinents,
puis propose des moyens pour raffiner la requête et qui mette à disposition de
l’utilisateur plusieurs méthodes de visualisation des résultats.
   Les travaux de notre équipe portent sur l’annotation de documents et sur l’étude
de l’aide à l’utilisateur dans la mise en place et l’exploitation de ces annotations.
Nous avons en effet identifié trois tâches principales qui se retrouvent dans la
plupart des tâches d’un utilisateur : l’annotation d’un fragment de document, la
recherche de fragments de document, la navigation entre fragments de documents.
Nous chercherons donc à mettre en place une modélisation des connaissances
expliquant l’expérience utile pour assister ces trois tâches génériques dans le
contexte des tâches réelles de l’utilisateur (nos résultats sur ce dernier point sont
publiés dans (Egyed-Zs., Mille et al., 2002; Egyed-Zs., Mille et al., 2003) ).
5.        Présentation du modèle théorique

     Dans cette section, nous présentons le modèle théorique (Modèle Etendu des
Strates Interconnectées par les Annotations (E-SIA) (Prié, 1999; Egyed-Zs., Prié et
al., 2000; Bénel, Egyed-Zs. et al., 2001) qui nous permet de représenter et d’utiliser
les annotations.
                                                                                          SD Premier Secours

                                                                                                         Rcont
                                   Rcont                                Rcont
                                 ReSD                                             ReSD
          RDA: Secouriste                        RDA: Opération                                RDA: Victime

                     Rrep
                                                           Rrep
                                                                                   Rr             Rrep                  Eléments :
                                                  DA: Opération
            DA: Secouriste                                                               DA: Victime                     SD:
                                                                                                                          SD     schéma de description

                         Tout                                                                                            AD
                                                                                                                         RDA      représentant de dimension d’analyse
                                            Armstrong
             Lt. Tonton
                                                 Massage
                                                                   Voisin
                                                                                                                         AD
                                                                                                                          DA     dimension d’analyse
                                                                                    Virenque
                                                                                                                         AA
                                                                                                                         EAA    élément d’annotation abstrait
                            Vérification                   Dégagement
     Rr

                                                                  Rif
                                                                                                                          EA
                                                                                                                          EA       élément d’annotation
              Rif
                                 Rif               Rif
                                                         Rr                              Rif                              UA
                                                                                                                          UAV      unitée audiovisuelle
                                                              Dégagement
                                            Re                                                                           Relations :
                                                              Rr
              Lt. Tonton               Re
                                                  Massage
                                                                                    Re
                                                                                                                          • Ra: relation d’annotation
                                                                        Re
                            Re
                                                  Rr                                       Virenque                       • Re : relation élémentaire
                                        Vérification
                                                                   Re                                                     • Rif : relation d’inscription dans le flux
                                                                             Ra
                    Ra
                                                         Ra                                      Ra
                                                                                                                          • ...
                                  Ra

                                                                                                                 Opérations
                                                                                                                 Secouristes         Graphe orienté
                                                                                                                 Victimes           connecté étiqueté

             t0 Le flux vidéo (cyclistes - secourisme) tn

Figure 1 Exemple de graphe des différentes « couches » de l’annotation dans E-
SIA (document vidéo sur le secourisme)

    Dans E-SIA (Figure 1), les documents sont décrits par des annotations élément
d’annotation (EA) tirées d’un vocabulaire utilisable pour l’annotation. Les termes,
éléments d’annotation abstraits (EAA) constituant ce vocabulaire peuvent être
regroupés dans des dimensions d’analyse (DA) formant ainsi des ensembles utiles
dans le cadre d’une tâche d’annotation donnée. Un terme (EAA) peut être instancié
par plusieurs éléments d’annotation(EA) pour annoter plusieurs fragments de
documents. Les éléments d’annotation (EA) annotent des fragments de documents
matérialisés dans le graphe par des unités audiovisuelles (UAV). Ils peuvent être
contextualisés en les mettant en relation (au sein même de l’annotation) à l’aide
d’une relation élémentaire (Re). Sur l’exemple de la Figure 1 des Re explicitent le
fait que ce soit le Lt. Tonton qui dégage Virenque. L’ensemble des éléments forme
un graphe connexe orienté étiqueté.
Une tâche d’annotation est partiellement décrite à l’aide d’une structure appelée
schéma de description (SD). Cette structure permet d’imposer un cadre plus ou
moins contraignant à l’annotation en précisant quelles sont les dimensions
d’analyse à utiliser, ainsi que les relations à mettre en place entre les descripteurs
posés en instanciant des termes (EAA) de ces dimensions d’analyse. Nous parlons
d’annotation «selon un schéma de description». Pour permettre la modélisation des
relations à créer lors d’une annotation selon un schéma de description nous
introduisons des nœuds de type représentant de dimension d’analyse (RDA). Les
schémas de description permettent de documenter et de contraindre la façon de
décrire un document. Ce sont également les schémas de description qui ensemble
avec les dimensions d’analyse permettent de construire des structures hiérarchiques
dans les termes. Ces hiérarchies ne sont néanmoins pas valables de manière globale
sur le vocabulaire.
    En pratique lors d’une annotation, l’utilisateur choisit un schéma de
description, repère dans le document à annoter les fragments intéressants et les
annote en instanciant les termes (EAA-s) contenus dans les dimensions d’analyse
composant le schéma de description. Dans notre exemple, le SD «premier secours»
a été utilisé pour annoter.
    Le choix du schéma de description adapté guidé par le type de document à
annoter et les connaissances de l’utilisateur. Nous étudions la mise en place d’un
assistant de recommandation de schéma de description à partir des premières
annotations posées selon un schéma générique.

                                          DA: Opération

                             Lt Tonton
                                              *

                                *
                                              *

                                              *       N1

Figure 2 Graphe potentiel représentant la requête : « Trouver les séquences où
Lt.Tonton effectue une opération »

    Pour exploiter les annotations nous utilisons des Graphes Potentiels (GP),
constituant l’expression des requêtes dans E-SIA. Le graphe potentiel est décrit par
des nœuds typés (SD, DA, EAA, EA, …) qui correspondent à des nœuds du graphe
global. Une partie de ces sommets peuvent être rendus génériques en laissant
certains attributs non renseignés ; ils peuvent alors correspondre à plusieurs nœuds
du graphe global. Pour traduire la requête « trouver les séquences vidéo où Lt.
Tonton effectue une opération» nous construisons le graphe potentiel de la Figure
2. Les nœuds de départ sont le terme EAA «Lt.Tonton» et la dimension d’analyse
DA «Opération». Les nœuds étiquetés par un «*» sont des nœuds génériques que
nous allons essayer d'instancier. Nous leur cherchons des correspondances dans le
graphe global. Le nœud représentant l’unité audiovisuelle cherchée est étiqueté
N1. Ce nœud est un nœud caractérisé, représentant l’objet de notre requête.
    Une fois la requête traduite en graphe potentiel, nous recherchons les sous-
graphes dans le graphe global qui lui sont isomorphes. L’instanciation du GP dans
le graphe global utilise un algorithme de multi-propagation. Un résultat est illustré
sur la Figure 1 (le sous graphe marqué par la forme foncée), l’UAV cherchée,
correspondant au nœud N1 du graphe potentiel est celle annotée par l’EA
«Dégagement». Il y a deux autres fragments correspondant à la requête : l’UAV
annotée par l’élément d’annotation EA «Vérification» et celle annotée par l’EA
«Massage».
    Dans un graphe potentiel nous pouvons utiliser des relations qui ne sont pas
explicitées dans le graphe global mais qui sont calculables pendant la recherche de
sous-graphes isomorphes. Ces relations sont les relations temporelles, comme :
pendant, avant, après, … (toutes les relations d'Allen (Allen, 1983)) et peuvent
relier deux éléments d'annotation. Les relations temporelles se réfèrent aux unités
audiovisuelles annotées par l'élément d'annotation.
    L'algorithme de recherche permet de trouver des sous-graphes isomorphes au
graphe représentant la requête dans le graphe global des annotations. C'est un
algorithme any-time, c'est à dire qu'il fournit les résultats trouvés avant de se
terminer, dès qu'un résultat est complet. L'idée de base est la multi-propagation à
partir des nœuds connus. Sur la Figure 2, les nœuds EAA «Lt.Tonton» et DA
«Opération» sont de tels nœuds connus. Les nœuds génériques du graphe potentiel
sont mis en correspondance avec des nœuds du graphe global en respectant les
relations et les types de nœuds, ainsi que des critères de similarité entre les nœuds.
En effet chaque nœud générique contient une liste de fonctions de comparaison qui
permet de comparer une partie de ses attributs aux attributs de même type des
nœuds du graphe global. L'algorithme de recherche de sous-graphe isomorphe à un
graphe potentiel est détaillé dans le papier : (Prié, Limane et al., 2000). Le temps
d'exécution est proportionnel à la taille du graphe potentiel et non à la taille du
graphe global, ce qui le rend applicable à des annotations de grande taille. En
connaissant les schémas de description utilisés pour annoter un ensemble de
documents, l’utilisateur peut construire des requêtes plus précises.
   Des interfaces homme-machine très variées peuvent être mises en place pour la
gestion des annotations et la création des requêtes.
     En effet, même pour un seul utilisateur la création et la gestion d'un vocabulaire
structuré d'annotation est une tâche extrêmement difficile. En visualisant la vidéo,
l'utilisateur cherche des mots avec lesquels il peut l'annoter. Si ces mots n'existent
pas dans le vocabulaire déjà mis en place, il faut qu'ils puissent être créés. Il
regroupe ensuite ses mots en ensembles, matérialisés dans le modèle par les
dimensions d'analyse. Ces dimensions d'analyse contiennent des mots qui ont un
rôle similaire pour un utilisateur ou un groupe d'utilisateurs dans le cadre d'une
annotation donnée. Les dimensions d'analyse sont organisées en schémas de
description. L'annotation est basée sur ces schémas.

6.       Le prototype

    Les objectifs du prototype sont de démontrer la faisabilité des modèles
théoriques développés et d’illustrer les techniques mises au point par les différents
partenaires du projet RECIS. Dans le cadre de ce projet, France Télécom Recherche
et Développement a apporté des techniques de traitement de vidéos, INRIA a fourni
des solutions concernant l’indexation et la recherche des images. Le LIRIS, notre
laboratoire, a été chargé des aspects de structuration et exploitation des descripteurs
de documents ainsi que de la capitalisation et réutilisation de l’expérience de
l’utilisateur. Nous étions également les maîtres d’œuvres du prototype, France
Télécom Recherche et Développement ayant le rôle du client industriel.
   L’un des objectifs du projet RECIS, qui est d’offrir une interface Homme-
Machine multimédia, se traduit par la nécessité de concevoir un formalisme
commun de description d’une requête utilisateur et des séquences audiovisuelles. Il
s’agit donc de concevoir et valider un modèle de description de haut niveau
d’abstraction adapté d’une part à une séquence audiovisuelle et, d’autre part, à une
requête utilisateur.
     Dans ce but, les recherches se sont orientées selon les axes suivants :
     -      Elaboration de nouvelles interfaces de dialogue et perfectionnement de
            l’aide à l’utilisateur : celui-ci doit pouvoir formuler facilement ses requêtes
            et se promener de manière interactive dans des séquences audiovisuelles.
            Les formulaires de requêtes qui seront définis devront être compréhensibles
            par le grand public. L’aide à l’utilisateur sera améliorée au moyen des
            techniques de bouclage de pertinence et de raisonnement à partir de cas.
     -      Conception des outils permettant de traduire les requêtes sous une forme
            exploitable par le processus de recherche.
     -      Extraction automatique des descripteurs de séquences audiovisuelles :
            descripteurs du son, d’images et de la vidéo.
     -      Conception des schémas de description spécifiques aux données audio et
            vidéo.
     -      Etude des processus de recherche dans les informations audiovisuelles,
            définition des mesures de similarité et de distance pour la mise en
            correspondance des images et du son.
6.1. Architecture

   Prenant en compte ces contraintes nous avons développé un prototype qui se
compose de plusieurs modules. Les différents modules peuvent se trouver sur des
ordinateurs distincts. L’architecture globale du prototype est présentée dans la
Figure 3. Le démonstrateur est composé de 3 grandes parties :
-    l’application centrale,
-    les interfaces homme machine,
-    les assistants d’annotation.
    Les modules communiquent entre eux à l’aide d’un protocole basé sur XML
utilisant des connexions http. Au sein de chaque module il y a des sous-modules de
traitement ainsi que des sous-modules de communication.

                                                                                                                                                                    Assistants automatiques
                                                                                                                                                                    d ’analyse d ’images, de
                                                                                                                                                                        vidéos et du son
                                                                                                                                            Web
                                                                                                                                           Server       Requêtes http
                                                                                        CGI scripts
                                                                                                                                                        (CGI - XML)
    Vidéos

                                                                                         Application
                                                                                          centrale

    Images

         Base de                                                                                                                             Interface de
         données                                                                                                                            contrôle locale
                                     A D: Operat ion                                    DS :Accident
                                                             AD: Victim
              AD: Fireman
                                                                                                AD: F irem an                AD :Vic tim

                          A ll
                                          Cycl ist
                                                        Neighbor          Th esauru s                      AD: Ope ra tion
               Fire
                                          Massage                    cook
                       Lt. Tonton
                                                        Freeing
                                 Verification

                      Lt . Tont on                      Freei ng

              Fire
                                             Massage

                                       Verif icat ion
                                                                    cook
                                                                                                                                                                                    Navigateur

             Annotations
                                                                                                                                           Serveur                 Client

                                                                                                 Figure 3 Architecture globale du prototype

    Sur le serveur le graphe des annotations est représenté en XML et cette
représentation est stockée dans une base de données. Nous avons présenté nos
travaux sur la représentation de graphes en XML et des bases de données dans
(Egyed-Zs., 1999; Egyed-Zs., Prié et al., 1999; Egyed-Zs., Prié et al., 1999; Egyed-
Zs., Prié et al., 2000; Donnet, 2002).
6.2. Interfaces homme machine

    Les interfaces homme machine sont pour la plupart développées pour pouvoir
s'exécuter sur des clients par le Web. Ce sont des pages html générées
dynamiquement ainsi que des applets java. Nous avons également mis en place une
interface de contrôle coté serveur en C++ pour superviser l'activité de l'application
centrale.
   Il n'y a pas de standards établis dans la littérature concernant les interfaces
homme machine pour la manipulation de documents audiovisuels. Nous avons créé
plusieurs interfaces de différents styles et nous en avons inclus certains dans le
prototype.
     L'interface "experte" permet aussi bien l'annotation des vidéos que l'exploration
des annotations posées. Pour annoter, l'utilisateur doit choisir un schéma de
description, sélectionner les termes qui en font partie et les attacher à des fragments
de la vidéo. Cette annotation est illustrée sur la Figure 5. Le schéma choisi par
l'utilisateur est affiché en permanence (1) ainsi que la liste des dimensions
d'analyse contenues dans le schéma (2). Une dimension d'analyse étant choisie, la
liste de termes qui la composent apparaît (3). Ces termes peuvent être utilisés pour
annoter un fragment de la vidéo spécifiée grâce au curseur (4)(5). Les annotations
créées apparaissent sous la forme d'un graphe (6).
   Sur l'interface de contrôle, coté serveur il est possible d'annoter sans la
contrainte des schémas de description, cette utilisation est néanmoins peu
recommandée.

                 Figure 4 Une interface d'annotation spécialisée
Nous avons développé également des interfaces spécialisées, liées à des schémas
de description, permettant d'annoter une vidéo selon un schéma donné. L'exemple
de la Figure 4 illustre une interface en html pour le schéma de description "Premier
secours", schéma utilisé dans l'exemple de la Figure 5 également. Cette interface
cache la complexité du modèle, l'utilisateur ne voit pas de graphes, seulement des
menus déroulants dans lesquels il choisit les termes qu'il souhaite associer au
document. Une fois les termes choisis, l'utilisateur appuie sur le bouton Envoyer
déclenchant l'appel d'un script cgi qui crée les annotations et les intègre au graphe
global sur le serveur, de la même manière que pour celles créées à l'aide de
l'interface "experte"

                                                                  6
   1

                                                                               5
                         2

                                               3

                                       4

                    Figure 5 L'interface d'annotation "experte"

   L'interface d'exploration des annotations est composée d'un cadre affichant le
graphe et un autre contenant une vue temporelle des annotations comme illustré sur
la Figure 6. En cliquant sur un nœud du graphe, ses voisins directs s'affichent
permettant la découverte de proche en proche et dans le sens souhaité du graphe.
    L'interface "expert" permet de découvrir le graphe des annotations dans toute sa
complexité. Nous avons également mis en place des interfaces plus simples basées
sur des pages html dynamiques pour parcourir les annotations.
Figure 6. Interface d'exploration "experte"

7.   Conclusion et perspectives

    Le système présenté dans ce papier est développé dans le cadre d'un projet
exploratoire RNRT. C'est une démonstration de faisabilité du modèle d'annotation
et d'exploitation de documents audiovisuels E-SIA. Le modèle E-SIA met en place
une organisation originale des annotations sous la forme d'un graphe et permet
l'annotation et la recherche des documents annotés.
    Nous avons également mis en place une méthode robuste pour gérer un
vocabulaire étendu et utilisé par plusieurs personnes ou plusieurs groupes. En
introduisant les dimensions d'analyse et les schémas de description nous laissons
une liberté considérable pour annoter tout en permettant de documenter les diverses
manières d'annotation. Des utilisateurs tiers peuvent avoir un aperçu rapide sur le
vocabulaire et les structures utilisées pour annoter un ensemble de documents, les
méta-données utilisées pouvant être calculés et présentés dynamiquement. De cette
manière, la construction de requêtes pertinentes devient plus rapide et le
raffinement des requêtes plus efficace. Les utilisateurs novices sont libres d'annoter
à leur guise, mais sont assistés au fur et à mesure par le système à s'encadrer dans
les canons d'annotation déjà mis en place. De cette manière l'annotation est plus
homogène et cohérente ce qui peut poser certes un problème d'ordre philosophique,
mais facilite beaucoup l'exploitation de la base de documents annotés.
    Notre attention se concentre maintenant sur l'opérationnalisation d'un système
d'aide intelligente à l'annotation et à la formulation de requêtes basée sur le modèle
E-SIA et la capitalisation de l'expérience présentée dans (Egyed-Zs., Mille et al.,
2002). Nous continuons le développement du prototype en suivant de très près
l'évolution de MPEG7(MPEG, 2000), RDFS(W3C, 2000) et autres standards de
description. La création de nouvelles interfaces est également prévue.

8.   Bibliographie

1.   Allen, J., 1983. Maintaining temporal knowledge about temporal intervals. ACM, 832-
     843.
2.   Altavista, 2003, (en ligne) Altavista, http://www.altavista.com/ (2003)
3.   Bénel, A., E. Egyed-Zs., et al., 2001. Truth in the Digital Library: From Ontological to
     Hermeneutical Systems. ECDL 2001 European Conference on Research and Advanced
     Technology for Digital Libraries, Darmstadt (D), Springer-Verlag,366-377.
4.   Betaille, H., M. Nanard, et al., 2001. OPALES: An Environnement For Sharing
     Knowledge Among Experts Working On Multimedia Archives, Museums and the Web,
     Seattle, WA, 12p.
5.   Blei, D. M., A. Y. Ng, et al., 2003. Latent Dirichlet allocation. Journal of Machine
     Learning Research 3, 993-1022.
6.   Celentano, A., O. Gaggi, et al., 2002. Retrieving Consistent Multimedia Presentation
     Fragments. Workshop on Multimedia Information Systems, Tempe, It, 9.
7.   Costabile, M. F., D. Malerba, et al., 1998. Building Metaphors for Supporting User
     Interaction with Multimedia Databases - A Demonstration. 4th IFIP 2.6 Working
     Conference on Visual DataBase Systems - VDB 4, L'Aqulia, Italy, 154-160.
8.   Dagtas, S. and A. Ghafoor, 1999. Indexing and Retrieval of Video based on Spatial
     Relation Sequences. ACM Multimedia ‘99, Orlando, FL, 119-123.
9.   Donnet, S., 2002, Etude de la persistance de graphes représentés en XML, CNAM,
     INSA de Lyon, 106p
10. Egyed-Zs., E., 1999, Représentation et exploitation de graphes de description de
    documents multimédias dans un langage structuré, DEA Informatique de Lyon, INSA
    Lyon, 30p
11. Egyed-Zs., E., A. Mille, et al., 2003. Club (Trèfle): a use trace model. à paraître dans
    les actes de ICCBR 03, Trondheim, 15p.
12. Egyed-Zs., E., A. Mille, et al., 2002. Trèfle : un modèle de traces d'utilisation.
    Ingénierie des Connaissances, Rouen, F, 13p.
13. Egyed-Zs., E., Y. Prié, et al., 1999. Représentation des annotations multimédias dans
    des langages structurés (XML) et leur exploitation. Journée jeunes chercheurs GDR-
    PRC I3 et GRACQ, Paris, France, 8p.
14. Egyed-Zs., E., Y. Prié, et al., 1999. Représenter un graphe d’annotations de documents
    multimédia réparti sur plusieurs sites à l’aide d’un langage dérivé de XML. Journée
    jeunes chercheurs GDR-PRC I3, Tours, France, 9p.
15. Egyed-Zs., E., Y. Prié, et al., 2000. A graph based audio-visual document annotation
    and browsing system. RIAO 2000, Paris, France, 1381-1389.
16. Goodrum, A., 2000. Image information retrieval: An overview of current research.
    Informing Science 3(2): 63-66.
17. Li, F. C., A. Gupta, et al., 2000. Browsing digital video. CHI 2000 conference on
    Human factors in computing systems, The Hague Netherlands, ACM,169 - 176.
18. Mediasite, 2000, (en ligne) Mediasite, http://www.mediasite.com/.
19. MPEG, 2000, (en ligne) MPEG7, http://ipsi.fraunhofer.de/delite/Projects/MPEG7/
    (2003)
20. Naughton, J., D. DeWitt, et al., 2000, (en ligne) NIAGARA Query Engine,
    http://www.cs.wisc.edu/niagara/ (2003)
21. Prié, Y., 1999, Modélisation de documents audiovisuels en Strates Interconnectées par
    les annotations pour l'exploitation contextuelle, Thèse Informatique, INSA-Lyon, 270p
22. Prié, Y., T. Limane, et al., 2000. Isomorphisme de sous-graphe pour la recherche
    d'information audiovisuelle contextuelle. 12ème congrès Reconnaissance de Formes et
    Intelligence Artificielle, RFIA2000, Paris, FR, 277-286.
23. Schreiber, A. T., B. Dubbeldam, et al., 2001. Ontology-based photo annotation. IEEE
    Intelligent Systems May/June 2001, 2-10.
24. Soares, L. F., R. F. Rodrigues, et al., 2000. Modeling, authoring and formatting
    hypermedia documents in the HyperProp system. Multimedia Systems 8, 118-134.
25. Thuong, T., 1999, Description de la structure des vidéos pour les applications
    multimédias, DEA Imagerie Vision et Robotique (IVR) Grenoble,
26. Virage, 2000, (en ligne) Virage, http://www.virage.com (2003)
27. W3C,     2000,    Resource    Description      Framework        (RDF),   (en    ligne)
    http://www.w3.org/RDF/ (2003)
28. Webseek, 2002, (en ligne) Webseek, http://www.ctr.columbia.edu/webseek/ (2002)
29. Xiong, R. and J. Donath, 1999. PeopleGarden: Creating Data Portraits for Users.
    ACM UIST ’99, Asheville, NC, USA, ACM,37-45.
30. Zhong, Y., 2000, Apply Multimodal Search and Relevance Feedback In a Digital Video
    Library (MsC thesis), CS, Carnegie Mellon University, 40p.
Vous pouvez aussi lire