Data Warehouses für Bilder - Diplomarbeit Jean-Sébastien Vautrin

La page est créée Claire Chauvin
 
CONTINUER À LIRE
Data Warehouses für Bilder - Diplomarbeit Jean-Sébastien Vautrin
Data Warehouses für
       Bilder
                     Diplomarbeit

              Jean-Sébastien Vautrin

                     September 2004

                  Prof. Dr. Jacques Calmet
     Institut für Algorithmentechnik und Kognitive Systeme
                    Fakultät für Informatik
                  Universität Karlsruhe (TH)

                    Dr. Anne Tchounikine
Laboratoire d'Informatique en Images et Systèmes d'Information
                  Département Informatique
                        INSA de Lyon
Data Warehouses für Bilder - Diplomarbeit Jean-Sébastien Vautrin
Data Warehouses für Bilder - Diplomarbeit Jean-Sébastien Vautrin
Erklärung

Hiermit erkläre ich, die vorliegende Arbeit selbständig erstellt und keine
anderen als die angegebenen Quellen und Hilfsmittel benutzt zu
haben.

                                              Karlsruhe, den 29.09.2004
Data Warehouses für Bilder - Diplomarbeit Jean-Sébastien Vautrin
Data Warehouses für Bilder - Diplomarbeit Jean-Sébastien Vautrin
Dieses Dokument ist in zwei Teilen unterteilt:

   1. Teil 1: Deutsche Zusammenfassung der Diplomarbeit
      (Seiten 1-26).
   2. Teil 2: Vollständige    Version der in französischer
      Sprache geschriebenen Diplomarbeit (Seiten 27-88).
Data Warehouses für Bilder - Diplomarbeit Jean-Sébastien Vautrin
Data Warehouses für Bilder - Diplomarbeit Jean-Sébastien Vautrin
Teil 1
Deutsche Zusammenfassung der
Diplomarbeit

                 1
Data Warehouses für Bilder - Diplomarbeit Jean-Sébastien Vautrin
2
Data Warehouses für Bilder - Diplomarbeit Jean-Sébastien Vautrin
Zusammenfassung

Data Warehouses und OLAP-Systeme stellen Architekturen und Werkzeuge
bereit, welche zur Auswertung und zur Analyse von großen Datenmengen
angepasst      sind      und     somit     eine    erhebliche     Hilfe     im
Entscheidungsfindungsprozess bieten. Klassische Data Warehouses
beschränken sich auf die Integration von alphanumerischen Daten, jedoch
beinhalten Bilder ebenfalls wichtige Informationen, die sich zur Datenanalyse
eignen. Im ersten Teil dieser Arbeit wird eine Typologie von Data Warehouses
für Bilder aufgestellt, in welcher zwischen zwei Fällen unterschieden wird. Im
ersten Fall bilden die Bilder eine Dimension. Im zweiten Fall sind die Bilder
die zu analysierenden Datenobjekte und sind somit die Fakten oder
Kenngrößen. Diesbezüglich wird vorgeschlagen, dass die Kenngröße ein Bild
ist, welches aus der Aggregation einer Menge von Bildern resultiert. In
diesem Fall führt die Materialisierung von Aggregaten zu
Datenspeicherproblemen. Es wird der Begriff der Relevanz einer Aggregation
von Bildern eingeführt und ein Model zur Materialisierung von Aggregaten
vorgeschlagen, welches entsprechend dieser Relevanz durchgeführt wird.
Anhand der vom Benutzer durchgeführten Selektionen, können Mengen von
Zellen von Kuboiden abgeleitet werden, deren Materialisierung
ausgeschlossen wird.

                                      3
Data Warehouses für Bilder - Diplomarbeit Jean-Sébastien Vautrin
4
Inhaltsverzeichnis

1 Einführung ........................................................................................................7

2 Typologie von Data Warehouse Modellen für Bilder..................................11

   2.1         Bilder als Dimension.................................................................................... 11
       2.1.1      Kenngrößen ...........................................................................................................12
       2.1.2      Dimensionen .........................................................................................................12
       2.1.3      Hierarchische Gliederung der Bilderdimension ....................................................12
       2.1.4      Anfragen................................................................................................................14
   2.2         Bilder als Kenngrößen................................................................................. 14
       2.2.1      Dimensionen .........................................................................................................14
       2.2.2      Kenngrößen ...........................................................................................................15
       2.2.3      Anfragen................................................................................................................15

3 Materialisierung von Sichten in einem Data Warehouse für Bilder..........17

   3.1         Problematik .................................................................................................. 17
   3.2         Auf der Relevanz einer Sicht basierender Ansatz .................................... 18
       3.2.1      Definitionen...........................................................................................................19
       3.2.2      Prototyp.................................................................................................................22

4 Zusammenfassung ..........................................................................................23

                                                                 5
6
Kapitel 1
Einführung

     Data Warehouses nehmen einen bedeutenden Platz ein, sowohl in der
Industrie, wo man oft von „Business Intelligence“ spricht, als auch in der
Forschung. Das Ziel ihres Einsatzes besteht darin, von großen Datenmengen
Profit zu ziehen, welche in verschiedenen Datenbänken gesammelt werden.
Diese Daten werden in Data Warehouses integriert, um sie effizient zu
analysieren und auszuwerten, und dienen somit als Hilfe zur
Entscheidungsfindung [CHA97]. Die Daten eines Data Warehouses werden
multidimensional modelliert [PED01]. Die sogenannten Fakten oder
Kenngrößen wie z.B. Erlöse, Gewinne oder Verluste, stehen im Zentrum der
Datenmodellierung. Diese Daten werden je nach Aggregationsebene mittels
Aggregatfunktionen berechnet. Die Kenngrößen sollen auf in verschiedener
Art unterteilten Bereichen betrachtet werden können, z.B. Zeit, Ort oder
Produkt. Jeden solchen Bereich modelliert man mit einer entsprechenden
Dimension. Letztere sind hierarchisch aufgebaut und besitzen mehrere
Dimensionsebenen, um Analysen verfeinern zu können. Solche Hierarchien
sind durch Klassifikationsschemata beschrieben (Bild 1). Die Entitäten einer
Dimension werden Dimensionselemente genannt und bilden mit den
hierarchischen Verbindungen die Klassifikationshierarchie (Bild 1). Jedes
dieser Dimensionselemente ist auf genau einer Dimensionsebene.

   Bild 1: Klassifikationsschema und die dazugehörige Klassifikationshierarchie

                                        7
Kapitel 1. Einführung

    Im klassischen Fall sind in Data Warehouses nur alphanumerische Daten
vorhanden. Jedoch werden immer mehr Bilder in Datenbanken integriert.
Bilder enthalten wichtige Informationen und eignen sich ebenfalls zur
Datenanalyse. Als Beispiel können die großen Bestände an medizinischen
Bildern erwähnt werden. Würden diese gleichermaßen in die Datenanalyse
bezüglich Krankheiten mit einbezogen werden, könnten die Analysen, in
manchen Fällen, effizienter durchgeführt werden.
     Forschungsarbeiten wurden im Bereich der Data Warehouses für
Multimediadaten geleistet [ZAI98, YOU01, HAY02, WOO99]. In letzteren
spielen Bilder die Rolle von Dimensionen, indem Deskriptoren von den
Bildern extrahiert werden. Anhand dieser Deskriptoren werden die
Dimensionen gebildet. Deskriptoren sind zum Beispiel Farben, Texturen oder
Schlüsselwörter, welche die Bilder charakterisieren. Jedoch werden die Bilder
in alphanumerische Daten konvertiert und werden dabei selbst nicht
berücksichtigt. Deskriptoren können nicht alle in Bildern enthaltenen
Informationen widerspiegeln und dies kann die Analyse einschränken. Es
würde sich daher anbieten, eine auf den Bildern selbst aufgebaute Dimension
zu bilden, und nicht ausschließlich Deskriptoren zu verwenden.
     Wenn die Kenngrößen Bilder sind, muss die Aggregatfunktion neu
definiert werden. Die klassischen Aggregatfunktionen der relationalen Algebra
wie z.B. MAX, MIN, SUM, COUN oder AVG, können hierfür nicht
verwendet werden.
     In den bisher vorgeschlagenen Data Warehouses für Multimediadaten
wird dieses Problem umgangen, indem die Kenngrößen Zeiger auf Bilder sind.
In diesem Fall bestehen die Antworten auf Anfragen aus Listen von Bildern.
Jedes Bild, das die Kriterien der Anfrage erfüllt, ist ein Element einer solchen
Bilderliste. Jedoch kann die Liste aus hunderten oder tausenden Bildern
bestehen, was eine synthetische Sicht des Ergebnisses einer Anfrage kaum
ermöglicht. Ein aus der Aggregation einer Bildermenge resultierendes Bild
wäre daher vorteilhafter. In diesem Fall wären die Kenngrößen keine Zeiger
auf Bilder mehr, sondern die Bilder selbst. Dabei stellt sich ein Problem
bezüglich der Antwortzeiten auf Anfragen. Um die Antwortzeiten zu
verringern, wird eine häufig benutzte Methode angewandt, die darin besteht,
Aggregate von Sichten vorzuberechnen und bereitzuhalten, um Aggregationen
nicht „on-the-fly“ berechnen zu müssen. Man spricht hierbei von
Materialisierung von Sichten. Jedoch ist diese Methode sehr teuer, was den
benötigten Speicherplatz betrifft. Da das Datenvolumen von Bildern erheblich
größer ist als bei Zeigern, können bei gleichem Speicherplatz weniger Sichten

                                       8
Kapitel 1. Einführung

materialisiert werden. Dies spiegelt sich wiederum mit schlechteren
Antwortzeiten wider und gefährdet die Dienstqualität. Es ist daher notwendig,
Methoden zu entwickeln, die dem Kontext von Bildern als Kenngrößen
angepasst sind.
      Ziel dieser Arbeit ist es die erwähnten Problematiken zu behandeln, um
die Integration von Bildern in Data Warehouses zu verbessern. Diese Arbeit
ist in zwei Teilen unterteilt:
    1. Im ersten Teil wird eine Studie präsentiert, deren Ziel es ist, eine
       Typologie von Data Warehouse Modellen für Bilder aufzustellen.
    2. Im zweiten Teil wird die Problematik bezüglich der Materialisierung
       von Sichten behandelt, wenn Kenngrößen Bilder sind.

                                     9
Kapitel 1. Einführung

                        10
Kapitel 2
Typologie von Data Warehouse
Modellen für Bilder

    Das multidimensionale Paradigma berücksichtigt drei Konzepte: Die
Eigenschaften, die Dimensionen und die Fakten bzw. Kenngrößen.
Dementsprechend wurden drei Klassen von Data Warehouse Modellen für
Bilder identifiziert:
    1. Die erste Klasse beinhaltet die Modelle, welche Bilder als Eigenschaft
       einer oder mehrerer Dimensionen integrieren. Die Bilder können somit
       als zusätzliche Informationen zu alphanumerischen Daten dienen.
    2. In der zweiten Klasse sind die Modelle vorhanden, in welchen die
       Bilder selbst eine Dimension bilden. In diesem Fall ist es notwendig
       eine Hierarchie auf den Bildern zu bilden, die es dem Benutzer
       ermöglicht in den Daten zu navigieren, indem er unterschiedliche
       Granularitäten von Daten wählt.
    3. Die Data Warehouses der dritten Klasse integrieren die Bilder als
       Kenngrößen. In diesem Fall müssen Aggregatfunktionen definiert
       werden, sowie die diesem Datentyp angepassten Strategien zur
       Materialisierung von Sichten entwickelt werden, wie dies für
       alphanumerische oder geographische Daten gemacht wurde.
    Es werden folgend nur die Modelle der zweiten und dritten Klasse
vorgestellt. Die Modelle der ersten Klasse stellen keine Problematik dar.

2.1 Bilder als Dimension
    In diesem Modelltyp bilden die Bilder eine Dimension. Die Kenngrößen
sind alphanumerische Daten, die Zonen in den Bildern und
Dimensionselementen der anderen Dimensionen zugeordnet sind. Betrachten
wir    zum    Beispiel    Satellitenbilder.   Wenn     Regenfälle   oder

                                    11
Kapitel 2. Typologie von Data Warehouse Modellen für Bilder

Windgeschwindigkeiten die Daten sind, die den Bildern zugeordnet sind, so
können diese Daten bestimmten Zonen zugewiesen werden, z.B. Punkte auf
den Bildern, die den Ort der Wetterstation präzisieren, wo die Werte gemessen
wurden.
     Die Data Warehouse Modelle dieser Klasse nähern sich sichtlich der Data
Warehouse Modelle des „Spatial OLAP“ (SOLAP) an, welche die OLAP
Systeme sind, die bei Data Warehouses für geographische Daten Verwendung
finden [PAP01, STE97]. Diese Ähnlichkeit erspart jedoch nicht die
Notwendigkeit von gewissen Anpassungen, um die vorhandenen Unterschiede
in Betracht zu ziehen. Dies ist z.B. der Fall bei der hierarchischen Gliederung
eines Bildes. Der Modelltyp wird in den folgenden Unterkapiteln beschrieben.

2.1.1 Kenngrößen
     Die Kenngrößen können sichtbar sein, das bedeutet Objekte auf einem
Bild sein (z.B. Tumoren auf einem medizinischen Bild). Kenngrößen können
aber auch nicht sichtbar sein, z.B. die Windgeschwindigkeit. Bei letzteren
weist der Benutzer den Kenngrößen künstliche Koordinaten zu, welche die
Zonen in den Bildern bestimmen, die den Kenngrößen zugeordnet sind. Falls
es sich um eine sichtbare Kenngröße handelt, entsprechen die Koordinaten der
Zone im Bild den Konturen des jeweiligen Objektes.

2.1.2 Dimensionen
    Es werden drei Dimensionstypen definiert:
    1. Eine nicht Bilder Dimension ist eine Dimension, die auf allen
       Dimensionsebenen alphanumerische Daten enthält.
    2. Eine Bilder zu Bilder Dimension ist eine Dimension, die auf allen
       Dimensionsebenen Bilder beinhaltet.
    3. Eine Bilder zu nicht Bilder Dimension ist eine Dimension, die auf
       unteren Dimensionsebenen aus Bildern und ab einer gewissen
       Dimensionsebene aus alphanumerischen Daten besteht.

2.1.3 Hierarchische Gliederung der Bilderdimension
    Ein „ganzes“ Bild ist auf der obersten Dimensionsebene. Um die unteren
Dimensionsebenen zu definieren, wird ein Bild in mehrere Teile zerteilt. Dazu
werden drei Zerteilungen definiert:

                                      12
Kapitel 2. Typologie von Data Warehouse Modellen für Bilder

     1. Regelmäßige Zerteilung: Diese Methode besteht darin, ein Bild
        rekursiv in n rechteckige Teile, bis zur gewünschten kleinsten
        Granularität bzw. den kleinsten Bildteilen (Bild 2) zu zerteilen. Jedem
        Bildteil der feinsten Granularität wird die Aggregation der Kenngrößen
        zugeteilt, die den im Bildteil enthaltenen Zonen zugeordnet sind. Falls
        eine Zone in mehreren Bildteilen enthalten ist, muss nur ein Teil der
        Kenngröße dem jeweiligen Bildteil zugewiesen werden. Dieser Teil
        sollte proportional zu der von dem Bildteil überlappenden Fläche sein.
     2. Manuelle Zerteilung: Die Zerteilung wird von dem Benutzer selbst
        durchgeführt, damit er die Datenanalyse mittels einer hierarchischen
        Gliederung der Bilderdimension machen kann, die seinem Bedarf
        entspricht.
     3. Unregelmäßige Zerteilung: Die Zerteilung wird entsprechend den
        Zonen, welchen Kenngrößen zugewiesen wurden, durchgeführt. Dies
        ermöglicht dem Benutzer in der Bilderdimension, gemäß den Orten der
        Kenngrößen zu navigieren. Nach der Zerteilung entsprechen die
        kleinsten Bildteile den „minimal bounding rectangles“ der Zonen,
        welchen die Kenngrößen zugewiesen wurden. Die Bildteile auf
        höheren Dimensionsebenen werden mittels Gruppierungen der
        Bildteile auf unteren Dimensionsebenen bestimmt (Bild 3). Hierfür
        können Techniken benutzt werden, die im Bereich des SOLAP
        Verwendung finden [PAP01]. Diese Techniken verwenden so genante
        „R-Trees“, die zur Indexierung von geographischen Daten genutzt
        werden.

  Bild 2: Regelmäßige Zerteilung             Bild 3: Unregelmäßige Zerteilung

                                     13
Kapitel 2. Typologie von Data Warehouse Modellen für Bilder

2.1.4 Anfragen
Es kann zwischen zwei Anfragetypen unterschieden werden:
    1. Für jede Dimension wird ein Dimensionselement gewählt. Diese
       Anfragen sind dementsprechend gleichermaßen wie bei den klassischen
       Data Warehouses definiert.
    2. Bei diesem Anfragetyp werden die Dimensionselemente jeder nicht
       Bilder Dimension sowie die Dimensionselemente der Bilder zu nicht
       Bilder Dimension gewählt, falls es sich um Deskriptoren handelt. Um
       ein Teil eines Bildes zu wählen, wird hierbei nicht das jeweilige
       Dimensionselement angegeben, sondern es wird ein „query window“
       verwendet, wie es bei SOLAP-Systemen üblich ist. Der Einsatz eines
       „query window“ ermöglicht es dem Benutzer einen beliebigen Teil
       eines Bildes für die Datenanalyse zu selektieren. Er ist somit nicht an
       die Wahl eines aus der Zerteilung hervorgehenden Bildteiles gebunden.

2.2 Bilder als Kenngrößen
     In diesem Modelltyp werden die Dimensionen ausschließlich anhand von
Deskriptoren gebildet. Die Kenngrößen sind in diesem Fall Bilder. Bei den
bisher vorgeschlagenen Data Warehouses im „State of the Art“ beschränken
sich die Kenngrößen auf Zeiger auf Bilder. Es wird in dieser Arbeit ebenfalls
vorgeschlagen, ein Bild aus einer Aggregation einer Menge von Bildern zu
verwenden. In diesem Fall muss die Aggregatfunktion neu definiert werden,
da die klassischen Aggregatfunktionen der relationalen Algebra sich hierzu
nicht eignen.

2.2.1 Dimensionen
     Zur Bildung der Dimensionen werden in diesem Data Warehouse
Modelltyp ausschließlich Deskriptoren verwendet. Da Deskriptoren
alphanumerische Daten sind, können die Dimensionen auf gleiche Art und
Weise hierarchisch gebildet werden, wie es bei klassischen Data Warehouses
üblich ist.

                                     14
Kapitel 2. Typologie von Data Warehouse Modellen für Bilder

2.2.2 Kenngrößen
     Die Kenngrößen sind Bilder. Es kann sich hierbei um Zeiger auf Bilder,
wie es im State of the Art der Fall ist, oder um ein aus der Aggregation einer
Menge von Bildern resultierendes Bild handeln. Wenn der Benutzer die
„originalen“ bzw. die unveränderten Bilder als Antwort auf eine Anfrage
sehen will, ist der Gebrauch von Zeigern die einzig mögliche Lösung. Jedoch
ermöglicht dieser Ansatz keine synthetischen Antworten auf Anfragen, da
Antworten aus hunderten oder gar tausenden Bildern bestehen können.
Deshalb wurde der aus einem Bild bestehende Kenngößentyp bei dieser Arbeit
näher studiert.
    Eine Aggregation einer Menge von Bildern besteht aus einer
Überlagerung von Bildern. Jede Aggregatfunktion, welche ein einziges Bild
aus einer Menge von Bildern erzeugt, ist denkbar. Um die Vergleichbarkeit
von Bildern zu gewährleisten, müssen die im Data Warehouse integrierten
Bilder die gleichen Maße besitzen, das heißt gleich lang und gleich breit sein.

2.2.3 Anfragen
    Da die Dimensionen alle anhand von Deskriptoren gebildet sind,
unterscheidet sich der Anfragetyp nicht mit dem Anfragetyp der klassischen
Data Warehouses.

                                      15
Kapitel 2. Typologie von Data Warehouse Modellen für Bilder

                                   16
Kapitel 3
Materialisierung von Sichten in
einem Data Warehouse für Bilder

3.1 Problematik
     Wenn Bilder zur Bildung einer Dimension oder als Eigenschaften benutzt
werden, sind die Probleme bezüglich des Speicherplatzes und der
Antwortzeiten auf Anfragen kaum verstärkt im Vergleich zu klassischen Data
Warehouses. Werden jedoch die Bilder als Kenngrößen verwendet, so sind
diese Probleme wesentlich komplizierter, da die Sichtenmaterialisierung auf
Redundanz basiert. Da Bilder sehr volumenreich sind, kann der benötigte
Speicherplatz durch diese Redundanz sehr groß werden und folglich können
nicht genug Sichten materialisiert werden. Zudem kommt noch hinzu, dass
Aggregatfunktionen, die auf Bildern operieren, üblicherweise komplexer sind,
und daher bei ihrer Anwendung mehr Zeit in Anspruch nehmen. Aus diesen
Gründen wird in diesem Kapitel eine Methode vorgeschlagen, die diese
Probleme behandelt.
     Die Probleme bezüglich der Antwortzeiten auf Anfragen haben viele
Forschungsarbeiten zum Vorschein gebracht. Um diesen Problemen
entgegenzuwirken, wurden Methoden zur selektiven Materialisierung von
Sichten vorgeschlagen. Eine Sicht wird ebenfalls als Kuboid bezeichnet. Der
als HRU benannte Algorithmus [HAR96] ist der Refererenzalgorithmus zur
Selektion von zu materialisierenden Sichten. Der Datenwürfel wird als
Verband von Kuboiden dargestellt (Bild 4). Einige Sichten können von
anderen Sichten hergeleitet werden, die detailliertere Daten enthalten und
Nachfolger im Verband von Kuboiden sind. Die Daten aller Sichten können
von dem Basiskuboid hergeleitet werden. Letzterer enthält die detailliertesten
Daten. Der Algorithmus berücksichtigt die Tatsache, dass die
Materialisierung einer Sicht die Antwortzeiten für den Zugriff von Daten

                                     17
Kapitel 3. Materialisierung von Sichten in einem Data Warehouse für Bilder

                    Bild 4: Verband von Kuboiden (Sichten)

der jeweiligen Sicht und der Sichten, die Vorgänger der letzteren sind,
reduziert.
     Der HRU-Algorithmus erzielt gute Ergebnisse und kann ausreichend sein
für alphanumerische Kenngrößen. Sind die Kenngrößen jedoch Bilder, würde
es oftmals nicht möglich sein, eine ausreichende Anzahl von Sichten zu
materialisieren, um schnelle Antwortzeiten zu gewährleisten, die für den
Benutzer akzeptabel sind. Dieses Problem wird in dieser Arbeit behandelt,
indem im folgenden Unterkapitel eine Methode vorgestellt wird, welche die
Verwendung des zur Verfügung stehenden Speicherplatzes optimiert.

3.2 Auf der Relevanz einer Sicht basierender
    Ansatz
     Wenn eine Kenngröße ein aus der Aggregation einer Menge von Bildern
resultierendes Bild ist, muss die Tatsache in Betracht gezogen werden, dass
eine Aggregation einer Menge von Bildern nicht immer relevant ist, das
bedeutet, dass das eine Menge von Bildern repräsentierende Bild nicht immer
nützlich für die Datenanalyse ist. Dies ist der Fall, wenn die zu aggregierende
Menge von Bildern zu heterogen ist. Betrachten wir zum Beispiel eine Menge
von Röntgenbildern von Lungen und von Wirbelsäulen. Da diese Bilder
verschiedene Objekte darstellen, wäre es widersinnig eine solche Menge von
Bildern zu aggregieren. Selbst wenn die Bilder gleiche Objekte darstellen,
kann eine Aggregation nicht relevant sein. Dieser Fall tritt ein, wenn die
Objekte verschiedene Bereiche in den Bildern abdecken. Es wäre z.B.
widersinnig eine Menge von Röntgenbildern, welche Wirbelsäulen mit stark
unterschiedlichen Krümmungen darstellen, oder Röntgenaufnahmen von sehr
jungen Kindern und Erwachsenen zu aggregieren.

                                      18
Kapitel 3. Materialisierung von Sichten in einem Data Warehouse für Bilder

     Es wird vorgeschlagen, den Begriff der Relevanz einer Aggregation für
die Wahl der zu materialisierenden Zellen von Kuboiden zu integrieren. Ziel
ist es, die Materialisierung von gewissen Sichten zu verhindern, bei denen im
Vornherein sicher steht, dass sie für die Datenanalyse nicht nützlich sind.
Somit bleibt mehr Speicherplatz frei, um nützliche Sichten zu materialisieren.
     Im folgenden Unterkapitel werden die Definitionen vorgestellt, welche
das Erreichen dieses Zieles ermöglichen.

3.2.1 Definitionen
Definition 1: Relevanz einer Aggregation einer Menge von Bildern
      J
Sei ⊕ µ k i j eine Aggregatfunktion, ij ein Bild der Menge I, µk die Kenngröße k
     j =1                                                                    J
und J die Kardinalität von I. Die Aggregation der Menge I mittels ⊕ µ k i j ist
                                                                        j =1
relevant, wenn, und genau wenn das Ergebnis der Aggregation nicht
widersinnig ist.

     Es sei darauf hingewiesen, dass der Begriff der Relevanz vom Auge des
Betrachters abhängt. Der Benutzer entscheidet also, ob eine Aggregation
relevant ist oder nicht. Die Kuboide, welche teilweise materialisiert werden
sollen, entsprechen jeweils einer Sicht, die jeweils durch folgende
Kombination entstehen: D1a, D2b,..., Dns , wobei Di x die Dimensionsebene x
der Dimension Di und n die Anzahl der Dimensionen des multidimensionalen
Modells ist. Jede Zelle eines Kuboides entspricht einer Kombination
( m 1 j a k b ,..., m n jl k m ), wobei m i j x k y das Dimensionselement ky auf der
Dimensionsebene jx der Dimension i ist.

Notierung 1:
Um Mengen von Bildern zu identifizieren, wird folgende Notierung
eingeführt: Images( m i j k ) ist die Menge von Bildern des Basiskuboides,
                           x   y

welche unter ihren Koordinaten ein Dimensionselement m i j s k t der untersten
Dimensionsebene der Dimension i haben, mit:
   • entweder m i j s k t = m i j   xk y
                                           ,
   • entweder      m i js kt ist   Nachfolger         von      m i jxk y   in   der
     Klassifikationshierarchie der Dimension i.

                                               19
Kapitel 3. Materialisierung von Sichten in einem Data Warehouse für Bilder

Eigenschaft 1: Zu aggregierende Menge von Bildern
Sei ( m 1 j a k b ,..., m n j o k p ) eine Kombination von Dimensionselementen. Um das
in der Zelle ( m 1 ja k b ,..., m n jo k p ) enthaltene Bild zu erhalten, wird folgende
Menge von Bildern aggregiert: I=Images ( m1 ja kb ) ∩ ... ∩ Images (m n jo k p ) .

Definition 2: Relevanz einer Kombination von Dimensionselementen
Eine Kombination ( m 1 j a k b ,..., m n j o k p ) ist nicht relevant, wenn, entsprechend
der Definition 1, die Aggregation von Images( m 1 j a k b ,..., m n j o k p ) nicht
relevant ist.

Eigenschaft 2: Die Vererbung der Nicht-Relevanz für Mengen von
Bildern
           J
Sei ⊕ µ k i j nicht relevant, wobei ij ein Bild der Menge Ix ist. Dann ist für Iy,
    j =1            H
mit I x ⊆ I y , h⊕=1 µ k ih nicht relevant, wobei ih ein Bild der Menge Iy ist.

Eigenschaft 3: Die Vererbung der Nicht-Relevanz für Kombinationen von
Dimensionselementen
Sei ( m 1 ja k b ,..., m n jl k m ) nicht relevant. Dann sind alle Kombinationen von
Dimensionselementen ( m '1 jo k p ,..., m ' n j s k t ) mit :
                                        i
   z       entweder m ' i j u k v = m       jxk y   , 1≤i≤n
                              i
   z       entweder      m ' ju k v ist  Vorgänger      von            m i jxk y   in      der
           Klassifikationshierarchie der Dimension i, 1 ≤ i ≤ n
nicht relevant.

Definition 3: Ein zur Dimension i nicht relevantes Dimensionselement
Ein Dimensionselement m i j k ist nicht relevant zur Dimension i, wenn der
                                            x   y

Benutzer der Meinung ist, dass die Aggregation von Images( m i j k ) nicht         x   y

relevant ist.

      Der Benutzer wählt alle zur Dimension i nicht relevanten
Dimensionselemente. Nachdem er diese Dimensionselemente selektiert hat,
gibt er die nicht relevanten Kombinationen dieser Dimensionselemente mit
Dimensionselementen anderer Dimensionen an. Ist m i j k ein nicht relevantes
                                                               x   y

Dimensionselement, so kann, entsprechend der Eigenschaft 1, die Kuboidzelle
( m i j k All…All) von der Materialisierung ausgeschlossen werden. Jedoch
       x    y

bedeutet dies nicht, dass eine Untermenge von Images( m i j k ), die man durch
                                                                       x   y

die Kombination mit Dimensionselementen anderer Dimensionen erhält, nicht
relevant ist. Mengen von Kombinationen von Dimensionselementen werden

                                                        20
Kapitel 3. Materialisierung von Sichten in einem Data Warehouse für Bilder

wie folgt beschrieben: {M 1 }× {M 2 }× ... × {M n } , wobei Mx eine Menge von
Dimensionselementen der Dimension x, n die Anzahl von Dimensionen und ×
der Operator des kartesischen Produktes ist.
Sei m 1 j k ein nicht relevantes Dimensionselement zur Dimension 1. Es wird
        x    y

zwischen zwei Fällen unterschieden:
    1. Es gibt keine Untermenge von Images( m 1 j x k y ), bei welcher die
       Aggregation relevant ist.
    2. Es gibt mindestens eine Untermenge von Image( m 1 j x k y ), bei welcher
       die Aggregation relevant ist.
Eigenschaft 4: Deduktion von Kombinationen von Dimensionselementen
Gemäß der Eigenschaft 3 kann abgeleitet werden, dass wenn
A= {M 1 }× {M 2 }× ... × {M n } eine Menge von Kombinationen von
Dimensionselementen ist, bei welcher jede Kombination nicht relevant ist, so
sind             die              Kombinationen                   der         Menge
B= {M 1 ∪ M '1 }× {M 2 ∪ M ' 2 }× ... × {M n ∪ M ' n } nicht relevant, wobei M’i eine
Menge von Dimensionselementen ist, welche Vorgänger                             eines
Dimensionselementes von Mi, in der jeweiligen Klassifikationshierarchie sind.

     Nachdem der Benutzer ein nicht relevantes Dimensionselement zur
Dimension i gewählt hat, gibt er die Kombinationen dieses
Dimensionselementes mit den Dimensionselementen der anderen
Dimensionen an. Er macht dies, indem er die Menge von Kombinationen
A= {m i j k }× {M k }× ... × {M z } angibt, so dass jede Kombination Element von A
       x y

nicht relevant ist, wobei m i j k das nicht zur Dimension i relevante
                                   x   y

Dimensionselement ist. Gemäß Eigenschaft 4 reicht es für die Mengen Mi nur
die      der     jeweiligen          untersten     Dimensionsebene    angehörenden
Dimensionselemente zu wählen, da die restlichen Kombinationen automatisch
hergeleitet werden können. Bild 5 zeigt ein Beispiel einer Wahl einer Menge
von nicht relevanten Kombinationen. Es wurde hierbei All als nicht relevantes
Dimensionselement zur Dimension Geschlecht gewählt. Die selektierten
Dimensionselemente sind umrahmt. Anhand einer vom Benutzer selektierten
Menge A kann automatisch eine größere Menge B hergeleitet werden mit
Hilfe eines dafür in dieser Arbeit entwickelten Algorithmus. Die Zellen von
Kuboiden, die jeweils einer Kombination von Dimensionselementen einer
Menge Bi entsprechen, werden von der Materialisierung ausgeschlossen.
     Der Algorithmus wurde in dem entwickelten Prototyp eingesetzt, der im
folgenden Unterkapitel beschrieben wird.

                                           21
Kapitel 3. Materialisierung von Sichten in einem Data Warehouse für Bilder

        Bild 5: Selektion einer Menge von nicht relevanten Kombinationen

3.2.2 Prototyp
    Der Prototyp wurde in JAVA entwickelt. Die Hauptfunktionalitäten sind
aufgelistet:
   • Laden des multidimensionalen Modells anhand von XML Dokumenten.
     Jede Klassifikationshierarchie einer Dimension wird durch ein XML
     Dokument angegeben. Daraufhin wird die Datenstruktur des Verbandes
     von Kuboiden aufgebaut.
   • Wahl der nicht relevanten Kombinationen von Dimensionselementen
     mit Hilfe einer dafür angepassten Benutzerschnittstelle.
   • Berechnung der hergeleiteten, nicht relevanten Kombinationen durch
     den entwickelten Algorithmus. Nach Anwendung des Algorithmus,
     enthält die Datenstruktur des Verbandes von Kuboiden für jede
     Kuboidzelle einen Wert, der angibt, ob die jeweilige Zelle materialisiert
     werden soll oder nicht.
   • Berechnung und Abbildung der Ergebnisse. Der prozentuale Anteil von
     Kuboidzellen, die von der Materialisierung ausgeschlossen sind, wird
     angegeben. Diese Information ermöglicht die Schätzung des Gewinnes
     bezüglich des Speicherplatzbedarfs, der durch Anwendung dieser
     Methode ermöglicht wurde.

                                      22
Kapitel 4
Zusammenfassung

     Im ersten Teil der Arbeit wurde eine Typologie von Data Warehouses für
Bilder vorgestellt, in welcher zwischen zwei Fällen unterschieden wird. Im
ersten Fall werden Bilder verwendet, um eine Dimension zu bilden. Im
zweiten Fall sind die Kenngrößen Bilder. Hierfür wurde vorgeschlagen,
Kenngrößen zu verwenden, die jeweils ein aus einer Aggregation einer Menge
von Bildern resultierendes Bild sind. Somit sind die Ergebnisse von Anfragen
wesentlich synthetischer, als wenn es sich um Bilderlisten handeln würde.
     Im zweiten Teil der Arbeit wurde die Problematik der Materialisierung
von Sichten behandelt, wenn die Kenngrößen Bilder sind. Es wurde hierfür der
Begriff der Relevanz einer Aggregation von Bildern eingeführt, die es dem
Benutzer ermöglicht, die Aggregate zu identifizieren, welche ihm für die
Datenanalyse nicht nützlich sind. Anhand von Mengen von nicht relevanten
Kombinationen von Dimensionselementen, die vom Benutzer angegeben
werden, werden mit Hilfe eines entwickelten Algorithmus größere Mengen
von Kombinationen hergeleitet. Diese Kombinationen entsprechen den Zellen
von Kuboiden, welche von der Materialisierung ausgeschlossen werden. Somit
werden nur die Zellen von Kuboiden materialisiert, die für die Datenanalyse
nützlich sind. Dadurch wird der verfügbare Speicherplatz effektiver genutzt.
Die in dieser Arbeit entwickelte Methode kann ergänzend zu Algorithmen zur
Selektion von zu materialisierenden Sichten angewendet werden. Wenn solche
Algorithmen nach Anwendung der in dieser Arbeit vorgestellten Methode
verwendet werden, so können mehr relevante Aggregate materialisiert werden,
indem nicht relevante Aggregate identifiziert und von der Materialisierung
ausgeschlossen werden.

                                    23
24
Literaturverzeichnis

[CHA97] S. Chaudhuri, U. Dayal. An Overview of Data Warehousing and
OLAP Technology. ACM SIGMOD Record, Volume 26, no. 1, pp. 65-74.
März 1997.
[HAR96] V. Harinarayan, A. Rajaraman, J. D.Ullman. Implementing Data
Cubes Efficiently. In Proceedings of the ACM SIGMOD Conference of
Management of Data, pp. 205-216, Montreal, Quebec. Juni 1996.
[HAY02] T. Hayashi, A. Sato, N. Berthouze. A hierarchical model to support
Kansei mining process. Intelligent Data Engineering and Automated Learning-
IDEAL 2002. Third International Conference, pp. 56-61, Manchester, UK. 12-
14. August 2002.
[PED01] T. B. Pedersen, C. S. Jensen. Multidimensional Database
Technology. IEEE Computer, Volume 34, no. 12, pp. 40-46. Dezember 2001.
[PAP01] D. Papadias, P. Kalnis, J. Zhang et al. Efficient Operations in Spatial
Data Warehouses. 7th International Symposium, SSTD 2001, pp. 443-459,
Redondo Beach, USA.12.-15. Juli 2001.
[STE97] N. Stefanovic. Design and Implementation of On-Line Analytical
Processing (OLAP) of Spatial Data. Doktorarbeit, Simon Fraser University.
1997.
[YOU01] J. You, T. Dillon, J. Liu, E. Pissaloux. On hierarchical information
retrieval. Proceedings 2001 International Conference on Image Processing, pp.
729-732, Thessaloniki, Greece. 7.-10. Oktober 2001.
[ZAI98] O.R. Zaïane, J.Han, Z.-N. Li, J. Hou. Mining Multimedia Data.
Proceeding CASCON'98: Meeting of Minds, pp. 83-96, Toronto, Canada.
November 1998.
[WOO99]L. Wookey, K. Yongkyu, L. Yunsun et al. Developing Multimedia
Data Warehouse of Education On-Demand Systems. Proceedings of IEEE.
IEEE Region 10 Conference. TENCON 99. `Multimedia Technology for Asia-
Pacific Information Infrastructure, pp. 942-945, Cheju Island, South Korea.
15.-17. September 1999.

                                      25
26
Teil 2
Vollständige   Version    der    in
französischer Sprache geschriebenen
Diplomarbeit

                27
28
Résumé

Les entrepôts de données et les systèmes OLAP proposent des architectures et
des outils adaptés à l’exploitation et à l’analyse de grands volumes de données,
offrant ainsi une aide considérable au processus décisionnel. Les entrepôts de
données classiques se limitent à l’intégration de données alphanumériques, or
les images contiennent également des informations précieuses pouvant servir à
l’analyse de données. Dans un premier temps, nous établissons une typologie
d’entrepôts d’images dans laquelle nous distinguons deux cas. Dans le premier
cas, les images jouent le rôle d’axe d’analyse et forment une dimension. Dans
le deuxième cas, les images sont les sujets d’analyse ou faits. Nous proposons
pour cela que la mesure soit une image issue de l’agrégation d’un ensemble
d’images. Dans ce cas, la matérialisation d’agrégats pose des problèmes de
stockage et d’optimisation. Nous introduisons la notion de pertinence d’une
agrégation d’images et proposons un modèle de matérialisation d’agrégats
effectuée en fonction de cette pertinence. A partir des choix effectués par
l’utilisateur, nous en déduisons l’ensemble des cellules de cuboïdes ne devant
pas être matérialisées.

                                      29
30
Sommaire

1 Introduction.....................................................................................................33

2 Etude bibliographique et positionnement du problème.............................. 35

   2.1 Les entrepôts de données.................................................................................... 35
       2.1.1 Intégration des données dans l’entrepôt : les outils back-end.....................................36
       2.1.2 Le modèle conceptuel : le modèle multidimensionnel d’hypercube...........................36
       2.1.3 Le modèle physique....................................................................................................38
       2.1.4 Interfaces: les outils front-end ....................................................................................39
   2.2 La prise en compte de données complexes dans les entrepôts ........................ 39
       2.2.1 Spatial OLAP..............................................................................................................40
           2.2.1.1 Hiérarchie spatiale statique .................................................................................41
           2.2.1.2 Hiérarchie spatiale dynamique............................................................................42
       2.2.2 Entrepôts de données multimédia...............................................................................43
   2.3 Conclusion et présentation des travaux effectués ............................................ 45

3 Typologie de modèles d’entrepôts d’images................................................. 47

   3.1 Les images en dimension .................................................................................... 48
       3.1.1 Type de modèle ..........................................................................................................48
           3.1.1.1 Types de faits ......................................................................................................48
           3.1.1.2 Types de dimension ............................................................................................49
           3.1.1.3 Création d’une hiérarchie sur la dimension image..............................................49
       3.1.2 Type de requête ..........................................................................................................52
           3.1.2.1 Choix de membres de la dimension ....................................................................52
           3.1.2.2 Utilisation d’une fenêtre de requête ....................................................................52
       3.1.3 Exemple......................................................................................................................52
           3.1.3.1 Modèle multidimensionnel .................................................................................52
           3.1.3.2 Interface ..............................................................................................................53
   3.2 Les images en faits .............................................................................................. 54
       3.2.1 Type de modèle ..........................................................................................................54

                                                                 31
3.2.1.1 Dimensions ......................................................................................................... 54
           3.2.1.2 Faits et Mesures .................................................................................................. 54
       3.2.2 Exemple...................................................................................................................... 55
           3.2.2.1 Modèle multidimensionnel ................................................................................. 55
           3.2.2.2 Interface.............................................................................................................. 56
   3.3 Conclusion ........................................................................................................... 57

4 Matérialisation de vues dans un entrepôt d’images.................................... 59

   4.1 Positionnement du problème ............................................................................. 59
       4.1.1 Motivation .................................................................................................................. 59
       4.1.2 Types de mesures ....................................................................................................... 60
       4.1.3 La matérialisation de cuboïdes dans le cas classique ................................................. 60
       4.1.4 Présentation générale de notre proposition................................................................. 63
   4.2 Approche basée sur le calcul de pertinence des vues....................................... 63
       4.2.1 Présentation générale de la méthode .......................................................................... 64
       4.2.2 Définitions.................................................................................................................. 65
       4.2.3 Mode de sélection de non-pertinence ......................................................................... 70
       4.2.4 Algorithme ................................................................................................................. 72

5 Prototype ......................................................................................................... 77

6 Discussion & Conclusion ............................................................................... 79

   6.1 Apports de notre approche ................................................................................ 79
   6.2 Limites de notre approche ................................................................................. 79
   6.3 Perspectives ......................................................................................................... 80

                                                                 32
Chapitre 1
Introduction

     Les entrepôts de données occupent une place majeure, aussi bien dans le
monde de l’industrie, où l’on parle souvent de « Business Intelligence », que
dans celui de la recherche. L’intérêt principal consiste à tirer profit de grands
volumes de données collectées dans différentes bases de données
transactionnelles. Ces données sont intégrées dans les entrepôts de données
afin de pouvoir les analyser efficacement, servant ainsi de support d’aide à la
prise de décision. Ces analyses se font souvent à l’aide de systèmes OLAP
(On-Line Analytical Processing) qui s’opposent aux systèmes OLTP (On-Line
Transactional Processing) utilisés avec les bases de données transactionnelles.
Les systèmes OLTP garantissent la non-redondance, la fiabilité, la cohérence
et la performance. Contrairement à ces derniers, les systèmes OLAP sont plus
adaptés à l’exploitation de données et à l’analyse décisionnelle. Les données
dans les entrepôts sont modélisées sous forme de structure
multidimensionnelle, dans laquelle les données sont organisées en fonction de
plusieurs axes d’analyse, appelés dimensions. Les sujets d’analyse, appelés
faits ou mesures, sont calculés à l’aide de fonctions d’agrégations selon les
différentes granularités. Par exemple, les dimensions pourraient être les
produits, les localisations et les clients, et les faits pourraient être la quantité
vendue.
     Dans le cas classique, les entrepôts de données sont constitués de données
alphanumériques. Or, de plus en plus d’images sont intégrées dans les bases de
données contenant des informations précieuses et se prêtant également à leur
exploitation et à l’analyse. Par exemple, dans le domaine de la santé, les
analyses visant à accroître les connaissances sur différentes pathologies
pourraient dans de nombreux cas être plus efficaces si des images médicales
étaient intégrées dans le processus décisionnel. Pour cette raison, les entrepôts
de données multimédia intégrant des images sont devenus un sujet de
recherche très prometteur qui soulève de nombreuses problématiques.

                                        33
Chapitre 1. Introduction

      Une des premières problématiques consiste à déterminer et à étudier la
place et le rôle des images dans un entrepôt : les images peuvent-elles être
utilisées en tant que propriété d’une dimension, en tant que dimension et/ou en
tant que fait ? Les propositions faites jusqu’à présent sont basées sur
l’utilisation de descripteurs de contenu ou textuels extraits manuellement ou
automatiquement des images (mot-clé, couleur, texture,…). Or, cela revient à
ramener des images à des données alphanumériques, donc au cas classique, et
ne prend pas réellement en compte les images elles-mêmes. L’utilisation
d’images en tant que faits conduit à la redéfinition des fonctions d’agrégations.
En effet, les opérateurs d’agrégation relationnels classiques (COUNT,
SUM,…) ne sont pas appropriés à des données images. La solution proposée
jusqu’à présent qui consiste à remplacer ces opérateurs par un opérateur de
liste de pointeurs sur des images ne permet une analyse efficace que lorsque
les faits sont peu nombreux. Enfin le problème dit de la matérialisation de
vues, c’est-à-dire le précalcul et le stockage des différents agrégats en vue
d’accélérer les réponses aux requêtes, devient un problème critique dans le cas
de données aussi volumineuses que des images.
     Le but de notre travail consiste à proposer des solutions aux
problématiques citées ci-dessus, afin de permettre l’intégration d’images au
sein de l’entrepôt.
     Ce rapport est organisé comme suit : tout d’abord, nous présentons les
problématiques et les solutions existantes à la fois pour des entrepôts de
données classiques et multimédia. Ensuite, nous présentons les travaux que
nous avons effectué qui sont organisés en deux parties. Dans la première
partie, nous présentons une étude visant à établir une typologie d’entrepôts
d’images en abordant les deux premières problématiques présentées ci-dessus.
Dans la deuxième partie, nous présentons un modèle de matérialisation
d’agrégats permettant de pallier les problèmes de stockage et de performance.
Enfin, nous analysons les apports de nos travaux, leurs limites et les
perspectives possibles.

                                       34
Chapitre 2
Etude bibliographique et
positionnement du problème

2.1 Les entrepôts de données
     Immon [INM96] définit un entrepôt de données comme « une collection
de données orientées sujet, intégrées, non volatiles, historisées et organisées
pour le support d’un processus d’aide à la décision». L’objectif est d’extraire
des informations pertinentes de grandes masses de données collectées de
diverses sources de données hétérogènes. Contrairement aux bases de données
opérationnelles (OLTP), les entrepôts de données ne subissent pas de mises à
jour continues. L’essentiel des opérations sont des opérations de lecture
déclenchées par des requêtes complexes. Pour permettre l’analyse des
données, celles-ci sont consolidées [WU97]. Les entrepôts de données sont
souvent utilisés en combinaison avec les systèmes OLAP (On-Line Analytical
Processing) qui ont été définis par E.F. Codd en 1993 [COD93]. « OLAP est
une catégorie de logiciels qui permet aux analystes et aux dirigeants
d’exploiter les données à l’aide d’un accès rapide et interactif à une variété de
vues possibles sur les informations issues de données brutes » [VAS99].
L’architecture typique d’un entrepôt de données est illustrée par figure 1.

                                       35
Chapitre 2. Etude bibliographique et positionnement du problème

           Figure 1: une architecture d’entrepôts de données classiques

2.1.1 Intégration des données dans l’entrepôt : les
   outils back-end
     La première phase de la construction d’un entrepôt consiste à intégrer les
données provenant de sources multiples et hétérogènes dans l’entrepôt. Ce
processus, appelé ETL (Extract, Transform and Load) se fait à l’aide d’outils
« back-end » [CHA97]. Les données sont extraites des sources et ensuite
nettoyées, transformées (calculs, filtres, tris, agrégation) et homogénéisées
(réconciliation syntaxique et sémantique), car il est important que les données
soient correctes et comparables pour servir aux prises de décisions.

2.1.2 Le modèle conceptuel : le modèle
   multidimensionnel d’hypercube
     Le modèle conceptuel doit faciliter la compréhension, l’écriture de
requêtes et l’optimisation des temps d’exécution. Le modèle utilisé pour
permettre ceci est le modèle multidimensionnel appelé aussi cube ou
hypercube [PED01]. Dans ce dernier, les sujets d’analyse sont appelés
mesures ou faits. Ce sont généralement des données numériques comme, par
exemple, le montant des ventes, le budget ou les revenus. Les faits dépendent
d’un ensemble de dimensions qui décrivent le contexte des faits et qui
représentent les axes d’analyse. Par exemple, les dimensions associées aux
faits de ventes peuvent être la localisation, la date et le produit. Les
dimensions peuvent avoir plusieurs niveaux hiérarchiques selon les différents
degrés d’agrégation permettant d’affiner ou d’élargir l’analyse. Ces opérations
sont appelées roll-up et drill-down. Ainsi, la dimension Date peut être

                                       36
Chapitre 2. Etude bibliographique et positionnement du problème

hiérarchisée en Jour, Semaine, Mois, Trimestre et Année, la dimension
Localisation en Magasin, Ville, Département et Région. On obtient alors le
schéma de la dimension (figure 2). Les membres d’une dimension
représentant les entités de la dimension considérée forment, avec les liens
hiérarchiques, l’instance de la dimension (figure 3). Ainsi, les membres de la
dimension Date au niveau Mois pourraient être Janvier, Mars, Juin.

                        Figure 2 : schéma d’une dimension Date

                    Figure 3 : instance d’une dimension Date

     La sélection des données à différents niveaux de détail implique
l’agrégation des faits. Les agrégats sont calculés à l’aide de fonctions
d’agrégation classiques de l’algèbre relationnel à savoir le calcul du nombre
de faits (COUNT), la détermination des valeurs maximales et minimales (MIN
et MAX), le calcul de la somme (SUM) et de la moyenne (AVG) des valeurs.
Les entrepôts de données étant conçus pour maintenir un volume de données
très important, l’application des fonctions d’agrégation peut nécessiter dans
certains cas des temps de calcul inacceptables pour l’utilisateur. Pour remédier
à ce problème de performance, une technique très utilisée consiste à
précalculer certaines agrégations et à stocker ces données pour qu’il ne soit
plus nécessaire de les calculer à la volée [HAR96]. On parle alors de
matérialisation de vues.

                                      37
Chapitre 2. Etude bibliographique et positionnement du problème

2.1.3 Le modèle physique
     Pour les modèles physiques soutenant OLAP, il existe deux approches
principales : ROLAP (Relational OLAP) qui utilise les technologies des bases
de données relationnelles et MOLAP (Multidimensional OLAP) qui utilise des
technologies propriétaires [PED01].
     MOLAP stocke les données dans des structures multidimensionnelles
comme des tableaux multidimensionnels, étant ainsi l’image fidèle d’un cube
OLAP (figure 5). Dans ROLAP, les données sont organisées en schémas en
étoile (figure 4) ou en schéma en flocon [VAS99]. Le schéma en étoile
consiste en une table de faits et plusieurs tables dénormalisées. Pour chaque
dimension il existe une table dans laquelle se trouvent tous les niveaux
d’agrégations d’une dimension. Le schéma en flocon représente une version
normalisée du schéma en étoile dans laquelle chaque niveau d’agrégation
d’une dimension possède sa propre table de dimension.

                          Figure 4 : schéma en étoile

                         Figure 5 : exemple d’un cube

     L’avantage principal de MOLAP consiste en une meilleure performance
pour les temps de réponse aux requêtes. Par contre, ROLAP est plus adapté
lorsque le modèle comporte un grand nombre de faits et s’avère plus flexible

                                      38
Chapitre 2. Etude bibliographique et positionnement du problème

en cas de redéfinitions des cubes. Les avantages des deux approches sont
combinés dans HOLAP (Hybrid OLAP) qui utilise les technologies MOLAP
pour stocker les données agrégées et les technologies ROLAP pour stocker les
données détaillées.

2.1.4 Interfaces: les outils front-end
     Les outils « front-end » représentent l’interface entre l’utilisateur et le
système OLAP. Ils permettent aux utilisateurs de naviguer facilement et d’une
manière intuitive à travers les données. Le mode de présentation le plus utilisé
est le tableau multidimensionnel. Les outils front-end mettent à disposition un
certain nombre d’opérations pour la navigation à travers les données. Par
exemple, le « Pivoting » permet de changer une ligne correspondant à une
dimension en une colonne ou vice versa, le « Slice&Dice » permet de réduire
la dimensionnalité des données en projetant les données sur un sous-ensemble
de dimensions sélectionnées et le « Roll-up » et « Drill-Down » permettent la
navigation à travers les données en changeant de niveau hiérarchique.

    Dans la plupart des applications, les dimensions et les faits sont
uniquement des données alphanumériques et c’est le seul type de données
autorisé par les outils d’entrepôts de données et OLAP existants. Or, dans le
monde OLTP, de plus en plus de données plus complexes comme des images,
du son, des vidéos, des cartes et des documents sont intégrés grâce au
développement de formats, de SGBD et de systèmes d’interfaces dédiés (SIG,
PACS,…). Le monde décisionnel doit pouvoir intégrer ce type de données et
fournir des supports adaptés à ces changements dans le monde OLTP.

2.2 La prise en compte de données complexes
    dans les entrepôts
     La majorité des travaux sur les données complexes dans le domaine des
entrepôts de données a été faite dans le cadre de la gestion de données
spatiales. Les systèmes OLAP spécialisés pour l’analyse de données spatiales
sont appelés Spatial OLAP (SOLAP). Les travaux réalisés jusqu’à présent
portant sur la prise en compte de données multimédia comme le signal, les
images, les vidéos, le son, etc. restent peu nombreux.
    Les entrepôts de données SOLAP et les entrepôts de données multimédia
ont un point commun important : les données qu’ils maintiennent sont

                                      39
Vous pouvez aussi lire