Oracle Database 11g pour l'entreposage des données et la Business Intelligence (BI) - Livre blanc Oracle Septembre 2009

La page est créée Lucas Wagner
 
CONTINUER À LIRE
Oracle Database 11g pour l'entreposage des données et la Business Intelligence (BI) - Livre blanc Oracle Septembre 2009
Oracle Database 11g pour l'entreposage des données et la Business Intelligence (BI)

Livre blanc Oracle
Septembre 2009

Oracle Database 11g pour l'entreposage
des données et la
Business Intelligence (BI)
Oracle Database 11g pour l'entreposage des données et la Business Intelligence (BI)

Introduction
Oracle Database 11g est une plate-forme de base de données complète pour
l'entreposage des données et la Business Intelligence (BI). A elle seule, elle affiche les
meilleures performances et la plus grande évolutivité de l'industrie, intègre des capacités
d'analyse et garantit l'intégration et la qualité des données, tout en s'exécutant sur une
infrastructure de grille économique et fiable. Oracle Database 11g propose des
fonctionnalités de pointe pour les entrepôts et mini-entrepôts de données, avec une
évolutivité éprouvée jusqu'à des centaines de téraoctets et des performances
révolutionnaires. Elle intègre également une plate-forme analytique unique ; en
incorporant des capacités OLAP, Data Mining et statistiques directement dans la base de
données, Oracle combine à des fonctionnalités de moteurs analytiques autonomes
l'évolutivité, la sécurité et la fiabilité d'entreprise d'Oracle Database. L'intégration de
données étant une condition sine qua non pour tout entrepôt de données, Oracle
Database 11g inclut Oracle Warehouse Builder, un excellent outil ETL (extraction,
transformation, chargement) qui utilise les capacités d'accès aux données hétérogènes
et de transformation des données évolutives d'Oracle.

Les solutions d'entreposage des données d'Oracle s'étendent désormais aux
composants matériels. Les serveurs Sun Exadata Storage Servers, équipés du logiciel
de stockage Exadata unique d'Oracle, permettent d'obtenir des performances
révolutionnaires et une évolutivité linéaire infinie. Oracle a également collaboré avec Sun
pour proposer Sun Oracle Database Machine, une configuration d'entrepôt complète
dans une seule et même armoire. De plus, Oracle Optimized Warehouse Initiative offre
aux clients un choix de configurations de référence de plusieurs fournisseurs de matériel,
pour des performances optimales.

Ce livre blanc présente les capacités d'Oracle en termes d'entreposage des données et
décrit les principales fonctionnalités et technologies qui permettent aux systèmes
d'entreposage des données et de Business Intelligence basés sur Oracle d'intégrer
facilement des informations, d'effectuer rapidement des requêtes, de s'adapter à de gros
volumes et d'analyser tous types de données.

                                                                                                       1
Oracle Database 11g pour l'entreposage des données et la Business Intelligence (BI)

Matériel
Pour obtenir une solution d'entrepôt de données solide, il faut une infrastructure matérielle
hautes performances et évolutive. L'un des défis des entrepôts de données est de fournir la bande
passante d'E/S nécessaire aux requêtes à grande échelle, plus particulièrement à l'heure où les
volumes de données et les charges de travail utilisateur ne cessent de croître. L'architecture
Oracle Exadata fournit une solution de stockage optimisée pour l'entreposage des données, qui
affiche des performances exceptionnelles pour les requêtes d'entrepôts de données à grande
échelle. La technologie à l'origine de ces gains de performances allie une grille de stockage haut
débit massivement parallèle à la capacité « Smart Scan » unique du logiciel Exadata Storage
Server, qui effectue le traitement SQL dans le serveur de stockage et réduit considérablement le
trafic d'E/S entre les serveurs de stockage et les serveurs de bases de données.
La gamme Oracle Exadata compte deux produits. La gamme de produits Exadata repose sur
l'architecture Sun Oracle Exadata Storage Server. Elle est utilisée pour développer des solutions
d'entreposage de données en utilisant les serveurs de bases de données et les infrastructures
fournis par le client. L'autre produit de la gamme Exadata est Sun Oracle Database Machine.
Cette Database Machine est une solution d'entreposage de données complète et totalement
intégrée, comprenant le stockage, les serveurs et le logiciel de base de données.

Oracle Exadata Storage Server
Sun Oracle Exadata Storage Server est un périphérique de stockage de bases de données, équipé
du logiciel Exadata Storage Server s'exécutant sur du matériel Sun. Le matériel d'Exadata Storage
Server a été choisi avec soin pour répondre aux besoins du traitement de requêtes hautes
performances. Le serveur de stockage est préconfiguré avec deux processeurs quadri-cœurs Intel,
douze disques, quatre cartes Flash, deux ports de connectivité InfiniBand et une carte de gestion
pour l'accès distant. Tous les logiciels sont préinstallés et le serveur peut être installé dans un rack
19 pouces classique.

                                 Sun Oracle Exadata Storage Server

                                                                                                                   2
Oracle Database 11g pour l'entreposage des données et la Business Intelligence (BI)

Sun Oracle Database Machine
Sun Oracle Database Machine est un entrepôt de données aux performances révolutionnaires,
créé à partir de serveurs Exadata Storage Servers et du matériel Sun de pointe développé selon les
normes de l'industrie. Conçu pour les vastes entrepôts de données (plusieurs téraoctets) soumis à
des charges de travail d'E/S intensives, Sun Oracle Database Machine est un ensemble complet,
préconfiguré et préoptimisé de logiciels, de serveurs et de capacités de stockage. Simple et rapide
à mettre en œuvre, chaque rack complet de Sun Oracle Database Machine est conçu pour
accueillir entre 28 To et 100 To de données utilisateur non compressées. Database Machine
                                                       inclut le matériel suivant :
                                                            • quatorze serveurs Exadata Storage
                                                              Servers (SAS ou SATA) ;
                                                            • huit serveurs de bases de données Sun
                                                              X4170 Oracle Database 11g ;
                                                            • l'infrastructure InfiniBand requise
                                                               (adaptateurs hôtes, commutateurs et
                                                               câbles) pour la communication entre
                                                               serveur de bases de données et Exadata
                                                               Storage Server ;
                                                            • un commutateur Ethernet pour la
                                                              communication entre Database Machine
                                                              et les clients ou autres systèmes
                                                              informatiques ;
                                                            • un moniteur, un clavier et une souris ;
                                                            • le tout dans un rack 42U 19 pouces
                                                               standard.

En utilisant une méthodologie de blocs de construction, Sun Oracle Database Machine offre une
méthode d'évolutivité simple et rapide. Lorsque de nouveaux racks d'Oracle Database Machines
sont ajoutés à un système de façon incrémentielle, la capacité de stockage et les performances du
système augmentent ; un système à deux racks est tout simplement deux fois plus puissant qu'un
système à un rack. La montée en charge est simple ; une fois l'Oracle Database Machine
supplémentaire raccordée à l'interconnexion InfiniBand des racks existants, Oracle rééquilibre

                                                                                                                 3
Oracle Database 11g pour l'entreposage des données et la Business Intelligence (BI)

automatiquement la base de données pour utiliser pleinement toutes les capacités de stockage et
la puissance de traitement de tous les racks.
Pour les configurations inférieures, Oracle propose Sun Oracle Database Machine Half Rack,
Quarter Rack et Basic System. Half Rack est un système présentant exactement la moitié de la
configuration du rack complet, c'est-à-dire quatre serveurs de bases de données et sept Exadata
Storage Servers. Quarter Rack est un système doté de deux serveurs de bases de données et de
trois Exadata Storage Servers. Basic System, quant à lui, comprend un seul serveur de bases de
données et un Exadata Storage Server ; contrairement aux autres solutions, Basic System n'est
pas physiquement préinstallé dans un rack, mais doit être installé dans un rack existant du client.
La gamme Exadata offre des capacités matérielles évolutives qui permettent de fournir la bande
passante requise pour les applications d'entreposage des données haut de gamme. Cette solution
complète le logiciel sophistiqué d'Oracle Database 11g, avec son large éventail d'algorithmes de
traitement des requêtes, de capacités d'analyse avancées et de fonctionnalités robustes
d'intégration des données, que nous allons traiter ci-dessous.

Performances
Oracle optimise les performances pour tous types d'environnements d'entrepôts de données. Les
charges de travail d'entrepôts de données sont souvent complexes ; différents utilisateurs
exécutent des opérations très variées avec des niveaux d'exigence multiples et des attentes
différentes en matière de performances des requêtes.
Oracle répond aux attentes de performances d'entrepôts de données en fournissant :
•   Un large éventail de techniques d'optimisation des performances pour chaque type de requête
    et de charge de travail :
    •   techniques avancées d'indexation et d'agrégation pour des temps de réponse inférieurs à une
        seconde dans le cas des requêtes de génération de rapports et de tableaux de bord ;
    •   optimisations des requêtes en étoile et vues matérialisées OLAP pour les requêtes
        dimensionnelles ;
    •   méthodes d'accès aux requêtes en parallèle évolutives pour le traitement des gros volumes de
        données détaillées ;
    •   large bande passante d'E/S avec optimisations des bases de données au niveau du stockage,
        dans Exadata.
•   Un gestionnaire des ressources sophistiqué pour garantir les performances même dans les
    bases de données à charges de données complexes et hétérogènes. Database Resource Manager
    permet de regrouper les utilisateurs finaux en « groupes de consommateurs de ressources » et,
    pour chaque groupe, l'administrateur de bases de données peut définir des stratégies afin de

                                                                                                                    4
Oracle Database 11g pour l'entreposage des données et la Business Intelligence (BI)

    gouverner la quantité de ressources de processeur et d'E/S pouvant être utilisée, ainsi que des
    stratégies spécifiques pour la gouvernance proactive des requêtes et leur mise en file d'attente.
    Avec Database Resource Manager, Oracle fournit les capacités permettant de garantir que
    l'entrepôt de données peut atteindre les niveaux de performances définis par contrat pour tous
    les utilisateurs.
•   Un modèle de cohérence de lecture breveté unique pour que les charges de données n'affectent
    jamais les performances des requêtes. Oracle résout les défis liés aux accès simultanés grâce à
    une technologie de « cohérence de lecture multi-version » ; cette technologie unique constitue
    la base du modèle de simultanéité d'Oracle depuis plus de 15 ans. La cohérence de lecture
    multi-version permet à un utilisateur de toujours obtenir une vue cohérente des données
    demandées. Si un autre utilisateur modifie les données sous-jacentes pendant l'exécution de la
    requête (par exemple, mise à jour progressive d'une vaste table d'entrepôt de données), Oracle
    conserve une version des données telles qu'elles existaient au moment où la requête a
    commencé. Les données retournées à la requête reflètent toujours l'état de la base de données
    (y compris toutes les transactions validées) au moment où la requête a été soumise, quelles que
    soient les autres mises à jour en cours pendant l'exécution de la requête. Avec cette
    technologie, Oracle se positionne de façon unique pour gérer les charges de données en temps
    quasi-réel au sein des environnements d'entrepôts de données.
•   Des Management Packs pour automatiser l'ajustement des performances en continu d'un
    entrepôt de données.
Oracle Database 11g propose trois nouvelles fonctionnalités innovantes en matière de
performances :

Exadata Smart Scans
Avec les systèmes de stockage traditionnels, toute l'intelligence des bases de données réside sur
les serveurs de bases de données. Dans le cas d'Exadata, en revanche, l'intelligence des bases de
données est intégrée aux serveurs de stockage. Cela permet aux opérations de bases de données,
notamment au traitement SQL, d'exploiter à la fois les serveurs de stockage et les serveurs de
bases de données afin d'accroître considérablement les performances. Smart Scans est la fonction
clé de tout ceci. Il s'agit d'une technologie qui consiste à décharger une partie du traitement des
données vers Exadata Storage Server. La plupart des requêtes SQL des entrepôts de données à
grande échelle s'exécutent uniquement sur un sous-ensemble de lignes et de colonnes des tables
(par exemple, une requête qui recherche des transactions commerciales pour les clients ayant
acheté un ensemble de produits spécifique). Avec Smart Scans, seules les lignes et colonnes
pertinentes seront renvoyées aux serveurs de bases de données pour calculer les résultats finaux,
c'est-à-dire, normalement, une quantité de données relativement petite. En utilisant des index de
stockage, Smart Scans identifiera les sections de données pertinentes sans accéder à l'ensemble de
la table ; Smart Scans exécutera ensuite le filtrage des lignes (évaluation des prédicats de clause
where) et le filtrage des colonnes (évaluation de la liste select) de base sur le serveur de stockage

                                                                                                                   5
Oracle Database 11g pour l'entreposage des données et la Business Intelligence (BI)

Exadata, en lisant les sections de données pertinentes à partir du disque ou de la mémoire Flash.
Si une requête requiert l'analyse d'une table de 1 To, les serveurs de stockage Exadata doivent
analyser physiquement moins d'1 To et seules les données pertinentes (souvent quelques Go,
voire moins) sont envoyées aux serveurs de bases de données pour le traitement SQL
supplémentaire. Smart Scans peut améliorer les performances des vastes requêtes de façon
exceptionnelle. De plus, avec la bande passante d'E/S largement supérieure de l'architecture
Exadata, cette fonction fournit les meilleures performances du secteur pour les requêtes à grande
échelle.

Exécution parallèle en mémoire
L'exécution parallèle est une des technologies fondamentales qui permet aux entreprises de gérer
des dizaines voire des centaines de téraoctets de données et d'y accéder. Elle consiste à appliquer
plusieurs ressources de processeur et d'E/S à l'exécution d'une seule opération de base de
données. Tandis qu'Oracle Database a toujours exploité la mémoire pour améliorer les
performances des requêtes via le cache des tampons et d'autres techniques, le nombre croissant
de nœuds dans les environnements de clusters d'applications réels de type grille et la baisse des
prix de la mémoire entraînent une augmentation considérable de la mémoire disponible pour les
entrepôts de données à grande échelle - la mémoire totale atteignant des centaines de Go voire
plusieurs To. L'exécution parallèle en mémoire d'Oracle exploite la quantité totale de mémoire
disponible dans ces vastes systèmes et offre ainsi la parallélisation en mémoire à l'échelle du
cluster. Au moment de l'exécution, chaque nœud actif d'un cluster mettra en cache un sous-
ensemble des données traitées en parallèle ; les opérations parallèles ultérieures accédant aux
mêmes grands objets exploiteront le cache de tous les nœuds actifs. Cela permet non seulement
de réduire le nombre d'E/S nécessaires à la satisfaction d'une requête métier donnée, mais
améliore également considérablement l'exécution pour les requêtes individuelles et la charge de
travail globale qu'un système peut gérer. L'exécution parallèle en mémoire complète la
technologie Exadata Smart Scan et présente de nombreux avantages : la base de données prendra
automatiquement en compte pour l'exécution parallèle en mémoire uniquement les objets qui
correspondent totalement ou en grande partie à la mémoire disponible ; dès que le volume de
données dépasse la mémoire disponible de façon significative, le traitement Exadata Smart Scan
se lance, ce qui est plus avantageux que de traiter l'opération partiellement en mémoire.

Vues matérialisées OLAP
Les méthodes d'ajustement des performances conventionnelles pour les schémas en étoile des
entrepôts de données ont longtemps impliqué l'utilisation de tables de résumé (ou vues
matérialisées). Avec cette approche, les performances des requêtes sont améliorées par le pré-
calcul d'un ou de plusieurs résumés et le stockage de ces résumés dans l'entrepôt de données. Ces
résumés sont complètement transparents pour l'application, étant donné que la base de données
offre des capacités de « réécriture de requête », dans lesquelles une requête exécutée sur un

                                                                                                                 6
Oracle Database 11g pour l'entreposage des données et la Business Intelligence (BI)

ensemble basique de tables à schéma en étoile est réécrite pour accéder aux données de résumé.
L'une des difficultés des vues matérialisées est qu'un schéma en étoile peut avoir des milliers
voire des millions d'agrégations possibles, susceptibles d'être stockées en tant que tables de
résumé. Il n'est donc pas pratique de créer une vue matérialisée pour toutes les agrégations
possibles ; l'utilisation de l'espace et les coûts de maintenance associés seraient trop élevés.
Toutefois, ce scénario peut être résolu à l'aide des vues matérialisées OLAP. Une vue matérialisée
OLAP exploite les structures de données OLAP, dans lesquelles toutes les agrégations possibles
peuvent être rapidement récupérées. Ainsi, un schéma en étoile avec une vue matérialisée OLAP
fournit les performances d'un schéma en étoile avec des milliers de vues matérialisées
relationnelles… mais avec un cube OLAP unique et simple à gérer, hautement compressé et qui
fournit d'excellentes capacités de mise à jour. Cette application de la technologie OLAP à des
charges de travail générales d'entrepôts de données est exclusive à Oracle. Tandis que les
précédentes solutions OLAP étaient accessibles via une API OLAP, Oracle OLAP offre les
avantages d'OLAP en termes de performances à tous les utilisateurs d'entrepôts de données quel
que soit l'outil SQL utilisé.

Mise à l'échelle
La taille des entrepôts de données les plus vastes augmente de façon exponentielle. De nos jours,
de plus en plus de processus métier évoluent vers le tout automatisé et de plus en plus de
données sont collectées à des niveaux plus détaillés ; les augmentations des volumes de données
ne montrent donc aucun signe de ralentissement. Oracle Database 11g offre quatre
fonctionnalités clés pour l'évolutivité : partitionnement, compression, mise en cluster et
parallélisme.

Partitionnement
Oracle Partitioning est une fonction essentielle pour la gestion des bases de données
volumineuses. Elle permet d'adopter la technique du « diviser pour mieux régner » pour gérer les
grandes tables de la base de données, notamment lorsqu'elles augmentent.
Même si votre base de données devait contenir l'an prochain le double des données qu'elle
contient aujourd'hui, vos utilisateurs finaux ne toléreraient pas que leur application s'exécute deux
fois moins vite. Votre base de données ne se verrait pas accorder deux fois plus de temps pour
effectuer la maintenance et le traitement par lots et vos responsables informatiques ne
doubleraient pas le budget matériel pour l'entrepôt de données. Le partitionnement est la
fonction qui permet à une base de données de s'adapter à de très grands ensembles de données
tout en garantissant des performances cohérentes, sans augmenter les ressources matérielles ou
administratives. Le partitionnement divise de grandes tables en parties de taille inférieure, ce qui
permet de maintenir les performances des fenêtres de gestion de données et de nombreuses
requêtes d'utilisateurs finaux, même lorsque les données augmentent.

                                                                                                                  7
Oracle Database 11g pour l'entreposage des données et la Business Intelligence (BI)

Oracle est leader du secteur avec ses technologies de partitionnement complètes. Elles incluent
neuf méthodes de partitionnement de tables, la possibilité pour l'administrateur de bases de
données de définir des schémas de partitionnement personnalisés, un ensemble détaillé de
commandes administratives pour les tables partitionnées et un conseiller de partitionnement pour
guider les administrateurs.
Le partitionnement permet également d'utiliser des stratégies ILM (Information Lifecycle
Management, gestion du cycle de vie des informations) dans la base de données Oracle. Une
table, lorsqu'elle est partitionnée, peut être distribuée à travers différents niveaux de stockage. Les
données anciennes faisant l'objet d'accès moins fréquents, correspondant à des partitions plus
anciennes, peuvent être stockées sur des périphériques de stockage moins onéreux. Pour les
bases de données volumineuses, cette approche permet de réaliser d'importantes économies.

Compression
Les capacités de compression sont utilisées au sein de très vastes entrepôts de données. Etant
donné que les clients cherchent à stocker des volumes de données de plus en plus conséquents, la
compression s'impose naturellement. Par de nouvelles techniques de compression, Oracle 11g
Release 2 amène la compression de bases de données à un niveau supérieur. Oracle permet de
compresser toutes les tables d'un entrepôt de données :
•   Compression « OLTP » : technologie originale de compression de tables d'Oracle, cette
    technique fournit un rapport de compression de 3/1 pour les entrepôts de données,
    pratiquement sans impact sur les performances de requêtes. Cette technique de compression
    permet des mises à jour efficaces pour prendre en charge la compression même pour les tables
    d'entrepôts de données qui sont mises à jour de façon progressive ou fréquente.
•   Compression « entrepôt » : reposant sur Exadata Hybrid Columnar Compression, cette
    technique fournit un rapport de compression pouvant aller jusqu'à 10/1 pour les entrepôts de
    données, pratiquement sans impact sur les performances de requêtes.
•   Compression d'archive : reposant sur Exadata Hybrid Columnar Compression, cette technique
    fournit un rapport de compression pouvant aller jusqu'à 40/1 pour les entrepôts de données,
    mais implique certains effets sur les performances des requêtes.

Real Application Clusters
Real Application Clusters permet de répartir une seule base de données sur plusieurs serveurs.
Pour l'entreposage des données, RAC fournit une solution de montée en puissance pour évoluer
vers des centaines de processeurs. L'architecture RAC apporte des avantages uniques pour
l'entreposage des données Oracle. Outre la capacité à ajouter de la puissance informatique brute à
un système d'entrepôt de données, RAC garantit également la haute disponibilité contre les
défaillances de nœuds.

                                                                                                                   8
Oracle Database 11g pour l'entreposage des données et la Business Intelligence (BI)

RAC offre également la souplesse nécessaire pour gérer plusieurs charges de données au sein
d'une même base de données. En utilisant les « services RAC », différentes applications peuvent
être affectées à des services distincts qui, à leur tour, peuvent s'exécuter sur des nœuds distincts
d'un cluster. Par exemple, les utilisateurs de mini-entrepôts de données pourraient être affectés à
un ensemble de nœuds tandis que les opérations ETL seraient affectées à un autre ensemble de
nœuds. L'un des atouts de RAC est la capacité à modifier et à ajuster dynamiquement ces charges
de travail. Il est facile d'allouer dynamiquement des nœuds supplémentaires au traitement ETL de
nuit, par exemple, pour les réallouer au traitement des requêtes de jour.

Parallélisme
Le parallélisme est la capacité à exploiter plusieurs processus pour l'exécution d'une seule
opération de base de données. L'architecture d'exécution parallèle évolutive d'Oracle s'ajuste
dynamiquement pour répondre aux demandes de tous les utilisateurs. Pour des opérations de
grande ampleur, Oracle parallélise les opérations de bases de données à travers tous les nœuds et
processeurs disponibles. Pour les opérations moins exigeantes, Oracle ajuste dynamiquement le
parallélisme afin d'optimiser le rendement global du système tandis que Database Resource
Manager s'assure que les opérations bénéficient des ressources appropriées.

Analyse
Les technologies OLAP, de statistiques et de Data Mining ne sont pas vraiment nouvelles pour
l'entreposage des données et la Business Intelligence. Toutefois, les produits OLAP possèdent
généralement leur propre moteur de calcul, les produits de statistiques ont leur propre moteur de
données et les produits de Data Mining ont leurs propres moteurs d'exploration. En résumé,
dans ces conditions, un environnement de Business Intelligence à l'échelle d'une entreprise
devrait avoir quatre différents types de « moteurs de données » ; chacun nécessitant ses propres
serveurs, ses propres copies des données, sa propre infrastructure de gestion, sa propre
administration de la sécurité et son infrastructure haute disponibilité. De plus, chaque moteur
dispose de ses propres API et de son propre jeu d'outils pour développeurs et d'outils pour
utilisateurs finaux. La complexité et les coûts liés à la réplication de piles entières de technologies
BI sont considérables.
Oracle Database propose une approche totalement différente en intégrant les technologies
OLAP, de Data Mining et de statistiques au moteur de base de données. Au lieu de déplacer les
données d'un entrepôt de données vers d'autres moteurs d'analyse pour une analyse poussée,
Oracle a intégré les algorithmes d'analyse avancés à sa base de données, dans laquelle résident les
données. De plus, Oracle fournit l'accès SQL à toutes ses fonctionnalités d'analyse de sorte
qu'elles peuvent être mises en œuvre avec tout environnement applicatif ou outil SQL.
Au-delà des avantages considérables de la consolidation de l'architecture de données principale
d'un environnement BI d'entreprise, l'intégration de l'analyse à Oracle Database présente une

                                                                                                                   9
Oracle Database 11g pour l'entreposage des données et la Business Intelligence (BI)

multitude d'avantages, inexistants dans les environnements autonomes. Par exemple, votre
serveur OLAP autonome est-il capable de s'adapter à des centaines de processeurs ou de clusters
de serveurs ? Votre moteur d'exploration de données s'intègre-t-il facilement à votre serveur
d'authentification utilisateur ? Peut-il mettre en œuvre toutes vos stratégies de sécurité des
données de façon transparente ? Parvenez-vous à intégrer facilement les résultats de vos analyses
statistiques à vos données d'entrepôt de données ? Avec Oracle Database, toutes ces questions
trouvent une réponse affirmative simplement grâce à l'intégration étroite d'OLAP, du Data
Mining et des statistiques.

Data Mining
Oracle Data Mining est un logiciel puissant incorporé à Oracle Database qui vous permet de
découvrir de nouvelles perspectives cachées dans vos données. Oracle Data Mining aide les
entreprises à cibler leurs meilleurs clients, à identifier et à prévenir les erreurs, à détecter les
attributs qui influencent le plus les indicateurs de performances clés et à découvrir de nouvelles
informations utiles, cachées dans les données. Oracle Data Mining aide les techniciens à trouver
des modèles dans leurs données, à identifier les attributs clés, à découvrir de nouveaux clusters et
associations, ainsi que des perspectives intéressantes.
Pour résoudre les problèmes métier, Oracle Data Mining permet aux entreprises de trouver de
nouvelles informations dans leurs données, en utilisant une vaste gamme d'algorithmes de pointe.
Les algorithmes d'exploration de données sont des techniques d'apprentissage automatique qui
permettent d'analyser les données pour découvrir des modèles et des relations. Oracle fournit
plusieurs algorithmes car à chaque type d'analyses et problème métier correspond un algorithme
spécifique.
La plupart des algorithmes d'exploration de données peuvent être séparés en techniques
d'exploration de données à « apprentissage supervisé » et à « apprentissage non supervisé ».
L'apprentissage supervisé requiert que l'analyste des données identifie un attribut cible ou une
variable dépendante (par exemple, des clients ayant acheté un produit spécifique). L'apprentissage
non supervisé examine ensuite les données en essayant de trouver des modèles et des relations
entre les attributs et l'attribut cible (par exemple, les caractéristiques indiquant si un prospect est
susceptible d'acheter un produit spécifique). Les algorithmes d'apprentissage supervisé d'Oracle
Data Mining incluent Naïve Bayes, Decision Tree (arbre de décision), General Linear Models
(modèles linéaires généralisés) et Support Vector Machines (machines à vecteurs de support).
L'autre vaste catégorie d'algorithmes d'exploration de données concerne l'apprentissage non
supervisé. Dans ces scénarios, il n'y a pas d'attribut cible ; au lieu de cela, les algorithmes
recherchent des associations et clusters dans les données, sans objectif métier prédéfini. Ces
algorithmes incluent Enhanced k-Means Clustering (gestion de clusters k-Means améliorée),
Orthogonal Partitioning Clustering (clusters avec partitionnement orthogonal), Association Rules
(analyse du panier d'achat) et Nonnegative Matrix Factorization (factorisation en matrices non
négatives).

                                                                                                                  10
Oracle Database 11g pour l'entreposage des données et la Business Intelligence (BI)

Oracle Data Mining inclut Oracle Data Miner, une interface utilisateur graphique qui permet aux
analystes de données de générer, d'évaluer et d'appliquer des modèles d'exploration de données.
Oracle Data Miner guide les analystes de données à travers le processus d'exploration de données
avec une réelle souplesse et présente les résultats sous forme de graphiques et de tableaux. Oracle
Data Miner peut générer le code PL/SQL associé à une activité d'exploration.

OLAP
Oracle OLAP est un moteur de traitement analytique en ligne riche en fonctionnalités, incorporé
à Oracle Database. Oracle OLAP améliore les entrepôts de données en améliorant les
performances des requêtes (comme décrit dans la section sur les performances) et en ajoutant du
contenu analytique enrichi.
Les cubes sont la clé de voûte d'Oracle OLAP. Gérée au sein de la base de données Oracle, cette
structure de données stocke les données dans un format multidimensionnel hautement optimisé.
Les cubes permettent un stockage compressé et évolutif des données dimensionnelles, une mise à
jour incrémentielle rapide, d'excellentes performances de requêtes et offrent la possibilité
d'effectuer ou de stocker des calculs analytiques avancés.
Avec Oracle OLAP, la stratégie d'Oracle est de faire bénéficier l'entrepôt de données de ces
atouts OLAP. Pour cela, les fonctionnalités clés d'Oracle OLAP sont exposées via le code SQL
standard pour que tous les outils de Business Intelligence ou autres applications SQL puissent
exploiter OLAP.
Les fonctionnalités d'intégration SQL clés incluent la capacité à accéder aux cubes OLAP via les
vues SQL, qui exposent un cube multidimensionnel en tant qu'ensemble de tables de dimensions
et de tables de faits ; les vues matérialisées basées sur des cubes, qui permettent d'utiliser les
cubes OLAP comme des vues matérialisées ; l'intégration de dictionnaires de données pour que
les outils de requêtes SQL et les développeurs SQL puissent rapidement identifier tous les cubes
et leurs attributs ; et l'intégration de chemins d'accès aux cubes à l'optimiseur Oracle.

Intégration
De nos jours, l'architecture des informations est beaucoup plus dynamique qu'elle ne l'était il y a
quelques années seulement. Les entreprises demandent désormais davantage d'informations.
Elles les veulent plus rapidement et fournissent davantage de données d'analyse à un ensemble
d'utilisateurs et d'applications en constante augmentation.

                                                                                                                 11
Oracle Database 11g pour l'entreposage des données et la Business Intelligence (BI)

Oracle Warehouse Builder et Oracle Data Integrator
Pour répondre à ces exigences métier, Oracle Database 11g inclut un outil d'intégration de
données avancé : Oracle Warehouse Builder (OWB). OWB est une fonction de base de données
en standard, conçue pour permettre aux clients Oracle de générer un entrepôt ou mini-entrepôt
de données, quelle qu'en soit la taille. Cet outil inclut un référentiel de métadonnées
multiutilisateur d'entreprise, des fonctionnalités de modélisation de données et un large éventail
de techniques de transformation et d'extraction. De plus, il affiche les performances et
l'évolutivité d'une architecture ELT.
Les fonctions avancées d'OWB, qui faisaient précédemment partie de l'option Enterprise ETL,
ont été fusionnées dans Oracle Data Integrator Enterprise Edition. Oracle Data Integrator
fournit non seulement les capacités ELT les plus souvent requises par l'entrepôt de données,
mais offre également une plate-forme d'intégration d'entreprise pour intégrer, par exemple, des
services de données SOA ou des flux de données dirigés par des événements. A présent, Oracle
inclut les fonctionnalités avancées d'Oracle Data Integrator et d'Oracle Warehouse Builder
comme deux composants d'Oracle Data Integrator Enterprise Edition. Bientôt, ces produits
fusionneront en une plate-forme technologique d'intégration de données unifiée. Cette stratégie
conserve totalement les investissements de développement existants de tous les clients
d'intégration de données Oracle et fournira une méthode de mise à niveau simple et transparente
des composants actuels vers la plate-forme unifiée.

Fonctionnalités clés de l'intégration de base de données
Oracle Warehouse Builder utilise une architecture ELT (extraction, chargement, transformation).
Plutôt que de fournir un moteur externe de transformation des données, OWB exécute toutes ses
transformations au sein d'une base de données Oracle, en exploitant l'évolutivité et les
performances de la plate-forme de base de données. La base de données Oracle présente un large
éventail de capacités d'extraction, de chargement et de transformation. Ces capacités sont
exploitées par OWB, mais peuvent être utilisées dans tout environnement dans lequel des
données sont intégrées à un entrepôt de données Oracle. Ces fonctionnalités incluent :
•   Database Gateways pour l'accès aux systèmes non-Oracle
•   Utilitaire Loader pour des chargements de données rapides des fichiers plats
•   Extensions SQL pour les transformations de données : instruction MERGE
•   Fonctions de tables : transformations définies par l'utilisateur parallèles et efficaces
•   Capture de données modifiées pour la capture basée sur des journaux à faible latence à partir
    des bases de données Oracle

                                                                                                                    12
Oracle Database 11g pour l'entreposage des données et la Business Intelligence (BI)

Conclusion
Oracle Database est leader du marché en matière d'entreposage des données, grâce à son
évolutivité et à ses performances exceptionnelles, mais aussi à des fonctionnalités innovantes
telles que le modèle de cohérence de lecture exclusif d'Oracle pour les entrepôts de données en
temps quasi-réel, à son large éventail de capacités de partitionnement des tables, à l'utilisation de
la technologie OLAP pour l'amélioration des environnements relationnels et à une prise en
charge inégalée des architectures de grille. La combinaison d'Oracle Database et d'une grille de
stockage Oracle Exadata fournit les meilleurs niveaux de performances pour les charges de travail
exigeantes en E/S. De plus, avec Sun Oracle Database Machine, Oracle propose une solution
matérielle et logicielle complète pour l'entreposage des données.

                                                                                                                 13
Oracle Database 11g pour l'entreposage des
données et la Business Intelligence (BI)
Septembre 2009
Auteur : George Lumpkin
                                               Copyright © 2009, Oracle et/ou ses affiliés. Tous droits réservés. Ce document est fourni à titre informatif uniquement et les
                                               informations qu'il contient peuvent faire l'objet de modifications sans préavis. Oracle ne garantit pas que ce document soit exempt
                                               d'erreur et exclut toute garantie ou condition, expresse ou implicite, notamment toute garantie et condition implicite de
Oracle Corporation
                                               commercialisation ou d'adéquation à un usage particulier. Nous déclinons en particulier toute responsabilité concernant ce
World Headquarters
                                               document, qui n'implique aucune obligation contractuelle directe ou indirecte. Ce document ne peut être ni reproduit ni transmis à
500 Oracle Parkway
                                               quelque fin, sous quelque forme ou par quelque moyen que ce soit (électronique ou mécanique) sans notre autorisation écrite
Redwood Shores, CA 94065
                                               préalable.
U.S.A.

Demandes de renseignements - International :   Oracle est une marque déposée d'Oracle Corporation et/ou de ses affiliés. Tout autre nom mentionné peut correspondre à des

Tél. : +1.650.506.7000                         marques appartenant à d'autres propriétaires qu'Oracle.

Fax : +1.650.506.7200
oracle.fr                                      0109
Vous pouvez aussi lire