Oracle Database 11g pour l'entreposage des données et la Business Intelligence (BI) - Livre blanc Oracle Septembre 2009
←
→
Transcription du contenu de la page
Si votre navigateur ne rend pas la page correctement, lisez s'il vous plaît le contenu de la page ci-dessous
Oracle Database 11g pour l'entreposage des données et la Business Intelligence (BI) Livre blanc Oracle Septembre 2009 Oracle Database 11g pour l'entreposage des données et la Business Intelligence (BI)
Oracle Database 11g pour l'entreposage des données et la Business Intelligence (BI) Introduction Oracle Database 11g est une plate-forme de base de données complète pour l'entreposage des données et la Business Intelligence (BI). A elle seule, elle affiche les meilleures performances et la plus grande évolutivité de l'industrie, intègre des capacités d'analyse et garantit l'intégration et la qualité des données, tout en s'exécutant sur une infrastructure de grille économique et fiable. Oracle Database 11g propose des fonctionnalités de pointe pour les entrepôts et mini-entrepôts de données, avec une évolutivité éprouvée jusqu'à des centaines de téraoctets et des performances révolutionnaires. Elle intègre également une plate-forme analytique unique ; en incorporant des capacités OLAP, Data Mining et statistiques directement dans la base de données, Oracle combine à des fonctionnalités de moteurs analytiques autonomes l'évolutivité, la sécurité et la fiabilité d'entreprise d'Oracle Database. L'intégration de données étant une condition sine qua non pour tout entrepôt de données, Oracle Database 11g inclut Oracle Warehouse Builder, un excellent outil ETL (extraction, transformation, chargement) qui utilise les capacités d'accès aux données hétérogènes et de transformation des données évolutives d'Oracle. Les solutions d'entreposage des données d'Oracle s'étendent désormais aux composants matériels. Les serveurs Sun Exadata Storage Servers, équipés du logiciel de stockage Exadata unique d'Oracle, permettent d'obtenir des performances révolutionnaires et une évolutivité linéaire infinie. Oracle a également collaboré avec Sun pour proposer Sun Oracle Database Machine, une configuration d'entrepôt complète dans une seule et même armoire. De plus, Oracle Optimized Warehouse Initiative offre aux clients un choix de configurations de référence de plusieurs fournisseurs de matériel, pour des performances optimales. Ce livre blanc présente les capacités d'Oracle en termes d'entreposage des données et décrit les principales fonctionnalités et technologies qui permettent aux systèmes d'entreposage des données et de Business Intelligence basés sur Oracle d'intégrer facilement des informations, d'effectuer rapidement des requêtes, de s'adapter à de gros volumes et d'analyser tous types de données. 1
Oracle Database 11g pour l'entreposage des données et la Business Intelligence (BI) Matériel Pour obtenir une solution d'entrepôt de données solide, il faut une infrastructure matérielle hautes performances et évolutive. L'un des défis des entrepôts de données est de fournir la bande passante d'E/S nécessaire aux requêtes à grande échelle, plus particulièrement à l'heure où les volumes de données et les charges de travail utilisateur ne cessent de croître. L'architecture Oracle Exadata fournit une solution de stockage optimisée pour l'entreposage des données, qui affiche des performances exceptionnelles pour les requêtes d'entrepôts de données à grande échelle. La technologie à l'origine de ces gains de performances allie une grille de stockage haut débit massivement parallèle à la capacité « Smart Scan » unique du logiciel Exadata Storage Server, qui effectue le traitement SQL dans le serveur de stockage et réduit considérablement le trafic d'E/S entre les serveurs de stockage et les serveurs de bases de données. La gamme Oracle Exadata compte deux produits. La gamme de produits Exadata repose sur l'architecture Sun Oracle Exadata Storage Server. Elle est utilisée pour développer des solutions d'entreposage de données en utilisant les serveurs de bases de données et les infrastructures fournis par le client. L'autre produit de la gamme Exadata est Sun Oracle Database Machine. Cette Database Machine est une solution d'entreposage de données complète et totalement intégrée, comprenant le stockage, les serveurs et le logiciel de base de données. Oracle Exadata Storage Server Sun Oracle Exadata Storage Server est un périphérique de stockage de bases de données, équipé du logiciel Exadata Storage Server s'exécutant sur du matériel Sun. Le matériel d'Exadata Storage Server a été choisi avec soin pour répondre aux besoins du traitement de requêtes hautes performances. Le serveur de stockage est préconfiguré avec deux processeurs quadri-cœurs Intel, douze disques, quatre cartes Flash, deux ports de connectivité InfiniBand et une carte de gestion pour l'accès distant. Tous les logiciels sont préinstallés et le serveur peut être installé dans un rack 19 pouces classique. Sun Oracle Exadata Storage Server 2
Oracle Database 11g pour l'entreposage des données et la Business Intelligence (BI) Sun Oracle Database Machine Sun Oracle Database Machine est un entrepôt de données aux performances révolutionnaires, créé à partir de serveurs Exadata Storage Servers et du matériel Sun de pointe développé selon les normes de l'industrie. Conçu pour les vastes entrepôts de données (plusieurs téraoctets) soumis à des charges de travail d'E/S intensives, Sun Oracle Database Machine est un ensemble complet, préconfiguré et préoptimisé de logiciels, de serveurs et de capacités de stockage. Simple et rapide à mettre en œuvre, chaque rack complet de Sun Oracle Database Machine est conçu pour accueillir entre 28 To et 100 To de données utilisateur non compressées. Database Machine inclut le matériel suivant : • quatorze serveurs Exadata Storage Servers (SAS ou SATA) ; • huit serveurs de bases de données Sun X4170 Oracle Database 11g ; • l'infrastructure InfiniBand requise (adaptateurs hôtes, commutateurs et câbles) pour la communication entre serveur de bases de données et Exadata Storage Server ; • un commutateur Ethernet pour la communication entre Database Machine et les clients ou autres systèmes informatiques ; • un moniteur, un clavier et une souris ; • le tout dans un rack 42U 19 pouces standard. En utilisant une méthodologie de blocs de construction, Sun Oracle Database Machine offre une méthode d'évolutivité simple et rapide. Lorsque de nouveaux racks d'Oracle Database Machines sont ajoutés à un système de façon incrémentielle, la capacité de stockage et les performances du système augmentent ; un système à deux racks est tout simplement deux fois plus puissant qu'un système à un rack. La montée en charge est simple ; une fois l'Oracle Database Machine supplémentaire raccordée à l'interconnexion InfiniBand des racks existants, Oracle rééquilibre 3
Oracle Database 11g pour l'entreposage des données et la Business Intelligence (BI) automatiquement la base de données pour utiliser pleinement toutes les capacités de stockage et la puissance de traitement de tous les racks. Pour les configurations inférieures, Oracle propose Sun Oracle Database Machine Half Rack, Quarter Rack et Basic System. Half Rack est un système présentant exactement la moitié de la configuration du rack complet, c'est-à-dire quatre serveurs de bases de données et sept Exadata Storage Servers. Quarter Rack est un système doté de deux serveurs de bases de données et de trois Exadata Storage Servers. Basic System, quant à lui, comprend un seul serveur de bases de données et un Exadata Storage Server ; contrairement aux autres solutions, Basic System n'est pas physiquement préinstallé dans un rack, mais doit être installé dans un rack existant du client. La gamme Exadata offre des capacités matérielles évolutives qui permettent de fournir la bande passante requise pour les applications d'entreposage des données haut de gamme. Cette solution complète le logiciel sophistiqué d'Oracle Database 11g, avec son large éventail d'algorithmes de traitement des requêtes, de capacités d'analyse avancées et de fonctionnalités robustes d'intégration des données, que nous allons traiter ci-dessous. Performances Oracle optimise les performances pour tous types d'environnements d'entrepôts de données. Les charges de travail d'entrepôts de données sont souvent complexes ; différents utilisateurs exécutent des opérations très variées avec des niveaux d'exigence multiples et des attentes différentes en matière de performances des requêtes. Oracle répond aux attentes de performances d'entrepôts de données en fournissant : • Un large éventail de techniques d'optimisation des performances pour chaque type de requête et de charge de travail : • techniques avancées d'indexation et d'agrégation pour des temps de réponse inférieurs à une seconde dans le cas des requêtes de génération de rapports et de tableaux de bord ; • optimisations des requêtes en étoile et vues matérialisées OLAP pour les requêtes dimensionnelles ; • méthodes d'accès aux requêtes en parallèle évolutives pour le traitement des gros volumes de données détaillées ; • large bande passante d'E/S avec optimisations des bases de données au niveau du stockage, dans Exadata. • Un gestionnaire des ressources sophistiqué pour garantir les performances même dans les bases de données à charges de données complexes et hétérogènes. Database Resource Manager permet de regrouper les utilisateurs finaux en « groupes de consommateurs de ressources » et, pour chaque groupe, l'administrateur de bases de données peut définir des stratégies afin de 4
Oracle Database 11g pour l'entreposage des données et la Business Intelligence (BI) gouverner la quantité de ressources de processeur et d'E/S pouvant être utilisée, ainsi que des stratégies spécifiques pour la gouvernance proactive des requêtes et leur mise en file d'attente. Avec Database Resource Manager, Oracle fournit les capacités permettant de garantir que l'entrepôt de données peut atteindre les niveaux de performances définis par contrat pour tous les utilisateurs. • Un modèle de cohérence de lecture breveté unique pour que les charges de données n'affectent jamais les performances des requêtes. Oracle résout les défis liés aux accès simultanés grâce à une technologie de « cohérence de lecture multi-version » ; cette technologie unique constitue la base du modèle de simultanéité d'Oracle depuis plus de 15 ans. La cohérence de lecture multi-version permet à un utilisateur de toujours obtenir une vue cohérente des données demandées. Si un autre utilisateur modifie les données sous-jacentes pendant l'exécution de la requête (par exemple, mise à jour progressive d'une vaste table d'entrepôt de données), Oracle conserve une version des données telles qu'elles existaient au moment où la requête a commencé. Les données retournées à la requête reflètent toujours l'état de la base de données (y compris toutes les transactions validées) au moment où la requête a été soumise, quelles que soient les autres mises à jour en cours pendant l'exécution de la requête. Avec cette technologie, Oracle se positionne de façon unique pour gérer les charges de données en temps quasi-réel au sein des environnements d'entrepôts de données. • Des Management Packs pour automatiser l'ajustement des performances en continu d'un entrepôt de données. Oracle Database 11g propose trois nouvelles fonctionnalités innovantes en matière de performances : Exadata Smart Scans Avec les systèmes de stockage traditionnels, toute l'intelligence des bases de données réside sur les serveurs de bases de données. Dans le cas d'Exadata, en revanche, l'intelligence des bases de données est intégrée aux serveurs de stockage. Cela permet aux opérations de bases de données, notamment au traitement SQL, d'exploiter à la fois les serveurs de stockage et les serveurs de bases de données afin d'accroître considérablement les performances. Smart Scans est la fonction clé de tout ceci. Il s'agit d'une technologie qui consiste à décharger une partie du traitement des données vers Exadata Storage Server. La plupart des requêtes SQL des entrepôts de données à grande échelle s'exécutent uniquement sur un sous-ensemble de lignes et de colonnes des tables (par exemple, une requête qui recherche des transactions commerciales pour les clients ayant acheté un ensemble de produits spécifique). Avec Smart Scans, seules les lignes et colonnes pertinentes seront renvoyées aux serveurs de bases de données pour calculer les résultats finaux, c'est-à-dire, normalement, une quantité de données relativement petite. En utilisant des index de stockage, Smart Scans identifiera les sections de données pertinentes sans accéder à l'ensemble de la table ; Smart Scans exécutera ensuite le filtrage des lignes (évaluation des prédicats de clause where) et le filtrage des colonnes (évaluation de la liste select) de base sur le serveur de stockage 5
Oracle Database 11g pour l'entreposage des données et la Business Intelligence (BI) Exadata, en lisant les sections de données pertinentes à partir du disque ou de la mémoire Flash. Si une requête requiert l'analyse d'une table de 1 To, les serveurs de stockage Exadata doivent analyser physiquement moins d'1 To et seules les données pertinentes (souvent quelques Go, voire moins) sont envoyées aux serveurs de bases de données pour le traitement SQL supplémentaire. Smart Scans peut améliorer les performances des vastes requêtes de façon exceptionnelle. De plus, avec la bande passante d'E/S largement supérieure de l'architecture Exadata, cette fonction fournit les meilleures performances du secteur pour les requêtes à grande échelle. Exécution parallèle en mémoire L'exécution parallèle est une des technologies fondamentales qui permet aux entreprises de gérer des dizaines voire des centaines de téraoctets de données et d'y accéder. Elle consiste à appliquer plusieurs ressources de processeur et d'E/S à l'exécution d'une seule opération de base de données. Tandis qu'Oracle Database a toujours exploité la mémoire pour améliorer les performances des requêtes via le cache des tampons et d'autres techniques, le nombre croissant de nœuds dans les environnements de clusters d'applications réels de type grille et la baisse des prix de la mémoire entraînent une augmentation considérable de la mémoire disponible pour les entrepôts de données à grande échelle - la mémoire totale atteignant des centaines de Go voire plusieurs To. L'exécution parallèle en mémoire d'Oracle exploite la quantité totale de mémoire disponible dans ces vastes systèmes et offre ainsi la parallélisation en mémoire à l'échelle du cluster. Au moment de l'exécution, chaque nœud actif d'un cluster mettra en cache un sous- ensemble des données traitées en parallèle ; les opérations parallèles ultérieures accédant aux mêmes grands objets exploiteront le cache de tous les nœuds actifs. Cela permet non seulement de réduire le nombre d'E/S nécessaires à la satisfaction d'une requête métier donnée, mais améliore également considérablement l'exécution pour les requêtes individuelles et la charge de travail globale qu'un système peut gérer. L'exécution parallèle en mémoire complète la technologie Exadata Smart Scan et présente de nombreux avantages : la base de données prendra automatiquement en compte pour l'exécution parallèle en mémoire uniquement les objets qui correspondent totalement ou en grande partie à la mémoire disponible ; dès que le volume de données dépasse la mémoire disponible de façon significative, le traitement Exadata Smart Scan se lance, ce qui est plus avantageux que de traiter l'opération partiellement en mémoire. Vues matérialisées OLAP Les méthodes d'ajustement des performances conventionnelles pour les schémas en étoile des entrepôts de données ont longtemps impliqué l'utilisation de tables de résumé (ou vues matérialisées). Avec cette approche, les performances des requêtes sont améliorées par le pré- calcul d'un ou de plusieurs résumés et le stockage de ces résumés dans l'entrepôt de données. Ces résumés sont complètement transparents pour l'application, étant donné que la base de données offre des capacités de « réécriture de requête », dans lesquelles une requête exécutée sur un 6
Oracle Database 11g pour l'entreposage des données et la Business Intelligence (BI) ensemble basique de tables à schéma en étoile est réécrite pour accéder aux données de résumé. L'une des difficultés des vues matérialisées est qu'un schéma en étoile peut avoir des milliers voire des millions d'agrégations possibles, susceptibles d'être stockées en tant que tables de résumé. Il n'est donc pas pratique de créer une vue matérialisée pour toutes les agrégations possibles ; l'utilisation de l'espace et les coûts de maintenance associés seraient trop élevés. Toutefois, ce scénario peut être résolu à l'aide des vues matérialisées OLAP. Une vue matérialisée OLAP exploite les structures de données OLAP, dans lesquelles toutes les agrégations possibles peuvent être rapidement récupérées. Ainsi, un schéma en étoile avec une vue matérialisée OLAP fournit les performances d'un schéma en étoile avec des milliers de vues matérialisées relationnelles… mais avec un cube OLAP unique et simple à gérer, hautement compressé et qui fournit d'excellentes capacités de mise à jour. Cette application de la technologie OLAP à des charges de travail générales d'entrepôts de données est exclusive à Oracle. Tandis que les précédentes solutions OLAP étaient accessibles via une API OLAP, Oracle OLAP offre les avantages d'OLAP en termes de performances à tous les utilisateurs d'entrepôts de données quel que soit l'outil SQL utilisé. Mise à l'échelle La taille des entrepôts de données les plus vastes augmente de façon exponentielle. De nos jours, de plus en plus de processus métier évoluent vers le tout automatisé et de plus en plus de données sont collectées à des niveaux plus détaillés ; les augmentations des volumes de données ne montrent donc aucun signe de ralentissement. Oracle Database 11g offre quatre fonctionnalités clés pour l'évolutivité : partitionnement, compression, mise en cluster et parallélisme. Partitionnement Oracle Partitioning est une fonction essentielle pour la gestion des bases de données volumineuses. Elle permet d'adopter la technique du « diviser pour mieux régner » pour gérer les grandes tables de la base de données, notamment lorsqu'elles augmentent. Même si votre base de données devait contenir l'an prochain le double des données qu'elle contient aujourd'hui, vos utilisateurs finaux ne toléreraient pas que leur application s'exécute deux fois moins vite. Votre base de données ne se verrait pas accorder deux fois plus de temps pour effectuer la maintenance et le traitement par lots et vos responsables informatiques ne doubleraient pas le budget matériel pour l'entrepôt de données. Le partitionnement est la fonction qui permet à une base de données de s'adapter à de très grands ensembles de données tout en garantissant des performances cohérentes, sans augmenter les ressources matérielles ou administratives. Le partitionnement divise de grandes tables en parties de taille inférieure, ce qui permet de maintenir les performances des fenêtres de gestion de données et de nombreuses requêtes d'utilisateurs finaux, même lorsque les données augmentent. 7
Oracle Database 11g pour l'entreposage des données et la Business Intelligence (BI) Oracle est leader du secteur avec ses technologies de partitionnement complètes. Elles incluent neuf méthodes de partitionnement de tables, la possibilité pour l'administrateur de bases de données de définir des schémas de partitionnement personnalisés, un ensemble détaillé de commandes administratives pour les tables partitionnées et un conseiller de partitionnement pour guider les administrateurs. Le partitionnement permet également d'utiliser des stratégies ILM (Information Lifecycle Management, gestion du cycle de vie des informations) dans la base de données Oracle. Une table, lorsqu'elle est partitionnée, peut être distribuée à travers différents niveaux de stockage. Les données anciennes faisant l'objet d'accès moins fréquents, correspondant à des partitions plus anciennes, peuvent être stockées sur des périphériques de stockage moins onéreux. Pour les bases de données volumineuses, cette approche permet de réaliser d'importantes économies. Compression Les capacités de compression sont utilisées au sein de très vastes entrepôts de données. Etant donné que les clients cherchent à stocker des volumes de données de plus en plus conséquents, la compression s'impose naturellement. Par de nouvelles techniques de compression, Oracle 11g Release 2 amène la compression de bases de données à un niveau supérieur. Oracle permet de compresser toutes les tables d'un entrepôt de données : • Compression « OLTP » : technologie originale de compression de tables d'Oracle, cette technique fournit un rapport de compression de 3/1 pour les entrepôts de données, pratiquement sans impact sur les performances de requêtes. Cette technique de compression permet des mises à jour efficaces pour prendre en charge la compression même pour les tables d'entrepôts de données qui sont mises à jour de façon progressive ou fréquente. • Compression « entrepôt » : reposant sur Exadata Hybrid Columnar Compression, cette technique fournit un rapport de compression pouvant aller jusqu'à 10/1 pour les entrepôts de données, pratiquement sans impact sur les performances de requêtes. • Compression d'archive : reposant sur Exadata Hybrid Columnar Compression, cette technique fournit un rapport de compression pouvant aller jusqu'à 40/1 pour les entrepôts de données, mais implique certains effets sur les performances des requêtes. Real Application Clusters Real Application Clusters permet de répartir une seule base de données sur plusieurs serveurs. Pour l'entreposage des données, RAC fournit une solution de montée en puissance pour évoluer vers des centaines de processeurs. L'architecture RAC apporte des avantages uniques pour l'entreposage des données Oracle. Outre la capacité à ajouter de la puissance informatique brute à un système d'entrepôt de données, RAC garantit également la haute disponibilité contre les défaillances de nœuds. 8
Oracle Database 11g pour l'entreposage des données et la Business Intelligence (BI) RAC offre également la souplesse nécessaire pour gérer plusieurs charges de données au sein d'une même base de données. En utilisant les « services RAC », différentes applications peuvent être affectées à des services distincts qui, à leur tour, peuvent s'exécuter sur des nœuds distincts d'un cluster. Par exemple, les utilisateurs de mini-entrepôts de données pourraient être affectés à un ensemble de nœuds tandis que les opérations ETL seraient affectées à un autre ensemble de nœuds. L'un des atouts de RAC est la capacité à modifier et à ajuster dynamiquement ces charges de travail. Il est facile d'allouer dynamiquement des nœuds supplémentaires au traitement ETL de nuit, par exemple, pour les réallouer au traitement des requêtes de jour. Parallélisme Le parallélisme est la capacité à exploiter plusieurs processus pour l'exécution d'une seule opération de base de données. L'architecture d'exécution parallèle évolutive d'Oracle s'ajuste dynamiquement pour répondre aux demandes de tous les utilisateurs. Pour des opérations de grande ampleur, Oracle parallélise les opérations de bases de données à travers tous les nœuds et processeurs disponibles. Pour les opérations moins exigeantes, Oracle ajuste dynamiquement le parallélisme afin d'optimiser le rendement global du système tandis que Database Resource Manager s'assure que les opérations bénéficient des ressources appropriées. Analyse Les technologies OLAP, de statistiques et de Data Mining ne sont pas vraiment nouvelles pour l'entreposage des données et la Business Intelligence. Toutefois, les produits OLAP possèdent généralement leur propre moteur de calcul, les produits de statistiques ont leur propre moteur de données et les produits de Data Mining ont leurs propres moteurs d'exploration. En résumé, dans ces conditions, un environnement de Business Intelligence à l'échelle d'une entreprise devrait avoir quatre différents types de « moteurs de données » ; chacun nécessitant ses propres serveurs, ses propres copies des données, sa propre infrastructure de gestion, sa propre administration de la sécurité et son infrastructure haute disponibilité. De plus, chaque moteur dispose de ses propres API et de son propre jeu d'outils pour développeurs et d'outils pour utilisateurs finaux. La complexité et les coûts liés à la réplication de piles entières de technologies BI sont considérables. Oracle Database propose une approche totalement différente en intégrant les technologies OLAP, de Data Mining et de statistiques au moteur de base de données. Au lieu de déplacer les données d'un entrepôt de données vers d'autres moteurs d'analyse pour une analyse poussée, Oracle a intégré les algorithmes d'analyse avancés à sa base de données, dans laquelle résident les données. De plus, Oracle fournit l'accès SQL à toutes ses fonctionnalités d'analyse de sorte qu'elles peuvent être mises en œuvre avec tout environnement applicatif ou outil SQL. Au-delà des avantages considérables de la consolidation de l'architecture de données principale d'un environnement BI d'entreprise, l'intégration de l'analyse à Oracle Database présente une 9
Oracle Database 11g pour l'entreposage des données et la Business Intelligence (BI) multitude d'avantages, inexistants dans les environnements autonomes. Par exemple, votre serveur OLAP autonome est-il capable de s'adapter à des centaines de processeurs ou de clusters de serveurs ? Votre moteur d'exploration de données s'intègre-t-il facilement à votre serveur d'authentification utilisateur ? Peut-il mettre en œuvre toutes vos stratégies de sécurité des données de façon transparente ? Parvenez-vous à intégrer facilement les résultats de vos analyses statistiques à vos données d'entrepôt de données ? Avec Oracle Database, toutes ces questions trouvent une réponse affirmative simplement grâce à l'intégration étroite d'OLAP, du Data Mining et des statistiques. Data Mining Oracle Data Mining est un logiciel puissant incorporé à Oracle Database qui vous permet de découvrir de nouvelles perspectives cachées dans vos données. Oracle Data Mining aide les entreprises à cibler leurs meilleurs clients, à identifier et à prévenir les erreurs, à détecter les attributs qui influencent le plus les indicateurs de performances clés et à découvrir de nouvelles informations utiles, cachées dans les données. Oracle Data Mining aide les techniciens à trouver des modèles dans leurs données, à identifier les attributs clés, à découvrir de nouveaux clusters et associations, ainsi que des perspectives intéressantes. Pour résoudre les problèmes métier, Oracle Data Mining permet aux entreprises de trouver de nouvelles informations dans leurs données, en utilisant une vaste gamme d'algorithmes de pointe. Les algorithmes d'exploration de données sont des techniques d'apprentissage automatique qui permettent d'analyser les données pour découvrir des modèles et des relations. Oracle fournit plusieurs algorithmes car à chaque type d'analyses et problème métier correspond un algorithme spécifique. La plupart des algorithmes d'exploration de données peuvent être séparés en techniques d'exploration de données à « apprentissage supervisé » et à « apprentissage non supervisé ». L'apprentissage supervisé requiert que l'analyste des données identifie un attribut cible ou une variable dépendante (par exemple, des clients ayant acheté un produit spécifique). L'apprentissage non supervisé examine ensuite les données en essayant de trouver des modèles et des relations entre les attributs et l'attribut cible (par exemple, les caractéristiques indiquant si un prospect est susceptible d'acheter un produit spécifique). Les algorithmes d'apprentissage supervisé d'Oracle Data Mining incluent Naïve Bayes, Decision Tree (arbre de décision), General Linear Models (modèles linéaires généralisés) et Support Vector Machines (machines à vecteurs de support). L'autre vaste catégorie d'algorithmes d'exploration de données concerne l'apprentissage non supervisé. Dans ces scénarios, il n'y a pas d'attribut cible ; au lieu de cela, les algorithmes recherchent des associations et clusters dans les données, sans objectif métier prédéfini. Ces algorithmes incluent Enhanced k-Means Clustering (gestion de clusters k-Means améliorée), Orthogonal Partitioning Clustering (clusters avec partitionnement orthogonal), Association Rules (analyse du panier d'achat) et Nonnegative Matrix Factorization (factorisation en matrices non négatives). 10
Oracle Database 11g pour l'entreposage des données et la Business Intelligence (BI) Oracle Data Mining inclut Oracle Data Miner, une interface utilisateur graphique qui permet aux analystes de données de générer, d'évaluer et d'appliquer des modèles d'exploration de données. Oracle Data Miner guide les analystes de données à travers le processus d'exploration de données avec une réelle souplesse et présente les résultats sous forme de graphiques et de tableaux. Oracle Data Miner peut générer le code PL/SQL associé à une activité d'exploration. OLAP Oracle OLAP est un moteur de traitement analytique en ligne riche en fonctionnalités, incorporé à Oracle Database. Oracle OLAP améliore les entrepôts de données en améliorant les performances des requêtes (comme décrit dans la section sur les performances) et en ajoutant du contenu analytique enrichi. Les cubes sont la clé de voûte d'Oracle OLAP. Gérée au sein de la base de données Oracle, cette structure de données stocke les données dans un format multidimensionnel hautement optimisé. Les cubes permettent un stockage compressé et évolutif des données dimensionnelles, une mise à jour incrémentielle rapide, d'excellentes performances de requêtes et offrent la possibilité d'effectuer ou de stocker des calculs analytiques avancés. Avec Oracle OLAP, la stratégie d'Oracle est de faire bénéficier l'entrepôt de données de ces atouts OLAP. Pour cela, les fonctionnalités clés d'Oracle OLAP sont exposées via le code SQL standard pour que tous les outils de Business Intelligence ou autres applications SQL puissent exploiter OLAP. Les fonctionnalités d'intégration SQL clés incluent la capacité à accéder aux cubes OLAP via les vues SQL, qui exposent un cube multidimensionnel en tant qu'ensemble de tables de dimensions et de tables de faits ; les vues matérialisées basées sur des cubes, qui permettent d'utiliser les cubes OLAP comme des vues matérialisées ; l'intégration de dictionnaires de données pour que les outils de requêtes SQL et les développeurs SQL puissent rapidement identifier tous les cubes et leurs attributs ; et l'intégration de chemins d'accès aux cubes à l'optimiseur Oracle. Intégration De nos jours, l'architecture des informations est beaucoup plus dynamique qu'elle ne l'était il y a quelques années seulement. Les entreprises demandent désormais davantage d'informations. Elles les veulent plus rapidement et fournissent davantage de données d'analyse à un ensemble d'utilisateurs et d'applications en constante augmentation. 11
Oracle Database 11g pour l'entreposage des données et la Business Intelligence (BI) Oracle Warehouse Builder et Oracle Data Integrator Pour répondre à ces exigences métier, Oracle Database 11g inclut un outil d'intégration de données avancé : Oracle Warehouse Builder (OWB). OWB est une fonction de base de données en standard, conçue pour permettre aux clients Oracle de générer un entrepôt ou mini-entrepôt de données, quelle qu'en soit la taille. Cet outil inclut un référentiel de métadonnées multiutilisateur d'entreprise, des fonctionnalités de modélisation de données et un large éventail de techniques de transformation et d'extraction. De plus, il affiche les performances et l'évolutivité d'une architecture ELT. Les fonctions avancées d'OWB, qui faisaient précédemment partie de l'option Enterprise ETL, ont été fusionnées dans Oracle Data Integrator Enterprise Edition. Oracle Data Integrator fournit non seulement les capacités ELT les plus souvent requises par l'entrepôt de données, mais offre également une plate-forme d'intégration d'entreprise pour intégrer, par exemple, des services de données SOA ou des flux de données dirigés par des événements. A présent, Oracle inclut les fonctionnalités avancées d'Oracle Data Integrator et d'Oracle Warehouse Builder comme deux composants d'Oracle Data Integrator Enterprise Edition. Bientôt, ces produits fusionneront en une plate-forme technologique d'intégration de données unifiée. Cette stratégie conserve totalement les investissements de développement existants de tous les clients d'intégration de données Oracle et fournira une méthode de mise à niveau simple et transparente des composants actuels vers la plate-forme unifiée. Fonctionnalités clés de l'intégration de base de données Oracle Warehouse Builder utilise une architecture ELT (extraction, chargement, transformation). Plutôt que de fournir un moteur externe de transformation des données, OWB exécute toutes ses transformations au sein d'une base de données Oracle, en exploitant l'évolutivité et les performances de la plate-forme de base de données. La base de données Oracle présente un large éventail de capacités d'extraction, de chargement et de transformation. Ces capacités sont exploitées par OWB, mais peuvent être utilisées dans tout environnement dans lequel des données sont intégrées à un entrepôt de données Oracle. Ces fonctionnalités incluent : • Database Gateways pour l'accès aux systèmes non-Oracle • Utilitaire Loader pour des chargements de données rapides des fichiers plats • Extensions SQL pour les transformations de données : instruction MERGE • Fonctions de tables : transformations définies par l'utilisateur parallèles et efficaces • Capture de données modifiées pour la capture basée sur des journaux à faible latence à partir des bases de données Oracle 12
Oracle Database 11g pour l'entreposage des données et la Business Intelligence (BI) Conclusion Oracle Database est leader du marché en matière d'entreposage des données, grâce à son évolutivité et à ses performances exceptionnelles, mais aussi à des fonctionnalités innovantes telles que le modèle de cohérence de lecture exclusif d'Oracle pour les entrepôts de données en temps quasi-réel, à son large éventail de capacités de partitionnement des tables, à l'utilisation de la technologie OLAP pour l'amélioration des environnements relationnels et à une prise en charge inégalée des architectures de grille. La combinaison d'Oracle Database et d'une grille de stockage Oracle Exadata fournit les meilleurs niveaux de performances pour les charges de travail exigeantes en E/S. De plus, avec Sun Oracle Database Machine, Oracle propose une solution matérielle et logicielle complète pour l'entreposage des données. 13
Oracle Database 11g pour l'entreposage des données et la Business Intelligence (BI) Septembre 2009 Auteur : George Lumpkin Copyright © 2009, Oracle et/ou ses affiliés. Tous droits réservés. Ce document est fourni à titre informatif uniquement et les informations qu'il contient peuvent faire l'objet de modifications sans préavis. Oracle ne garantit pas que ce document soit exempt d'erreur et exclut toute garantie ou condition, expresse ou implicite, notamment toute garantie et condition implicite de Oracle Corporation commercialisation ou d'adéquation à un usage particulier. Nous déclinons en particulier toute responsabilité concernant ce World Headquarters document, qui n'implique aucune obligation contractuelle directe ou indirecte. Ce document ne peut être ni reproduit ni transmis à 500 Oracle Parkway quelque fin, sous quelque forme ou par quelque moyen que ce soit (électronique ou mécanique) sans notre autorisation écrite Redwood Shores, CA 94065 préalable. U.S.A. Demandes de renseignements - International : Oracle est une marque déposée d'Oracle Corporation et/ou de ses affiliés. Tout autre nom mentionné peut correspondre à des Tél. : +1.650.506.7000 marques appartenant à d'autres propriétaires qu'Oracle. Fax : +1.650.506.7200 oracle.fr 0109
Vous pouvez aussi lire