Solutions Open Source de Business Intelligence - ETAT DE L'ART

 
Solutions Open Source de Business Intelligence - ETAT DE L'ART
Solutions Open Source de
    Business Intelligence

                                     ETAT DE L'ART

           Copyright © 2008 - ADULLACT
Solutions Open Source de Business Intelligence - ETAT DE L'ART
État de l'art : Solutions Open Source Business Intelligence

Préambule

ADULLACT

ADULLACT est une association régie par la loi du 1er juillet 1901 et le décret du 16 août 1901,
ayant pour nom : Association des Développeurs et des Utilisateurs de Logiciels Libres pour les
Administrations et les Collectivités Territoriales.

L'association a été créée en septembre 2002, par Claude LAMBEY et François ELIE.

L'objectif de l'ADULLACT est de soutenir et coordonner l’action des administrations et des
collectivités pour promouvoir, développer, mutualiser et maintenir un patrimoine commun de
logiciels libres utiles aux missions de service public (administration, éducation, monde
associatif, santé...).

Pour satisfaire les contraintes de transparence, de sécurité, d’interopérabilité et d’évolutivité,
indispensables pour gérer dans de bonnes conditions les informations propres aux administrés,
en favorisant les télé-procédures. Ce patrimoine logiciel respectera les standards et les
protocoles ouverts, et sera librement utilisable, copiable, modifiable et redistribuable par
quiconque sans aucune discrimination.

Les standards et protocoles sont dits ouverts s’ils sont publiquement documentés, librement
utilisables et implémentables.

L’ADULLACT apporte son soutien à l’usage de Logiciels Libres dans les administrations et dans
les collectivités territoriales, et se propose de participer au développement de Logiciels
applicatifs Libres.

ADULLACT Projet

ADULLACT Projet est une SCIC (Société Coopérative d'Intérêt Commun) régie par la loi du 10
septembre 1947 portant statut de la coopération, et la loi du 24 juillet 1867 sur les sociétés à
capital variable. Elle a été créée en octobre 2006.

En optant pour cette forme de société, les porteurs du projet poursuivent, en accord avec les
adhérents de l’ADULLACT à l’origine de cette SCIC, leur action, inscrite dans l’intérêt collectif,
en faveur de l’optimisation des systèmes d’information au sein des collectivités territoriales et
du monde de la santé et, d’une manière générale, en faveur du développement du Logiciel
Libre au sein des Services Publics.

La SCIC ADULLACT Projet s’est donnée pour but, dans un esprit de coopération entre les
acteurs publics (usagers) et privés (opérateurs techniques, salariés) :
       De répondre aux besoins de refonte des systèmes d'information des administrations,
       collectivités territoriales et organisations relevant des services Publics à base de
       Logiciels Libres.
       De mutualiser les coûts de développement des logiciels dit Libres ou Open Source dont
       les avantages (coûts, pérennité, accès au code source) ne sont plus à démontrer.

Aurélien CABROL - Mai 2008                  Copyright © 2008 - ADULLACT                Page 2 / 56
Solutions Open Source de Business Intelligence - ETAT DE L'ART
État de l'art : Solutions Open Source Business Intelligence

S’ajoutent :
       Le souci de préserver totalement son indépendance et sa neutralité vis-à-vis des
       organisations économiques ou industrielles privées, pour garantir la meilleure
       objectivité de ses services, accompagnements ou aides.
       La volonté de ménager, avec les organisations publiques, des partenariats de haute
       proximité, organisés de manière à faire bénéficier ses partenaires des avancées
       technologiques les plus récentes.

Cet ouvrage

La Business Intelligence, ou Informatique Décisionnelle, est un domaine bien spécifique des
systèmes d'information, qui n'échappe pas à l'Open Source.

Ainsi, cet ouvrage s'efforce :
        De mettre en avant les enjeux et les défis de la Business Intelligence dans l'Open
        Source.
        De définir les différents outils décisionnels afin de décomplexifier ce domaine.
        De présenter les solutions qui sont, ou ont été, les plus pertinentes dans chaque famille
        d'outils.
        D'établir une analyse de ces applications afin d'en retirer une synthèse mettant en
        avant les intérêts, et inconvénients, de chacun.

Cette étude est fondée sur plusieurs mois de travail de recherche. Elle n'a pas pour objectif
d'établir un classement entre les différents outils mais de mettre en avant leurs potentiels
respectifs afin que chaque lecteur puisse s'orienter vers celui qui conviendra le mieux à ses
besoins et attentes.

Aurélien CABROL - Mai 2008                  Copyright © 2008 - ADULLACT                Page 3 / 56
État de l'art : Solutions Open Source Business Intelligence

Table des matières

Préambule...................................................................................................................................................2
   ADULLACT................................................................................................................................................2
   ADULLACT Projet.......................................................................................................................................2
   Cet ouvrage..............................................................................................................................................3
Introduction................................................................................................................................................5
   Business Intelligence..................................................................................................................................5
       Deux systèmes d'information : transactionnel et décisionnel.......................................................................5
       Historique de la Business Intelligence......................................................................................................5
       Règles conceptuelles ............................................................................................................................6
   Open Source.............................................................................................................................................6
       Définition du Logiciel Libre.....................................................................................................................6
       Évolution de ce modèle économique........................................................................................................6
       Critères de choix..................................................................................................................................6
   L'Open Source Business Intelligence (OSBI)..................................................................................................7
       Apports et avantages............................................................................................................................8
       Perspectives.........................................................................................................................................8
Les outils décisionnels.................................................................................................................................9
   Extract Transform Load (ETL)......................................................................................................................9
   Data Warehouse et Data Mart......................................................................................................................9
   Cubes OLAP ............................................................................................................................................11
   Analyse multidimensionnelle......................................................................................................................13
   Data Mining.............................................................................................................................................14
   Générateur d'état.....................................................................................................................................15
   Synthèse.................................................................................................................................................17
Les solutions décisionnelles.......................................................................................................................18
   ETL........................................................................................................................................................18
       Clover.ETL.........................................................................................................................................18
       Enhydra Octopus................................................................................................................................20
       Pentaho Data Integration (ex. Kettle)....................................................................................................21
       Talend Open Studio (TOS)....................................................................................................................23
   Data Warehouse......................................................................................................................................25
       Bizgres..............................................................................................................................................25
       Ingres...............................................................................................................................................25
       MySQL...............................................................................................................................................26
       PostgreSQL........................................................................................................................................26
   Serveur OLAP..........................................................................................................................................27
       Pentaho Analysis Services (ex. Mondrian)...............................................................................................27
       Palo..................................................................................................................................................29
   Client OLAP.............................................................................................................................................31
       FreeAnalysis.......................................................................................................................................31
       Jpalo.................................................................................................................................................33
       Jpivot................................................................................................................................................34
       Jrubik................................................................................................................................................36
   Data Mining.............................................................................................................................................38
       Waikato Environment for Knowledge Analysis (WEKA).............................................................................38
   Générateur d'état.....................................................................................................................................40
       Business Intelligence and Reporting Tools (BIRT)....................................................................................40
       JasperReport......................................................................................................................................42
       Pentaho Reporting (ex. JfreeReports)....................................................................................................44
       OpenReports......................................................................................................................................46
   Suites décisionnelles.................................................................................................................................48
       Jasper Intelligence..............................................................................................................................48
       Marvel IT Dash...................................................................................................................................50
       Pentaho.............................................................................................................................................51
       Spago BI...........................................................................................................................................54
Synthèse....................................................................................................................................................56

Aurélien CABROL - Mai 2008                                 Copyright © 2008 - ADULLACT                                                         Page 4 / 56
État de l'art : Solutions Open Source Business Intelligence

Introduction

Business Intelligence

Selon la définition de Robert REIX, « un système d'information est un ensemble organisé de
ressources (matérielles, logicielles, personnelles, données, procédures...) permettant
d'acquérir, de traiter, de stocker des informations (sous forme de données, textes, images,
sons...) dans et entre organisations ». Le choix de l'appellation système n'est pas anodin. Il
reflète la logique sous-jacente considérant ce dernier comme un ensemble d'entités en
interaction entre elles, que l'on pourrait considérer comme autant de maillons formant une
chaîne. De ce fait, ce dernier peut être ainsi observé à différents degrés de précision, soit en le
considérant comme un système d'information global, soit en accentuant le zoom afin de mettre
en valeur deux sous systèmes.

   Deux systèmes d'information : transactionnel et décisionnel

D'une part le système d'information transactionnel. Il gère les applications quotidiennes et se
rapproche à ce titre de la couche opérationnelle. Il est typiquement utilisé par les acteurs
métiers et se voit plus comme un outil utilisé par ces derniers afin de répondre à des besoins
de simplification et d'automatisation.

D'autre part le système d'information décisionnel, angle d'approche de cet ouvrage, qui est
utilisé pour prendre les décisions de l'entreprise, et à ce titre doit permettre aux décideurs
d'avoir un certain recul sur leur entreprise. Il fournit pour cela les informations nécessaires et
pertinentes afin de faire les bons choix. Le Gartner Group définit, en 1993, la Business
Intelligence comme l'« ensemble des moyens et méthodes permettant de rassembler,
consolider, analyser et rendre accessible les données d'une entreprise dans une perspective
d'aide à la décision ». Le décisionnel est donc à l'information de l'entreprise ce que les
mathématiques sont à la pensée.

Force est de constater que le concept de Business Intelligence n'est pas récent, et que, depuis
sa création, des évolutions notables peuvent être distinguées. Il est nécessaire de connaître
ces mutations afin de bien saisir les tenant et aboutissant de leur structure actuelle.

   Historique de la Business Intelligence

Au début des années 90, l'informatique est au service de l'entreprise pyramidale. D'une
manière très classique, elle remonte les informations de la base vers le haut. Cette époque est
celle des Executive Information Systems (EIS).

Milieu des années 90, les besoins d'informations composites révèlent des lacunes dans les
systèmes d'informations. Les technologies Data Warehouse et Data Mart se banalisent et
l'informatique décisionnelle se tourne vers les cubes OLAP, dans un soucis d'analyse plus
poussée.

De nos jours, le décisionnel n'est plus l'apanage des instances dirigeantes et toutes les couches
de l'entreprise revendiquent un besoin d'information pertinente, propre à leur fonction. Que ce
soit dans des soucis de pilotage par les acteurs du top management, pour des besoins
particuliers formulés par des experts ou dans des logiques de reporting classique demandées
par les acteurs métiers, cette mutation culturelle s'appuie sur la banalisation et l'accessibilité

Aurélien CABROL - Mai 2008                  Copyright © 2008 - ADULLACT                 Page 5 / 56
État de l'art : Solutions Open Source Business Intelligence

des technologies Web, qui rendent cette divulgation d'information possible à moindre coûts.

Force est de constater également que certaines règles conceptuelles se sont inconsciemment
standardisées, et actuellement le système d'information décisionnel peut être schématisé sous
trois étapes.

   Règles conceptuelles

Tout d'abord, l'extraction des données. L'entreprise étant composée d'informations aussi
variées en terme de structure, de format, de taille... le système se doit d'extraire les
informations afin de les amener vers la deuxième étape.

Ensuite, la consolidation. Ces données doivent être consolidées afin de pouvoir effectuer le
travail nécessaire dessus.

Enfin le traitement. Il doit fournir aux dirigeants les informations pertinentes sous forme
d'indicateurs, tout en répondant aux questions que toute mise en place doit se poser : Quelles
informations ? Sous quelle forme ? Tous les combien ?...

Open Source

Bien plus qu'un simple copyright, la terminologie Open Source (également connue sous
l'appellation Logiciel Libre) reflète une certaine philosophie. Richard STALLMAN, le père
fondateur de la Free Software Foundation a coutume de résumer ce qu'est le Logiciel Libre par
« Liberté, Egalité, Fraternité ».

   Définition du Logiciel Libre

Le Logiciel Libre est ainsi défini par :
       La liberté d’utiliser et/ou d’exécuter un logiciel pour tout objectif.
       La liberté d’examiner et/ou d’étudier le fonctionnement d’un logiciel et de l’adapter à
       ses propres besoins (pour ceci l’accès au code source est une condition requise).
       La liberté de faire des copies pour des tiers.
       La liberté d’améliorer le logiciel et de rendre ces améliorations largement disponibles
       pour le bien public.

   Évolution de ce modèle économique

Ce modèle de développement collaboratif, que certains considèrent encore comme utopique et
ne prenant pas en compte les logiques de marchés actuelles, s'avère en réalité être plus que
réaliste. En effet, dans son édition de Janvier 2007 du Baromètre des tendances 2006,
l'Observatoire du Logiciel Libre (O2L), composé de Anaska et du Groupe Cegos, met
notamment en évidence une progression sur un an de 30% des ventes de serveurs sous Linux,
de 30% également des formations bureautique (tel OpenOffice) et de 50% de celles
concernant la base de données MySQL. Ces observations reflètent un réel engouement pour les
solutions Open Source, de la part des entreprises qui les jugent assez fiables pour être
implantées au sein de leur organisme.

   Critères de choix

Néanmoins, une implantation de solution Open Source doit se faire en prenant en compte
certains critères de choix, non pris en considération lors de l'intégration de logiciels

Aurélien CABROL - Mai 2008                  Copyright © 2008 - ADULLACT              Page 6 / 56
État de l'art : Solutions Open Source Business Intelligence

propriétaires car spécifiques au modèle de développement collaboratif.

      Popularité

La visibilité sur la toile est, en plus d'être un facteur de taille, un bon outil pour définir la
popularité de la solution, et donc plus de facilité à trouver sa communauté.

De la même façon le taux de fréquentation étant le nombre de téléchargement du produit, il
reflète, de la même façon que la visibilité sur la toile, la popularité de la solution.

L'âge du projet permet de se faire une idée de la maturité de la solution. Ce critère est
néanmoins très subjectif car il n'y a pas de réelle préférence à avoir entre un projet jeune ou
un vieux.

      Documentation

Dans l'open source, la communauté est la hotline. La taille de la communauté doit être prise
en considération, et Il convient donc de choisir des projets avec de riches forum, une home
page, des FAQ dédiées et visibles sur le net.

Les aspect de documentation permettent également de délester une bonne partie de la charge
de l'équipe animatrice. De plus, elle peut être considérée comme un gage de qualité.

      Développement

Le taux d'activité concerne le développement et désigne le temps passé entre deux versions (il
ne doit pas excéder 6 mois, doit être relativisé et comparé au taux de fréquentation).

Le nombre de contributeurs doit être distingué de la communauté car il est un garant de la
stabilité de la solution, de sa pérennité et de son évolutibilité.

Les compétences internes de l'entreprise doivent également être prises en compte et il
convient de privilégier les projets maintenables ou abordables en interne, et de prendre
également en compte les compétences des partenaires.

      Déploiement

La portabilité et l'interopérabilité révèlent la compatibilité de l'application avec les fichiers
entrant-sortant, ainsi qu'avec les différents systèmes d'exploitation.

Le niveau de Packaging concerne l'installation. Elle comporte aussi bien une documentation
d'installation qu'une définition des pré-requis.

      Droit

Différentes licences de logiciels libre existent, et il convient de privilégier GPL et CeCiLL. Éviter
les licences de type « BSD ».

L'Open Source Business Intelligence (OSBI)

De même que pour les autres classes d'outils (CRM, GED...), le rapprochement entre Open
Source et Business Intelligence s'avère de plus en plus performant, et ce depuis quelques
années. Bien qu'ayant pâti de leur manque de maturité et de stabilité, les solutions de

Aurélien CABROL - Mai 2008                  Copyright © 2008 - ADULLACT                   Page 7 / 56
État de l'art : Solutions Open Source Business Intelligence

Business Intelligence Open Source s'avèrent être actuellement assez solides pour être
employées par nombre d'entreprises et de collectivités, et pour posséder leur premier salon
professionnel qui s'est tenu à l'arche de la Défense à Paris, le 18 mars 2008.

Organisé par Micropole-Univers et l'Arche Numérique, ce salon a dressé un portrait de l'Open
Source dans le décisionnel par le biais de conférences, ateliers, tables rondes... Animés par de
nombreux partenaires d'importance dont notamment les sociétés MySQL, Talend et JasperSoft.

   Apports et avantages

L'engouement des entreprises pour ces solutions peut s'expliquer sur plusieurs points.

      Intérêts financiers

Tout d'abord dans une logique de coûts. Une solution Open Source n'entraîne pas, de par sa
définition même, de coûts de licence. Elle s'avèrent donc actuellement être une alternative plus
qu'intéressante pour les sociétés. De même, certaines entités telles que les TPE/PME profitent
de cet aspect de par un coût d'entrée moins onéreux.

      Mutualisation des compétences

La possibilité de coopération entre entreprises, afin de mutualiser les compétences et
d'amoindrir les investissements, tant sur le plan financier qu'humain. Comme le souligne
Stefano SCAUZZO, Technical Manager chez Engineering, « Les entreprises sont aussi bien en
concurrence sur certains domaines et en collaboration sur d'autres, ce qui crée un éco système
de valeurs où chacun doit trouver sa place et jouer son rôle ».

      Tester la solution

La possibilité de tester le logiciel avant d'investir dedans, et ce sans limite de temps ou de
fonctionnalité. L'entreprise peut ainsi s'apercevoir d'elle même, sans biais commercial ou
limitation, de la pertinence de la solution. Cette logique d'avant vente se fait de fait par les
utilisateurs qui ne se tournent ensuite vers les SSLL que pour des besoins de connaissances et
de formations.

      Personnalisation et innovation

Personnalisation et innovation sont également des facteurs clefs de ce choix. En effet, outre
l'innovation entrainée par le développement collaboratif, Stéphane LAISNE, Responsable
d'étude de solutions chez Lectra souligne que « l'Open Source permet une réelle collaboration
car le client apporte vraiment sa touche en donnant sa vision de la solution, ce qui permet
d'une part de la personnaliser mais également de la faire évoluer en ce sens ».

   Perspectives

Bien que des composants comme les ETL ou les bases de données s'avèrent être les plus
aboutis, les outils Open Source de Business Intelligence doivent encore s'enrichir sur des
aspects métiers et fonctionnels, et arriver à maturité sur certaines briques logicielles.
Néanmoins, l'arrivée de différents acteurs sur ce marché, ainsi que la marche de progression
possible de par sa faible part dans la BI, nous autorise à envisager une évolution grandissante.

Aurélien CABROL - Mai 2008                  Copyright © 2008 - ADULLACT               Page 8 / 56
État de l'art : Solutions Open Source Business Intelligence

Les outils décisionnels

Contrairement aux autres applications s'intégrant à d'autres fonctions de l'entreprise, comme
par exemple les SCM qui gèrent la chaîne logistique ou les CRM qui s'occupent de la relation
client, l'Informatique Décisionnelle est composée de plusieurs outils qui, imbriqués les uns aux
autres ou utilisés séparément, conduisent à créer un véritable système décisionnel. Nous
verrons donc ici les différents composants de ce domaine, en partant de la couche la plus
invisible de l'iceberg, jusqu'à sa partie la plus visible.

Extract Transform Load (ETL)

Un ETL, pour Extract Transform Load, est utilisé pour alimenter le Data Warehouse à partir des
bases de données de production.

Comme son nom l'indique, un ETL :
    Extract : extrait les données à partir de différentes sources.
    Transform : transforme ces dernières afin de les unifier sous un même format.
    Load : charge les données dans le Data Warehouse.

Les intérêts d'un ETL sont multiples :
       Il peut prendre en charge différentes natures de sources (SGBD relationnels, flux XML,
       fichiers CSV...), que ce soit en entrée comme en sortie.
       L'intégration d'un nouveau flux ne nécessite pas de développement spécifique, une
       configuration interactive, par le biais d'interface graphique, des 3 étapes vues
       précédemment suffit.
       L'intégration d'outil de planification, au sein même des ETL, permet d'éviter le
       développement de programmes batch spécifiques, ainsi que leur maintenance.

Il est cependant important de souligner qu'un ETL fonctionne sous un mode Point à Point. Bien
qu'il récupère les données de plusieurs sources, il n'a pas pour vocation de construire un flux
agrégé entre deux sources différentes.

Afin de ne pas retomber dans les erreurs du passé (échec de réalisation, dépassement de
budget...) relatives à la mise en place de projets décisionnels, il est impératif d'apprécier à sa
juste valeur cette phase de collecte et de préparation des données, et ainsi d'y consacrer les
ressources nécessaires. A titre informatif, cette phase doit représenter environ les ¾ temps du
projet.

Data Warehouse et Data Mart

Littéralement entrepot de données, Le Data Warehouse est une base de données recueillant et
gérant toutes les données collectées au sein de l'organisme, dans le cadre de la prise de
décision.

En ce sens, elle est :
       Exclusivement réservée à cet usage.
       Organisée, structurée et préparée à des fins de traitement décisionnel.

Aurélien CABROL - Mai 2008                  Copyright © 2008 - ADULLACT                 Page 9 / 56
État de l'art : Solutions Open Source Business Intelligence

        Alimentée en données depuis les bases de production a l'aide d'outils de type ETL.

Bill Immon, père du concept du Data Warehouse, le décrit comme tel :
'' Subject oriented, integrated, nonvolatile, time variant collection of data in support of
management decisions '' - Building the Data Warehouse, John Wiley and son, 1996

Il doit donc répondre à 4 caractéristiques essentielles :
    1. Orienté sujet : les données sont organisées par thème.
    2. Intégré : les données provenant de sources hétérogènes, elles utilisent chacune un
        type de format. Elles doivent donc être intégrées avant d'être proposées à utilisation.
    3. Non volatile : les données ne disparaissent pas et ne changent pas au fil des
        traitements, au fil du temps.
    4. Historisé : les données sont horodatées, afin de visualiser l'évolution dans le temps
        d'une valeur donnée.

Le degré de détail de l'archivage est bien entendu relatif à la nature des données. Toutes les
données ne méritent pas d'être archivées.

Il existe plusieurs natures de Data Warehouse possibles (bases relationnelles, bases OLAP,
bases hybrides...). Nous ne les recenserons pas ici mais proposerons plutôt ce tableau mettant
en avant les caractéristiques différenciant les Data Warehouse et les bases de données
relationnelles classiques.

                     Comparatif entre Base de Données etData Warehouse

              Caractéristique                Base de Données              Data Warehouse
          Opération                       Gestion courante.          Analyse.
                                          Production.                Support à la décision.
          Modèle de données               Entité / relation.         3NF.
                                                                     Etoile.
                                                                     Flocon de neige.
          Normalisation                   Fréquente.                 Plus rare dans les Data
                                                                     Marts.
          Données                         Actuelles.                 Historisées.
                                          Brutes.                    Parfois agrégées.
          Mise à jour                     Immédiate.                 Souvent différée.
                                          Temps réel.
          Niveau de                       Faible.                    Elevé.
          consolidation
          Perception                      Bidimensionnelle.          Multidimensionnelle.
          Opérations                      Lecture.                   Lectures.
                                          Mises à jour.              Analyses croisées.
                                          Suppressions.              Rafraîchissements.
          Taille                          En giga-octets.            En téra-octets.

                                                                                         Source : Wikipédia

Aurélien CABROL - Mai 2008                  Copyright © 2008 - ADULLACT                         Page 10 / 56
État de l'art : Solutions Open Source Business Intelligence

Cubes OLAP

Le concept OLAP (On Line Analytical Processing) a été défini en 1993 par le Dr Ef Codd. Ce
dernier doit respecter 12 règles de conception :
       Multidimensionalité : le modèle OLAP l'est par nature.
       Transparence : l'emplacement physique du serveur OLAP est transparent pour
       l'utilisateur.
       Accessibilité : l'utilisateur OLAP dispose de l'accessibilité à toutes les données
       nécessaires à ses analyses.
       Stabilité : la performance des reportings reste stable indépendamment du nombre de
       dimensions.
       Client-Serveur : le serveur OLAP s'intègre dans une architecture de la sorte.
       Dimensionnement : il est générique, afin de ne pas fausser les analyses.
       Gestion complète : le serveur OLAP assure la gestion des données clairsemées.
       Multi-utilisateurs : le serveur OLAP offre un support multi-utilisateurs (gestion des
       mises à jour, intégrité, sécurité...).
       Inter Dimension : Le serveur OLAP permet la réalisation d'opérations inter dimensions
       sans restriction.
       Intuitif : Le serveur OLAP permet une manipulation intuitive des données.
       Flexibilité : La flexibilité (ou souplesse) de l'édition des rapports est intrinsèque au
       modèle.
       Analyse sans limites : Le nombre de dimensions et de niveaux d'agrégation possibles
       est suffisant pour autoriser les analyses les plus poussées.

Cette notion a vu le jour du fait que les bases de données de type relationnel (SGBDR) sont
inadaptées aux besoins décisionnel. En effet, les requêtes décisionnelles, particulièrement
complexes par principe, mobilisent abusivement les ressources machines et perturbent les
traitements de production.

Les outils OLAP permettent de modéliser l'activité d'une entreprise suivant des axes ou
paramètres, répondant ainsi à ces contraintes. Pour ce faire, la structure de données construite
est parfois appelé schéma en étoile, du fait de sa forme :

                                                                                   POINT DE
                                                                                    VENTE
                               TEMPS                                            ID_PV
                                                              VENTE
                           ID_TEMPS                                             ADR_PV
                                                        ID_TEMPS
                           Date
                                                        ID_PRODUIT
                                                        ID_PV
                                                        ID_VENDEUR
                                                        Quantite
                                                        Prix
                             PRODUIT
                                                                                     VENDEUR
                          ID_PRODUIT
                          NOM_PRODUIT                                            ID_VENDEUR
                                                                                 NOM_VENDEUR
                                                                                 PRENOM_VENDEUR

                                                                          Exemple de modèle de données en étoile

Aurélien CABROL - Mai 2008                  Copyright © 2008 - ADULLACT                             Page 11 / 56
État de l'art : Solutions Open Source Business Intelligence

Nous pouvons ainsi distinguer deux types de tables :
      Celles formant les branches des étoiles, utilisées comme critères d'analyse. Elles sont
      appelées dimensions ou axes.
      Celle qui forme le centre de l'étoile. Appelée table de fait, elle contient les indicateurs,
      également appelés mesures.

Ces indicateurs sont donc fonctions des différentes dimensions, c'est pour cela que l'on
emploie le terme multidimensionnel.

Si l'on représente cette conceptualisation sous forme schématique, on obtient ce type de
graphique :

                                                                         Points de Vente

                                                                 Paris      Lyon      Nantes   Montpellier

                                   Janvier

                                   Fêvrier
                        Temps

                                   Mars

                                   Avril

                                             Prod. A   Prod. B    Prod. C   Prod. D

                                                             Produits

                                                                                                             Exemple de Cube OLAP

La représentation de cette base de données donne donc un Cube. On appelle Cube OLAP une
représentation des données selon des axes. Cette structure présente de nombreux avantages
pour des applications de Business Intelligence, en particulier grâce à sa capacité à faire
évoluer, recalculer et transformer les tableaux de bord. Le concept OLAP s’est spécialisé avec
différentes déclinaisons : multidimensionnelles, hybrides, desktop… Le Cube complet est
appelé population d'analyse. Dès qu'on dépasse trois dimensions, on parle d'hypercube.

Dans la mesure où toutes les cases du Cube ne seront pas forcément remplies (ex. : tel point
de vente ne vend pas tel produit), il est possible d'indiquer au moteur OLAP les
caractéristiques d'une variable, dimension dense ou éparse, afin d'optimiser la gestion de
l'espace disque et l'accès aux données.

Il peut être intéressant de définir des hiérarchies sur les dimensions. Ainsi, l'axe Temps pourra
se découper en jour, semaine, mois... Et de même pour Point de Vente qui pourra se découper
en ville, canton, département... On utilisera les termes parents, enfants... pour décrire les
différents niveaux entre eux.

Aurélien CABROL - Mai 2008                      Copyright © 2008 - ADULLACT                                           Page 12 / 56
État de l'art : Solutions Open Source Business Intelligence

Ainsi, le modèle conceptuel découlant de ces différentes hiérarchies donne :

         JOUR
    ID_JOUR                                                                   POINT DE VENTE
    DESC _JOUR                   TEMPS                        VENTE         ID_PV
                            ID_TEMPS                  ID_TEMPS              ID_VILLE
         MOIS               ID_JOUR                   ID_PRODUIT
    ID_MOIS                 ID_MOIS                   ID_PV
    DESC _MOIS              ID_SEMAINE                ID_VENDEUR
                                                      Quantite                           VILLE
                                                      Prix                          ID_VILLE
       SEMAINE                                                                      ID_C ANTON
                                                                                    DESC _VILLE
    ID_SEMAINE
    DESC _SEMAIN
    E
                                                                                             CANTON
                                                                                          ID_C ANTON
                                                                                          DESC _C ANTON

                                                                      Exemple de modèle de données en flocons

La structure de cette base de données, dans la même lignée que l'appellation schéma en
étoile, est appelée schéma en flocons.

Sous cette forme là, les seuls indicateurs possibles sont donc, comme vu précédemment, la
quantité et le prix. Néanmoins, il n'est pas nécessaire de définir, à l'origine, tous les indicateurs
possibles. Ainsi, d'autres indicateurs, non stockés à la base, seront calculés à partir de ceux
stockés, selon certains calculs. Ils sont souvent appelés formules.

Analyse multidimensionnelle

L'analyse multidimensionnelle s'effectue à partir des Cubes OLAP. Les Cubes OLAP, comme vu
précédemment, comportent de nombreux doublons du fait de leur structure. Il convient donc
d'agréger certaines données afin de faciliter la compréhension des résultats.

Les jeux d'informations sont caractérisés par :
       Des attributs, qualifiant l'information (référence client, date, région ...).
       Des grandeurs, portant l'information quantitative (quantités, prix...).

On distingue également :
       Des grandeurs cumulables (montant, nombre d'items...).
       Des grandeurs non cumulables (âge, date...).

Les attributs constituent les axes potentiels d'analyse. Néanmoins, la redondance de certaines
informations, bien que nécessaire dans un premier temps, est telle qu'il est nécessaire
d'agréger dans un second temps, certaines données en fonction d'axes potentiels d'analyse
définis, les plus pertinentes étant généralement les grandeurs cumulables.

Aurélien CABROL - Mai 2008                  Copyright © 2008 - ADULLACT                           Page 13 / 56
État de l'art : Solutions Open Source Business Intelligence

L'analyse multidimensionnelle à proprement parler consistera à sélectionner les axes
d'analyses souhaités, ainsi que leur ordre. Chaque hiérarchisation d'axes d’analyse correspond
à une question que l’on se pose, et il n'est pas forcément nécessaire de les utiliser tous.

Les axes sont également scindés selon deux types :
       A valeur discrète, (ou discontinues) : définis par un nombre fini de valeurs (code postal,
       segment CSP...).
       A valeurs continues (date, prix...).

Il est plus intéressant de disposer d'axes à valeur discrète, plus aisément manipulables. Ainsi,
on ramènera, autant que faire ce peut, les valeurs continues en valeurs discrètes (en
définissant des tranches par exemple).

Data Mining

Que l'on peut traduire par forage de données, le Data Mining consiste donc à forer dans un
grand volumes de données afin d'en extraire des informations pertinentes pour le décideur.

Le point important du Data Mining est que l'utilisateur ne sait pas ce qu'il cherche. En effet, les
outils de Data Mining recherchent, de manière semi-automatisés, des corrélations invisibles
entre des données n'ayant à priori aucun lien entre elles.

L'utilité même du Data Mining peut être comprise par l'exemple (plus ou moins légendaire)
Wall-Mart. Cette entreprise Américaine, spécialisée dans la grand distribution, utilisa les
premières techniques de Data Mining sur leurs données produits. Ainsi, les résultats de ces
recherches mirent en avant une corrélation entre les ventes de couches et celles de bières le
samedi après-midi. Après analyse, il s'avéra que le lien entre ces deux produits était induit par
le fait que le samedi après-midi, pour les couples ayant un ou plusieurs enfants en bas âge, les
femmes délèguaient les courses à leur mari. Ces derniers achetaient ainsi les couches pour
leur nourrissons, ainsi que des bières pour eux-mêmes. De ce fait, une réorganisation de
l'agencement des rayons, mettant côte à côte les rayons couches et bières, firent grimper les
ventes de ces dernières en flèche.

Cet exemple du Data Mining est tout particulièrement éloquent car il met en avant les points
essentiels de cet outil :
   1. Ce n'est pas l'utilisateur qui cherche des réponses à des questions spécifiques mais
       l'application qui met en valeur des axes de réflexion à suivre.
   2. Cet outil est particulièrement adapté au traitement de grands volumes de données.
   3. Une analyse des résultats obtenus doit être effectuée afin de définir, d'une part quel
       type de relation se cache derrière ces résultats (cause à effets, résultante d'une cause
       conjointe...), et d'autre part les causes de cette relation.
   4. L'information pertinente, résultante de cette analyse, doit aboutir à des préconisations
       utilisables par le décideur.

Il en découle ainsi plusieurs points :
    1. Le Data Mining est plus considéré comme un art que comme une science, car sa
        pertinence réside dans l'analyse effectuée, et les résultats qui en découlent, sur les
        données retournées.
    2. Il s'utilise sur un volume de données important, dont une chronologie peut être établie
        (typiquement des Data Warehouse), à contrario de l'analyse statistique.
    3. Cette technique peut tout aussi bien être utilisée à des fins explicatives que dans un

Aurélien CABROL - Mai 2008                  Copyright © 2008 - ADULLACT                Page 14 / 56
État de l'art : Solutions Open Source Business Intelligence

        objectif prédictif.

Il existe ainsi non pas une technique de Data Mining mais plusieurs, chacune reposant sur des
algorithmes mathématiques bien spécifiques, à choisir en fonction des résultats escomptés :
        Les méthodes utilisant les techniques de classification et de segmentation.
        Les méthodes utilisant des principes d'arbres de décision assez proches des techniques
        de classification
        Les méthodes fondées sur des principes et des règles d'associations ou d'analogies
        Les méthodes exploitant les capacités d'apprentissage des réseaux de neurones
        Les algorithmes génétiques, utilisés pour les études d'évolution des populations.

Une utilisation performante des outils de Data Mining nécessite 3 conditions obligatoires,
chacune possédant ses contraintes :
      Une collecte des données complète, minutieuse et fiable (longue et coûteuse).
      Une étude des résultats approfondie, à mettre en relation avec d'autres techniques
      d'analyse (nécessite du temps et des compétences).
      Une absence de réponse du système ne doit pas être systématiquement considérée
      comme une négation. Il peut parfois indiquer la nécessité d'aborder le problème sous
      un autre angle (nécessite du temps et le recul nécessaire).

Générateur d'état

Le générateur d'état permet de réaliser des états, appelés également reporting, qui sont des
rapports présentant de manière synthétique et lisible des données, sous forme de tableaux de
chiffres, tout en gérant la mise en page (en-tête, pied de pages...).

D'une   manière générale, le fonctionnement d'un générateur d'état se décline sous 4 phases :
   1.   Obtention d'un fichier modèle XML.
   2.   Construction d'un rapport à partir du modèle.
   3.   Remplissage du modèle à l'aide des sources de données.
   4.   Exportation sous différents formats.

Nous pouvons ainsi le schématiser de la sorte :

                                                        Base de données        Fichiers

                                                               Etape
                                                                 3

                         Etape                         Etape                          Etape
                           1                             2                              4

     Outil de designer             Modèle XML                   Moteur de reporting           Rapport rempli

                                                       Schéma de fonctionnement d'un générateur d'état

Aurélien CABROL - Mai 2008                  Copyright © 2008 - ADULLACT                             Page 15 / 56
État de l'art : Solutions Open Source Business Intelligence

La particularité d'un générateur d'état est qu'il peut se décliner sous deux aspects :
       Interactif : l'utilisateur pourra tout aussi bien générer un état en le déclinant sous
       plusieurs variantes (année, produit, région...).
       Figé : les règles de gestion sont définies à la base et l'utilisateur ne se servira de
       l'application que dans un mode Client-Serveur.

Cette particularité induit ainsi deux modes de conception diamétralement opposés :
       Dans le mode interactif, la phase de paramétrage et de production ne requiert aucune
       expertise particulière car elle est sous le contrôle de l'utilisateur final.
       Dans le mode figé, a contrario, l'utilisateur ne peut modifier les paramètres des états.
       La conception initiale nécessite donc une expertise spécifique et rigoureuse.

Il est cependant plus intéressant de mettre à disposition des générateurs d'état figés. Bien que
cette orientation nécessite un coût plus important, aussi bien en terme de temps que d'argent,
et qu'elle rigidifie les possibilités d'utilisation, l'expérience montre que les utilisateurs ont en
général d'autres priorités que celles de l'apprentissage de l'application et de la définition des
ses paramétrages.

Le principal inconvénient des générateurs d'états vient de leur utilisation. En effet, bien qu'ils
permettent au décideur de disposer d'une vue d'ensemble précise de son organisation, ils sont
plus utilisés afin de rendre des comptes. Cela s'inscrit dans une logique de management par le
contrôle, et non dans celle de la Business Intelligence.

Il existe également des générateurs de graphiques qui, comme leur nom l'indique, permettent
la visualisation des données sous forme de graphes. Néanmoins, bien que certains documents
distinguent ces outils des générateurs d'états, nous ne ferons pas la différence dans cet
ouvrage car la plupart de ces générateurs sont actuellement utilisés comme des moteurs
graphiques implémentés directement dans les générateurs d'états.

Point important : il ne faut pas confondre reporting et tableau de bord. Le premier est
généré par le générateur d'état alors que le second propose une vision plus globale.

Aurélien CABROL - Mai 2008                  Copyright © 2008 - ADULLACT                 Page 16 / 56
État de l'art : Solutions Open Source Business Intelligence

Synthèse

Après avoir défini les différents outils, nous proposerons ici une vue d'ensemble de leurs
articulations et de leur liens, sous une représentation graphique théorique.

                                                                           Data Mart
                                                                                               Générateur
                                                                                                 d'état
 BD Interne

                                                                   Data Mart   C ube OLAP         Analyse
                                                                                            Multidimensionnelle

 BD Externe
                           ETL
                                             Data Warehouse

                                                                                              Data Mining

Fichiers TXT,                                                             Data Mart
   C SV...
                                                                                               Tableaux de
                                                                                                   bord
 Source de           Extraction                               Stockage                         Restitution
 Données

                                                    Réprésentation d'un sytème d'information décisionnel

Cette représentation est schématique. En effet, elle illustre d'une manière globale les
différentes interactions entre chaque outil. Elle doit être considérer comme un socle d'analyse
et non comme une vérité absolue. Chaque cas d'implémentation d'une solution de Business
Intelligence est unique, et doit faire l'objet d'une étude des besoins. Ainsi, il n'est pas rare de
voir de nombreux systèmes d'information décisionnels dépourvus de solution de Data Mining,
ou bien encore d'en rencontrer où les données à analyser étant uniquement stockées dans une
base de données relationnelle, les générateurs d'états travaillent directement dessus sans
passer par un ETL, un Data Warehouse et un Data Mart. Ainsi, il est bon d'avoir une
représentation globale des différents éléments de Business Intelligence mais elle doit être
adapter aux différents cas et contextes rencontrés.

Aurélien CABROL - Mai 2008                  Copyright © 2008 - ADULLACT                           Page 17 / 56
État de l'art : Solutions Open Source Business Intelligence

Les solutions décisionnelles

Nous analyserons dans cette partie un panel des solutions existants dans le décisionnel, en
décrivant les aspects techniques, les fonctionnalités des outils et les caractéristiques globales
des communautés s'articulant autour.

ETL

   Clover.ETL

              ●    Clover.ETL est un ETL Open Source, basé sur un framework Java qui peut être
                   utilisé pour transformer des données structurées. Il peut être utilisé seul,
                   comme un serveur d'application, ou peut être embarqué dans d'autres
                   applications, comme une librairie de transformation.

      Fiche d'identité

                  Caractéristiques générales de la solution
                          Projet âgé de 3 ans.
                          Bonne documentation.
                          Distribué sous Licence GPL.
                  Communauté
                          Sponsorisé par OpenSys, un administrateur et six
                          développeurs ont clairement étaient identifiés.
                          Taille de la communauté et visibilité Internet assez
                          faible.
                          Taux de fréquentation très bon.
                  Niveau d'accessibilité
                          Interface graphique.
                          Faible niveau de packaging.
                          Pas de traduction Française.
                          OS Indépendant.
                  Taux d'activité
                          Très bon.
                                                                          02 avril 2008

      Accès aux données

L'accès aux données est somme toute juste moyen. Bien que reconnaissant la plupart des
fichiers plats, fournissant un outil de création de requêtes, permettant leur exécution et ayant
une très bonne reconnaissance des bases de données, il ne gère pas les relations avec les

Aurélien CABROL - Mai 2008                  Copyright © 2008 - ADULLACT                   Page 18 / 56
Vous pouvez aussi lire
DIAPOSITIVES SUIVANTES ... Annuler