POUR LA TECHNOLOGIE DE DATA WAREHOUSE - VALUE MATRIX 2022

 
CONTINUER À LIRE
VALUE MATRIX
PROGRAMME: ANALYSES
NUMÉRO DE DOCUMENT : W21 FÉVRIER 2022

VALUE MATRIX 2022
POUR LA TECHNOLOGIE
D E DATA WAREHOUSE

ANALYST E
Alexander H. Wurm

RÉSULTAT
Les entreprises de toutes tailles continuent d'adopter des transformations cloud à grande
échelle pour devenir plus agiles, résilientes et basées sur les données. L'adoption de la
technologie de data warehouse innovante s'est accélérée en parallèle au fur et à mesure
que les entreprises ont augmenté l'échelle d'ingestion et d'analyse de données. Les
performances et la flexibilité des data warehouses se sont également améliorées au fur et à
mesure que les structures logicielles open source telles que Kubernetes et Apache se sont
développées grâce à l'investissement des fournisseurs, permettant des analyses big data et
en mémoire. Tout au long de sa progression en 2022, Nucleus prévoit que ses clients
privilégieront l'évolutivité, les fonctionnalités sans serveur, l'exhaustivité multi-région et
multi-cloud et l'optimisation des performances pour les tâches big data et hautement
parallèles lors de la sélection d'une solution d'entreposage de données.

              ©2022 Nucleus Research Inc. | 5555 Biscayne Boulevard, Miami, FL, 33137 | +1 (617) 720-2000 | NucleusResearch.com   1
PRÉSENTATION
La technologie de data warehouses est l'épine dorsale de la plupart des applications cloud
modernes et promet une disponibilité constante à côté de la durabilité et de l'exactitude
des données. Bien que les data warehouses évoquent généralement de grandes unités
archaïques de matériel spécialisé, l'adoption en masse par les fournisseurs de technologies
open source, telles que Kubernetes, Apache Hadoop et Apache Spark, a permis d'offrir
une flexibilité et une évolutivité exceptionnelles. Aujourd'hui, les technologies
d'entreposage de données fonctionnent à la confluence de l'innovation en matière de
data science et de mise en réseau en hébergeant les données d'une entreprise dans
un réseauglobal flexible compatible avec le cloud, tout en maintenant des garanties
de disponibilité, de durabilité et d'exactitude des données.

Numéro de document : W21 Février 2022                                           NucleusResearch.com   2
Nucleus définit un data warehouse comme une solution qui extrait et consolide des
données de différentes sources, y compris des systèmes transactionnels, opérationnels et
externes, afin de prendre en charge diverses applications SaaS gourmandes en données.
Sélectionnez les offres de plateformes de données et de datalakes qui répondent à ces
critères et qui rivalisent régulièrement avec les solutions de data warehouses dans cette
Value Matrix. Le marché de data warehouses inclut des solutions de différentes portées
et spécialités pour les cas d'emploi dans certains environnements ou cas d'utilisation de
données. Nucleus a constaté que les entreprises de toutes tailles adoptaient de plus en
plus des solutions d'entreposage de données. Les PME privilégient les solutions natives
du cloud avec des expériences intuitives, le partage sécurisé de données et des services
entièrement gérés pour accélérer la mise en œuvre du délai d'analyses. Les grandes
entreprises privilégient, quant à elles, les plateformes les plus performantes optimisées
pour générer une faible latence grâce aux fonctionnalités en mémoire pour les informations
en temps réel et le traitement de données de plusieurs pétaoctets, en s'appuyant sur
l'architecture de traitement parallèle pour les tâches big data.

Au cours de l'année écoulée, les fournisseurs ont concentré leur développement sur
cinq domaines principaux afin de différencier leurs offres de data warehouses : le
provisionnement et l'affectation de clusters efficaces reposant sur des algorithmes de
machine learning propriétaires, des fonctionnalités entièrement gérées et sans serveur afin
de réduire la supervision administrative et les coûts associés, le multicloud et l'exhaustivité
de plusieurs régions pour maximiser la flexibilité des clients et réduire le risque de pannes
cloud et régionales, ainsi que les offres de service pour rationaliser les implémentations et
atténuer les risques de déploiement mal configurés (Nucleus Research W8 - Tendances des
bases de données et des data warehouses pour la période 2022 - janvier 2022) .

Étant donné que les data warehouses servent de sources uniques d'informations fiables
pour les données d'une entreprise, les data warehouses sont également à la pointe de
l'innovation en matière de machine learning et d'intelligence artificielle (IA) basée sur les
analyses et la modélisation. Par conséquent, les fournisseurs rivalisent d'ingéniosité pour
offrir des fonctionnalités de data science en libre-service à certains fournisseurs en
proposant une intégration native avec des services de data science spécialisés et d'autres
pour proposer des services collaboratifs où les utilisateurs peuvent partager en toute
sécurité des ensembles de données et des blocs-notes tiers afin d'accélérer le
développement des analyses et des modèles.

Dans cette Value Matrix, les fournisseurs sont positionnés en fonction de la relative
convivialité et des fonctionnalités de leurs solutions respectives, ainsi que de la valeur que
les clients ont réalisée à partir des capacités de chaque produit (Nucleus Research V67 -
Comprendre la Value Matrix - Avril 2021). Il s'agit d'un instantané du marché actuel plutôt
que d'un classement empirique des fournisseurs. Les flèches indiquent une dynamique
perçue dans le sens indiqué par rapport à l'utilisabilité et aux fonctionnalités. Le
positionnement et la dynamique sont principalement alimentés par les conversations avec
les utilisateurs finaux ainsi que par les fonctionnalités et les domaines d'investissement des
fournisseurs les plus récemment publiés.

Numéro de document : W21 Février 2022                                              NucleusResearch.com   3
LEADERS
Parmi les leaders de cette Value Matrix figurent Amazon Redshift, Microsoft Azure Synapse
Analytics, Oracle Autonomous Data Warehouse et Teradata Vantage.

AMAZON REDSHIFT
Amazon Redshift est un leader de l'édition 2022 de la Value Matrix pour la technologie de
data warehouse. Amazon Redshift peut analyser des données structurées et semi-structurées
stockées dans des data warehouses, des datalakes, des bases de données opérationnelles et
des ensembles de données tiers. En tant que data warehouse natif du cloud, Amazon
Redshift est connu pour sa facilité d'utilisation et ses performances à grande échelle avec
une accessibilité étendue aux données afin de favoriser la visibilité et des implémentations
rapides afin d'accélérer le retour sur les données. Les clients s'appuient sur Amazon Redshift
pour réduire la durée de l'accès aux données simplifié et géré, l'ingestion et la sortie,
améliorant ainsi la productivité des développeurs et des analystes.
Au cours de l'année écoulée, Amazon a offert diverses nouvelles fonctionnalités afin
d'accroître la valeur de sa solution d'entreposage de données.

   ▪    En mars 2021, Amazon a annoncé la disponibilité générale d'Amazon Redshift Data
        Sharing. Le partage de données Amazon Redshift permet aux clients d'étendre la
        facilité d'utilisation, les performances et les coûts qu'Amazon Redshift offre dans un
        seul cluster aux déploiements multi-cluster tout en étant capable de partager des
        données. Il permet un accès précis et rapide aux données dans les clusters Amazon
        Redshift sans qu'il soit nécessaire de copier ni de déplacer des données. Les clients
        peuvent partager en toute sécurité des données en direct avec des clusters Amazon
        Redshift situés dans le même compte AWS ou dans des régions identiques.
   ▪    En mai 2021, Amazon a intégré Redshift ML à Amazon SageMaker afin de créer,
        d'entraîner et de déployer des modèles de machine learning à l'aide d'instructions
        SQL pour des cas d'utilisation tels que la modélisation de prédiction de l'attrition et
        l'évaluation des risques de fraude dans les requêtes et les rapports des utilisateurs.
        Amazon Redshift ML peut également exploiter SageMaker Autopilot pour repérer et
        régler automatiquement le modèle de classification approprié, binaire ou multiclasse.
        Les utilisateurs peuvent également sélectionner des modèles spécifiques, notamment
        l'arbre Xtreme Gradient Boosted ou le perceptron multicouche et modifier les
        hyperparamètres de modèles.
   ▪    En septembre 2021, Amazon a lancé Amazon Redshift Query Editor V2, un outil Web
        qui permet aux analystes de données, aux data scientists et aux développeurs de
        bases de données d'explorer, d'analyser et de collaborer sur des données dans des
        data warehouses Redshift et un datalake. Les utilisateurs peuvent utiliser l'interface
        visuelle de Query Editor pour créer et parcourir des schémas et des tables, charger
        des données, créer des requêtes SQL et des procédures stockées et visualiser les
        résultats de requêtes à l'aide de graphiques.

Numéro de document : W21 Février 2022                                              NucleusResearch.com   4
▪    En octobre 2021, Amazon a étendu ses capacités de collaboration avec AWS Data
         Exchange, ce qui permet aux utilisateurs d'accélérer la collecte d'informations en
         s'abonnant à des ensembles de données tiers pour accélérer le développement des
         requêtes et des analyses. En outre, l'intégration d'AWS Data Exchange fournit
         également la gestion des droits, de la facturation et des paiements pour aider les
         fournisseurs de données à monétiser leurs données.
    ▪    En novembre 2021, Amazon a présenté Amazon Redshift Serverless, qui automatise
         le provisionnement et la mise à l'échelle des clusters, améliorant ainsi la productivité
         informatique tout en réduisant les coûts grâce aux tarifs basés sur l'utilisation.
Nucleus prévoit qu'Amazon Redshift gagnera des parts de marché étant donné qu'Amazon
continue d'améliorer l'intuitivité de ses capacités de machine learning et que Redshift
Serverless termine sa période de test.

MICROSOFT AZURE SYNAPSE ANALYTICS
Microsoft Azure Synapse Analytics, anciennement Azure SQL Data Warehouse, est un
leader dans la Value Matrix 2022 pour la technologie de data warehouse. Grâce à ses
fonctionnalités de l'intégration de données, d'entreposage de données et d'analyse d'un
bout à l'autre du big data, Azure Synapse Analytics offre une plateforme de données
élastique gérée pour les analyses sur les données historiques, opérationnelles et publiques.
Les clients Azure Synapse peuvent adapter leur infrastructure d'analyse à leurs besoins de
traitement grâce à des options de tarification dédiées et sans serveur basées sur
l'utilisation. Azure Synapse Analytics bénéficie également d'une intégration native avec
Azure Machine Learning, qui utilise également un modèle de tarification basé sur
l'utilisation. Cet environnement géré s'étend à l'intégration de la plateforme avec Apache
Spark et élimine la complexité du provisionnement et du réglage des clusters. Azure
Synapse Analytics utilise un service de réorganisation amélioré avec son implémentation
d'Apache Spark pour aligner ses données et améliorer les performances de ses requêtes.
Azure Synapse réduit encore la latence du traitement avec l'élagage dynamique des
partitions pour supprimer les données inutiles lors de l'exécution des tâches. La solution
cloud native de transaction hybride/traitement analytique (HTAP) de Microsoft, Azure
Synapse Link, améliore la vitesse, permettant des analyses continues sur les données
opérationnelles dans Azure Cosmos DB sans interférer avec les workloads opérationnels ou
d'application.

Pour accélérer le délai d'obtention d'informations, les clients peuvent également utiliser
Synapse Studio Knowledge Center où ils trouveront des échantillons de jeux de données et
des exemples de scripts SQL, de blocs-notes et de pipelines. Les clients peuvent s'attendre
à un retour sur les données plus rapide à mesure que Knowledge Center se développe avec
davantage de pipelines, de scripts SQL et de modèles de bloc-notes. Nucleus anticipe une
prochaine adoption de Microsoft PowerBI et d'Azure Synapse Analytics à mesure que le
fournisseur développe et intègre ces fonctionnalités analytiques et de gestion de données
basées sur l'IA dans la suite d'applications cloud du fournisseur.

Numéro de document : W21 Février 2022                                                NucleusResearch.com   5
ORACLE AUTONOMOUS DATA WAREHOUSE
Nucleus classe Oracle Autonomous Data Warehouse comme un leader dans l'édition 2022
de la Value Matrix sur la technologie de data warehouse. Autonomous Data Warehouse est
disponible pour les déploiements dans le cloud et sur site d'Oracle dans des data centers
clients. Comme son nom peut l'expliquer, Autonomous Data Warehouse décharge les
complexités opérationnelles liées à la gestion d'un data warehouse, notamment les processus
de provisionnement, de configuration, de sécurisation, de réglage des performances,
d'application de correctifs et de redimensionnement automatique. Cette automatisation
permet aux clients d'exécuter diverses tâches d'analyse sans temps d'arrêt, intervention
humaine ou surprovisionnement. Oracle Autonomous Data Warehouse est également la seule
solution complète qui utilise une base de données convergente offrant une prise en charge
intégrée des données multi-modèles et des workloads multiples. Les clients peuvent encore
tirer parti de la compression Hybrid Columnar Compression d'Oracle pour réaliser des
économies maximales de stockage de données. De plus, grâce aux outils en libre-service no
code d'Oracle pour le chargement des données, la transformation des données et l'analyse
des données, les business analysts, les data scientists et les développeurs peuvent accélérer
leurs workloads courants et améliorer leur productivité. Grâce aux algorithmes dans la base
de données d'Oracle et au développement de modèles reposant sur une interface utilisateur
AutoML, les utilisateurs peuvent facilement analyser et modéliser des données à leur source.
Oracle complète ces fonctionnalités avec des fonctionnalités généralisées de sécurité des
données, notamment le chiffrement des données au repos et en mouvement, la protection
des données réglementée, l'application de correctifs de sécurité et la détection des menaces.
Pour plus de sécurité, les clients peuvent utiliser Oracle Data Safe pour surveiller en continu
leurs données sensibles et l'accès des utilisateurs privilégiés.
Oracle prévoit d'utiliser ses solutions Autonomous Data Warehouse et Autonomous Database
pour connecter les analyses à la suite d'applications cloud du fournisseur (Nucleus Research
W2 - Les applications Oracle s'unissent via des analyses basées sur l'IA - Janvier 2022). Pour
concrétiser cette vision interdépartementale et interfonctionnelle, Oracle continue à affecter des
ressources dans Autonomous Database afin de différencier Oracle Analytics. Au fur et à mesure
du développement et de l'intégration de cette analyse des données basées sur l'IA dans la suite
d'applications cloud du fournisseur, Nucleus prévoit une adoption croissante avec une attention
particulière dans les contrats concurrentiels pour les entreprises dont les volumes de traitement
sont élevés.

TERADATA VANTAGE
Teradata est un leader dans l'édition 2022 de la Value Matrix pour la technologie de data
warehouse. Teradata est un data warehouse de niveau entreprise doté de composants de
gestion de workloads aboutis, d'analyses avancées intégrées, de sécurité et d'accès aux
données. Teradata offre un accès transparent aux données dans des environnements multicloud
et hybrides avec la prise en charge des clouds AWS, Google et Microsoft publics. Teradata
Vantage est également disponible sur les logiciels virtualisés utilisant VMware et avec le matériel
IntelliFlex de Teradata. Grâce à cette approche cohérente, les clients peuvent gérer plusieurs
déploiements en tant qu'écosystème unique, ce qui réduit les coûts associés au déplacement
ou à la réplication des données dans tous les environnements. Les clients peuvent facilement
migrer entre les options de déploiement et de tarification avec la portabilité des licences afin
d'éviter toute restriction de fournisseur de cloud.

Numéro de document : W21 Février 2022                                             NucleusResearch.com   6
Grâce à une architecture conçue pour l'évolutivité linéaire multidimensionnelle,
Teradata permet aux entreprises de gérer des workloads de données massives sans perte
de performances. Teradata offre la possibilité de gérer les performances avec un logiciel
avancé de gestion du workload pour répondre aux contrats de niveau de service plutôt que
de faire évoluer les performances avec du matériel à des coûts supplémentaires et souvent
imprévisibles. Teradata Vantage est une plateforme d'analyses complètes qui inclut des
moteurs avancés d'analyses, de création de graphiques et de machine learning, la prise
en charge de R et Python, Vantage Analyst et la possibilité d'utiliser votre propre modèle
pour simplifier l'accès aux analyses et à la modélisation complexes. Teradata Vantage est
également une plateforme d'analyse hautement intégrée qui permet aux entreprises
clientes d'utiliser et de mettre en oeuvre leurs analyses simplement dans leurs applications
d'entreprise. En s'intégrant à diverses applications SaaS et systèmes BI, Vantage permet la
création de rapports, de requêtes statiques, d'analyses ad hoc, d'alimentations de données
actives, d'entreposage de données opérationnelles et d'analyses complexes dans un même
environnement.
Tout au londe de 2021, Teradata a offert diverses nouvelles capacités et de nouveaux
partenariats stratégiques pour améliorer la valeur de Teradata Vantage, notamment :

    ▪    Connectivité BigQuery à QueryGrid permettant aux utilisateurs d'interroger
         directement Teradata Vantage sur Google BigQuery.
    ▪    AnalyticOps permet de produire, de gérer et de régir tout modèle analytique
         d'observation, qu'il s'agisse de modèles R, Python ou micro-modèles basés sur
         un opérateur de table SCRIPT, de modèles ou de micro-modèles à partir de la
         bibliothèque Vantage Analytics ou de SQL-MR in-Database et de modèles construits
         en externe pour Vantage via BYOM (Apportez votre propre modèle).
    ▪    Adhérer à Azure Cloud pour de nouveaux déploiements en tant que service afin
         de réduire considérablement les temps d'inactivité liés aux défaillances de noeud.
         Teradata a également étendu ce partenariat stratégique avec Microsoft pour intégrer
         Teradata avec Power BI.
    ▪    Expansion du réseau de partenaires cloud avec plus de 40 nouveaux partenaires, dont
         Alteryx, Dataiku, Domino Data, dotData, H2O.ai, IBM-Cognos, MicroStrategy, SAS et
         Tableau.
    ▪    Des modules d'extension pour Dataiku permettant à ses utilisateurs de créer des
         workflows complets d'un bout à l'autre à l'aide de Vantage in-database R & Python,
         de Teradata's Advanced SQL Engine ou des fonctionnalités de modélisation analytique
         natives de Dataiku.

Nucleus s'attend à ce que Teradata améliore son placement dans les éditions futures de Value
Matrix pour la technologie de data warehouse car le fournisseur continue d'investir et de
développer des fonctionnalités cloud pour s'associer à son solide système sur site. De plus,
Nucleus prévoit une adoption croissante de Teradata Vantage alors que les entreprises
réalisent l'inefficacité relative des coûts liés aux modèles de tarification sans serveur et basés
sur l'utilisation offerts par les fournisseurs de data warehouses natifs du cloud qui privilégient
l'évolutivité par rapport à l'efficacité des ressources.

Numéro de document : W21 Février 2022                                             NucleusResearch.com   7
EXPERTS
Les experts de la Value Matrix de cette année incluent Databricks Lakehouse, IBM Db2
Warehouse et Yellowbrick Data.

LAKEHOUSE DATABRICKS
Databricks est placé en tant qu'expert dans l'édition 2022 de la Value Matrix pour la
technologie de data warehouse, comme reconnu pour la plateforme Databricks Lakehouse.
La plateforme Databricks Lakehouse offre les fonctionnalités de gestion et de performances
des data warehouses avec les magasins d'objets flexibles des datalakes. Cette plateforme
simplifie également les infrastructures d'analyse en regroupant les workloads d'analyse, de data
science et de machine learning dans un environnement cohérent. L'un des principaux facteurs
de différenciation de la plateforme Databricks Lakehouse implique sa fondation Delta Lake qui
fournit un écosystème unifié pour la gestion et la gouvernance des données structurées, semi-
structurées et non structurées optimisées pour l'efficacité et l'évolutivité des coûts. Les clients
peuvent également tirer parti de Delta Lake pour effectuer un partage de données sécurisé à
protocole ouvert avec Delta Sharing. Cela améliore considérablement la collaboration au sein
de l'écosystème des utilisateurs car les entreprises peuvent partager les ressources de données
de manière sécurisée sur leur réseau de partenaires.
En raison de l'accent mis par Databrick sur l'open source et le protocole ouvert, les clients
peuvent bénéficier d'un écosystème collaboratif de développeurs et maintenir la flexibilité
avec des correctifs d'échappement afin d'éviter la dépendance des fournisseurs. Avec l'ADN
des fournisseurs dans Apache Spark, Databricks convient parfaitement à l'analyse de données
à grande échelle avec des capacités robustes pour l'ingénierie des données et des capacités
automatisées de machine learning tirant parti de Managed MLflow. Databricks propose
également une fonctionnalité de « glass box » AutoML permettant aux utilisateurs de générer
rapidement des modèles de référence et des blocs-notes avec une approche à low code.
Au cours de l'année passée, Databricks a continué à investir dans sa plateforme Data
Lakehouse.

    ▪    En août 2021, Databricks a annoncé un financement de la série H de 1,6 milliard de
         dollars pour accélérer l'adoption des architectures data lakehouse.
    ▪    En octobre 2021, Databricks a acquis des laboratoires allemands de start-up de data
         science 8080 pour permettre une exploration et une transformation rapides et intuitives
         des données avec l'outil de science des données low/no-code de la start-up,
         bamboolib.
    ▪    En janvier 2022, Databricks a lancé son data lakehouse pour le retail et les biens de
         consommation afin de résoudre les problèmes courants pour les clients de ces secteurs.
Nucleus prévoit que Databricks conquerra la part de marché d'autres fournisseurs de data
warehousespour les clients qui hiérarchisent les fonctionnalités de data science. Alors que
Databricks améliore l'intuitivité de sa data science grâce à d'autres investissements dans
les capacités low/no code et les data warehouses propres à l'industrie, les clients peuvent
s'attendre à une valeur croissante de leurs déploiements Databricks, comme représenté par
un meilleur positionnement sur l'axe d'utilisation.

Numéro de document : W21 Février 2022                                              NucleusResearch.com   8
WAREHOUSE IBM DB2
IBM Db2 est placé en tant qu'expert dans l'édition 2022 de la Value Matrix pour la technologie
de data warehouse. Avec son offre Db2 Warehouse, IBM fournit un data warehouse
préconfiguré déployable vers des clouds privés et d'autres infrastructures basées sur des
conteneurs Docker. IBM Db2 Warehouse est idéal pour les clients qui inscrivent des approches
de cloud hybride car il associe la flexibilité d'un environnement cloud avec des contrôles
complets de données et de sécurité. Grâce à cette approche, les clients peuvent faire passer
progressivement les données sensibles dans le cloud en prenant de plus en plus en
considération dans des contrats concurrentiels, à mesure que les exigences de sécurité et
la complexité de l'évolutivité de la transformation du cloud du client. IBM Db2 Warehouse
offre une large gamme de fonctionnalités avec prise en charge des conceptions de systèmes
SMP et MPP, des analyses intégrées et du machine learning et une évolutivité élastique
automatisée. IBM Db2 Warehouse est également hautement intégré à Apache Spark, ce qui
rationalise encore l'analyse des données et le machine learning à grande échelle.

Au cours de l'année passée, IBM a fourni diverses fonctionnalités nouvelles et étendues à Db 2
Warehouse pour améliorer la valeur client.
    ▪    En juillet 2021, IBM a intégré Db2 Warehouse avec IBM Key Protect pour aider les
         utilisateurs à gérer leurs clés, améliorant ainsi le contrôle du chiffrement des données au
         sein du système.
    ▪    En septembre 2021, IBM a publié un panneau détaillant le statut des moniteurs
         d'événements d'activité, de verrouillage, d'utilitaire et de statistiques pour une
         connexion de base de données spécifique. IBM a également pris en charge la
         personnalisation du workload sur les moniteurs d'événements d'activité et de
         statistiques..
    ▪    En janvier 2022, IBM a étendu la prise en charge des index, des espaces de table et des
         pools de tampons et augmenté la capacité de stockage jusqu'à 240 To.
En mettant l'accent sur les contrôles de données et la sécurité, IBM a instauré la confiance
dans son cloud et Db2 Warehouse, ce qui a favorisé des migrations cloud traditionnellement
limitées par des exigences de sécurité des données ou des seuils de risques. En outre,
l'engagement différencié d'IBM Db2 Warehouse vis-à-vis des clients de cloud hybride permet
au fournisseur de construire un atout autour de sa position en tant que principal fournisseur de
solutions et de services orientés vers les approches de cloud hybride.

YELLOWBRICK DATA
Yellowbrick Data est expert de l'édition de cette année de la Value Matrix pour la technologie
de data warehouse. Yellowbrick Cloud Data Warehouse utilise PostgreSQL en parallèle d'une
architecture MPP pour fournir des informations en temps réel à partir de données à n'importe
quelle échelle. Yellowbrick se présente comme un data warehouse pour des clouds de
données distribués et, à ce titre, peut être déployé n'importe où, y compris des data centers
privés, des clouds publics et des environnements de conteneurs tels que Kubernetes en
périphérie. Yellowbrick couvre un large éventail de secteurs, notamment les services financiers,

Numéro de document : W21 Février 2022                                               NucleusResearch.com   9
les assurances, les télécommunications, le secteur industriel, la santé et la vente au détail.
Yellowbrick gère les données dans un magasin de lignes et de colonnes hybride afin
d'offrir des performances optimales pour les tâches à faible latence et les requêtes ad hoc.
Yellowbrick lance également un appel aux clients qui exploitent les environnements de
cloud privé avec son architecture propriétaire d'Andromeda, comprenant des processeurs
AMD 64 coeurs et des accélérateurs d'analyse « Kalidah » pour optimiser les performances
et l'efficacité de la consommation de ressources. Tous les data warehouses sont gérés par
Yellowbrick Data Manager et un « écran unique » pour un contrôle unifié des données dans
les environnements cloud distribués. Yellowbrick Data Manager permet également aux
utilisateurs de surveiller les déploiements, de parcourir et de charger des données via un
navigateur Web et d'écrire/modifier des instructions SQL. Les clients Yellowbrick ont
adopté ses produits et services, notamment pour les fonctionnalités de la plateforme de
traitement en direct des données de diffusion en continu et d'efficacité du traitement en
batch et la flexibilité entre l'utilisation du cloud et sur site.

Au cours de l'année passée, Yellowbrick a amélioré la valeur client grâce à de nouveaux
partenariats et à des investissements dans de nouvelles fonctionnalités.
     ▪   En avril 2021, Yellowbrick Data a présenté son data warehouse conçu pour les
         clouds distribués afin qu'il prenne en charge les IoT émergents et les cas
         d'utilisation des analyses en périphérie, tout en connectant de manière
         transparente les data centers privés et les clouds publics.
     ▪   En novembre 2021, Yellowbrick Data a annoncé un financement de la série C1 de
         75 millions de dollars afin d'accélérer l'adoption de son data warehouse cloud et
         de financer l'innovation dans un espace hautement itératif.
     ▪   En février 2022, Yellowbrick Data a annoncé son partenariat avec Nippon
         Information and Communication Corporation (NI+C) au Japon pour poursuivre son
         expansion mondiale et souligner la valeur des données de NI+C pour servir les
         institutions de télécommunication, de transport et de banque.
Nucleus s'attend à ce que Yellowbrick Data améliore son positionnement lors des éditions
futures de la Value Matrix pour la technologie de data warehouse grâce à l'intégration
accrue de Yellowbrick Data avec divers fournisseurs de cloud public. Nucleus prévoit
également une adoption plus rapide par les clients car Yellowbrick Data commence à
proposer des options de tarification sans serveur afin d'étendre l'avantage concurrentiel
des technologies de mise en réseau et d'architecture différenciées de Yellowbrick Data.

ANIMATEURS
Les facilitateurs de Value Matrix de cette année incluent Google BigQuery, SAP Data
Warehouse Cloud et Snowflake.

Numéro de document : W21 Février 2022                                             NucleusResearch.com   10
GOOGLE BIGQUERY
Nucleus place Google BigQuery dans la catégorie des facilitateurs dans l'édition 2022
de la Value Matrix pour la technologie de data warehouse. Avec Google BigQuery, les
utilisateurs peuvent analyser leurs données structurées et semi-structurées à l'aide de SQL,
en tirant parti d'une approche sans serveur dans un environnement multicloud entièrement
géré. Google BigQuery sert une variété de secteurs, y compris la vente au détail, le secteur
industriel, l'automobile, l'énergie, la santé, les médias, les télécommunications, les
institutions et le secteur public ainsi que les services financiers. Les clients peuvent intégrer
des données dans BigQuery selon différentes modalités, notamment le chargement de lots,
la diffusion en continu de données et les connecteurs actifs avec des applications tierces.
Les clients peuvent également exécuter des analyses avancées s'appuyant sur le machine
learning BigQuery, notamment la régression, le clustering K-means, la factorisation
matricielle, les arbres de décision boostés par les gradients et les réseaux neuronaux
profonds. Google associe ces fonctionnalités à des analyses de plusieurs pétaoctets
avec les fonctions du moteur BI BigQuery pour l'analyse en mémoire afin de permettre
un traitement des requêtes optimisé pour la latence intégré aux solutions BI populaires,
notamment Looker, Tableau, Google Data Studio et Power BI. Google BigQuery prend
également en charge l'analyse géospatiale avec le SIG BigQuery permettant aux utilisateurs
d'intégrer les données de localisation pour une compréhension plus complète de l'impact
géographique sur les opérations. Google BigQuery est au cœur de la vision de Google de
soutenir les clouds de données des clients en unifiant leur cycle de vie des données entre
les bases de données, l'analyse des données, BI et les cas d'utilisation de l'IA.

Tout au long de 2021, Google a fourni diverses fonctionnalités nouvelles et étendues pour
améliorer la valeur de BigQuery.
    ▪    En mai 2021, Google a annoncé Analytics Hub pour l'accès aux données et leur
         partage. Google a également présenté Dataplex, un maillage de données intelligent
         qui unifie la gestion et la gouvernance des données sur les datalakes client, les data
         warehouses et les data marts.
    ▪    En juillet 2021, Google a ouvert à tous BigQuery Omni, ce qui permet aux clients
         d'effectuer des analyses multicloud sans avoir à déplacer ou répliquer des données
         stockées dans AWS S3 ou Azure blob storage.
    ▪    En août 2021, Google a introduit des requêtes fédérées Cloud Spanner avec
         BigQuery permettant aux utilisateurs d'interroger les données conservées dans
         Spanner en temps réel sans avoir besoin de réplication de données ou de nouveaux
         pipelines ETL pour déplacer les données.
    ▪    En octobre 2021, Google a annoncé la prise en charge d'Apache Spark sur Google
         Cloud avec une mise à l'échelle automatique sans serveur afin d'accélérer l'analyse
         du big data, de proposer des tarifs basés sur l'utilisation et d'économiser du temps
         informatique consacré précédemment à la gestion des clusters Spark.
    ▪    En janvier 2022, Google a annoncé la disponibilité générale d'Explainable AI dans
         BigQuery pour aider les utilisateurs à comprendre les résultats de leurs modèles de
         machine learning.

Numéro de document : W21 Février 2022                                               NucleusResearch.com   11
▪   Google a également annoncé la prise en charge de nouvelles fonctionnalités de
        gouvernance, telles que le chiffrement sur le terrain, les fonctions de gestion du
        workload SQL et la prévention automatique des pertes de données (DLP) avec
        Google Cloud DLP.
À l'avenir, Nucleus s'attend à un meilleur positionnement de Google BigQuery car ce
fournisseur continue d'étendre ses capacités de science et de gouvernance des données
tout en investissant dans de nouvelles technologies de mise en réseau et une architecture
lacustre sécurisée.

SAP DATA WAREHOUSE CLOUD
SAP Data Warehouse Cloud est placé en tant que facilitateur dans l'édition 2022 de la
Value Matrix pour la technologie de data warehouse. Avec SAP Data Warehouse Cloud, le
fournisseur propose une solution multicloud dotée de fonctions d'intégration de données,
de bases de données, de data warehouses et d'analyses basées sur SAP HANA Cloud. SAP
constitue une solution complète d'entreposage de données avec des fonctionnalités de
gouvernance, de modélisation de données, de modélisation métier, de référentiel et de
services de sécurité. SAP propose plusieurs options de déploiement sur site, hybrides et
cloud avec un choix d'environnements publics et privés pour les déploiements cloud. Les
clients peuvent également connecter ces environnements à travers des référentiels de
données sur site et multicloud afin de préserver le contexte commercial entre les systèmes.
Les clients bénéficient également d'une facilité d'utilisation intuitive grâce à l'espace de
travail virtuel SAP et à l'environnement no code pour la connexion de données, la
modélisation, la visualisation et le partage sécurisé. Pour permettre l'analyse en temps réel,
SAP prend en charge le traitement en mémoire des données structurées, non structurées et
géospatiales. SAP offre également une base de données, un data warehouse, un datalake
et des analyses pré-intégrés pour accélérer les implémentations. SAP Data Warehouse
Cloud est également un service entièrement géré qui minimise la complexité continue des
activités et du service informatique après le déploiement.
SAP a continué à développer de nouvelles fonctionnalités pour SAP Data Warehouse Cloud
au cours de l'année écoulée, notamment :
    ▪    SAP BW Bridge, qui permet aux utilisateurs d'importer des modèles de données
         BW Bridge dans SAP Data Warehouse Cloud et de bénéficier d'autres
         fonctionnalités BW dans un environnement cloud public flexible.
    ▪    Recherche intelligente pour joindre deux entités avec une sorte de relation
         sémantique à l'aide d'une interface utilisateur no code.
    ▪    Flexibilité étendue dans Data Flow pour importer des fichiers Excel à partir du
         stockage de fichiers distant et configurer la feuille de calcul à utiliser.
Nucleus prévoit que SAP Data Warehouse Cloud continuera à croître, exploitant les
fonctionnalités intégrées de la plateforme pour alimenter des environnements multicloud
hybrides et complexes. Pour la suite, nous prévoyons que SAP investisse davantage dans
l'utilisabilité de Data Warehouse Cloud avec les fonctionnalités de tarification sans
serveur et de partage sécurisé des données.

Numéro de document : W21 Février 2022                                             NucleusResearch.com   12
SNOWFLAKE DATA CLOUD
Nucleus classe Snowflake comme facilitateur dans l'édition 2022 de la Value Matrix pour
la technologie de data warehouse. Snowflake établit ses ambitions au-delà du multicloud
et aspire à une plateforme de données entièrement intercloud. Snowflake y parvient en
utilisant Secure Data Sharing pour gérer l'accès aux données via la couche de services et
la banque de métadonnées uniques de Snowflake afin de fournir aux services internes, aux
clients et aux partenaires commerciaux une base de données en lecture seule contenant
des données partagées qui n'imputent pas les frais de stockage de données d'un client.
Cette fonctionnalité s'étend également aux données régies en direct permettant des
informations collaboratives en temps réel. Snowflake Data Cloud offre une architecture
entièrement sans serveur qui permet aux clients de redimensionner facilement leurs
instances de data warehouse dans un sens ou dans l'autre et de payer en fonction de leur
utilisation.. Ces fonctionnalités sans serveur permettent également d'économiser du temps
informatique en gérant en interne la planification de la capacité, le provisionnement des
ressources et la maintenance des serveurs. Bien que cette approche sans serveur accorde
une tarification basée sur l'utilisation, Snowflake n'ajuste pas les ressources de calcul par
incréments linéaires, mais a plutôt choisi des incréments exponentiels (2n). Par exemple,
si une tâche de calcul nécessite cinq GPU, Snowflake donne à l'utilisateur huit GPU.
Le modèle de tarification basé sur l'utilisation de Snowflake peut conduire les clients à
cumuler des coûts d'utilisation qui dépassent l'utilisation de leurs ressources.

Snowflake a continué à investir dans la facilité d'utilisation et l'exhaustivité fonctionnelle de
sa plateforme. Voici quelques annonces et mises à jour récentes de produits :

    ▪    Prise en charge de la conformité au Règlement sur le trafic international des armes
         (ITAR) sur le gouvernement Microsoft Azure Government et AWS GovCloud, ce qui
         améliore l'appel de Snowflake aux clients opérant dans des secteurs réglementés.
    ▪    En septembre 2021, Snowflake a annoncé un partenariat stratégique avec la
         plateforme de data science Anaconda basée sur Python pour étendre l'accès et la
         gestion des bibliothèques open source. Le fournisseur a également annoncé un
         support natif pour Python dans Snowflake dans le cadre de développement du
         fournisseur, Snowpark.
    ▪    En septembre 2021, Snowflake a introduit Financial Services Data Cloud pour
         faciliter l'innovation basée sur les données entre les établissements de services
         financiers.
    ▪    En octobre 2021, Snowflake a lancé Media Data Cloud pour faciliter la collaboration
         des données dans les réseaux d'utilisateurs de médias et de publicité.

À l'avenir, Nucleus prévoit que Snowflake acquerra des clients des secteurs réglementés qui
cherchent à se moderniser tout en maintenant des niveaux élevés de sécurité des données.
Alors que Snowflake améliore encore l'intuitivité de ses capacités de data science avec des
clouds de données spécialisés, les clients peuvent s'attendre à une valeur croissante de leurs
déploiements Snowflake, comme représenté par un meilleur positionnement sur les axes
d'utilisation et de fonctionnalité.

Numéro de document : W21 Février 2022                                                NucleusResearch.com   13
FOURNISSEURS DE BASE
Parmi les fournisseurs de base de la Value Matrix de cette année figurent Cloudera Data
Platform et Panoply Cloud Data Platform.

CLOUDERA DATA PLATFORM
Cloudera Data Platform (CDP) est placé en tant que fournisseur de base dans la Value Matrix
pour la technologie de data warehouse. Cloudera Data Platform assure la gestion et la sécurité
des données tout au long du cycle de vie des données et est disponible pour les déploiements
publics, privés et multiclouds. En intégrant ces environnements, Cloudera offre un « écran
unique » pour gérer les environnements multicloud et hybrides. Cloudera Data Platform est
disponible en deux éditions : CDP Public Cloud et CDP Private Cloud. CDP Public Cloud
permet aux utilisateurs de créer et de gérer des datalakes sécurisés et fournit des services
d'analyse et de machine learning en libre-service sans avoir à installer et à gérer le logiciel
de plateforme de données. Destiné aux clients du cloud hybride, CDP Private Cloud connecte
de manière transparente des environnements sur site aux clouds publics et offre une sécurité
et une gouvernance cohérentes et intégrées. Cloudera est un service élastique avec
provisionnement et administration en libre-service complets pour permettre une administration
sans intervention qui évolue et suspend automatiquement en fonction de l'utilisation du client
pour contrôler les coûts du cloud. Cloudera fournit des temps de réponse aux requêtes
inférieurs à la seconde, avec des moteurs SQL tels qu'Apache Impala et Hive capables de
gérer des ensembles de données jusqu'à 150 Po. Cloudera prend en charge les données semi-
structurées et non structurées, en plus des ensembles de données structurés traditionnels.
Cloudera dispose d'une compatibilité plug-and-play pour divers outils d'analyse tiers
permettant de connecter les données et d'alimenter les outils BI déjà utilisés par l'entreprise.
L'ingénierie des données des plateformes de données client offre également des
fonctionnalités sophistiquées pour l'ingénierie des données, basées sur Apache Spark afin de
simplifier l'ETL et de faciliter l'orchestration et l'automatisation avec Apache Airflow. Apache
Airflow fournit également aux clients Cloudera des outils de surveillance du pipeline, de
débogage visuel et de gestion.

    ▪    En avril 2021, Cloudera a annoncé un partenariat stratégique avec NVIDIA pour
         intégrer RAPIDS Accelerator for Apache Spark 3.0 à Cloudera Data Platform.
    ▪    En juin 2021, Cloudera a acquis Datacoral et Cazena pour développer la poussée du
         fournisseur dans l'analytique en libre-service no/low code. Datacoral simplifie l'ETL
         grâce à des services entièrement gérés pour les intégrations et les transformations de
         données, tandis que Cazena accélère l'analyse basée sur l'IA et le machine learning.
    ▪    En août 2021, Cloudera a annoncé avoir conclu un accord portant sur son acquisition
         par Clayton, Dubilier & Rice (CD&R) et KRR pour une valeur de 5,3 milliards de dollars
         pour rendre Cloudera privé. Cette migration fournit à Cloudera les ressources
         nécessaires pour accélérer l'innovation de la plateforme cloud hybride de Cloudera.

Numéro de document : W21 Février 2022                                             NucleusResearch.com   14
▪    En août 2021, Cloudera a également présenté Cloudera DataFlow pour que le
         cloud public traite les workloads hybrides de diffusion en continu. Les utilisateurs
         peuvent désormais automatiser les opérations complexes de flux de données et
         améliorer l'efficacité des ressources grâce à des fonctionnalités d'évolutivité
         automatique.
Nucleus s'attend à ce que l'adoption de CDP continue alors que les clients se tournent de
plus en plus vers Cloudera pour bénéficier de fonctionnalités intégrées dans des
environnements multicloud hybrides et complexes. Nous prévoyons que Cloudera
s'améliorera sur ces deux axes au fur et à mesure que le fournisseur développe des
capacités cloud natives étendues.

PANOPLY
Panoply est reconnu comme un fournisseur de bases dans la Value Matrix 2022 pour la
technologie des data warehouses. Panoply fournit un stockage de données cloud et ETL
entièrement géré afin d'analyser le big data à l'aide d'un langage SQL standard. Le service
de pipeline de données automatisé Panoply décharge la configuration, les mises à jour
logicielles et la mise à l'échelle de l'infrastructure, réduisant ainsi la complexité du
chargement des données dans Panoply et permettant aux utilisateurs de connecter des
fichiers, des bases de données et des API no code. La plateforme de données Cloud
Panoply comprend des connecteurs dotés de plus de 40 sources de données, notamment
Amazon S3, PostgreSQL, Google Analytics, HubSpot, MongoDB, Shopify et Salesforce.
Panoply prend également en charge une large gamme d'outils de BI et de visualisation
des données, tels que Count, Tableau, Power BI, Looker, cumul.io, Mode Analytics,
Panintelligence et Metabase. Panoply Cloud Data Platform inclut également des
fonctionnalités de sécurité et de gouvernance telles que les normes SOC 2 et HIPAA
afin de gérer les données sensibles et les autorisations utilisateur de niveau table pour
un contrôle affiné.
En décembre 2021, Panoply a été acquis par SQream Technologies, une plateforme
d'accélération des données centrée sur les GPU. Cette acquisition devrait accélérer les
requêtes SQL pour les clients Panoply et aider à concrétiser la vision de SQream en
matière d'analyses rapides dans les environnements cloud, sur site et en périphérie. Étant
donné que SQream intègre sa plateforme d'analyse hybride à la plateforme Panoply Cloud
Data Platform, Nucleus s'attend à une valeur ajoutée pour les utilisateurs des deux
produits.

Numéro de document : W21 Février 2022                                               NucleusResearch.com   15
Vous pouvez aussi lire