POUR LA TECHNOLOGIE DE DATA WAREHOUSE - VALUE MATRIX 2022
←
→
Transcription du contenu de la page
Si votre navigateur ne rend pas la page correctement, lisez s'il vous plaît le contenu de la page ci-dessous
VALUE MATRIX PROGRAMME: ANALYSES NUMÉRO DE DOCUMENT : W21 FÉVRIER 2022 VALUE MATRIX 2022 POUR LA TECHNOLOGIE D E DATA WAREHOUSE ANALYST E Alexander H. Wurm RÉSULTAT Les entreprises de toutes tailles continuent d'adopter des transformations cloud à grande échelle pour devenir plus agiles, résilientes et basées sur les données. L'adoption de la technologie de data warehouse innovante s'est accélérée en parallèle au fur et à mesure que les entreprises ont augmenté l'échelle d'ingestion et d'analyse de données. Les performances et la flexibilité des data warehouses se sont également améliorées au fur et à mesure que les structures logicielles open source telles que Kubernetes et Apache se sont développées grâce à l'investissement des fournisseurs, permettant des analyses big data et en mémoire. Tout au long de sa progression en 2022, Nucleus prévoit que ses clients privilégieront l'évolutivité, les fonctionnalités sans serveur, l'exhaustivité multi-région et multi-cloud et l'optimisation des performances pour les tâches big data et hautement parallèles lors de la sélection d'une solution d'entreposage de données. ©2022 Nucleus Research Inc. | 5555 Biscayne Boulevard, Miami, FL, 33137 | +1 (617) 720-2000 | NucleusResearch.com 1
PRÉSENTATION La technologie de data warehouses est l'épine dorsale de la plupart des applications cloud modernes et promet une disponibilité constante à côté de la durabilité et de l'exactitude des données. Bien que les data warehouses évoquent généralement de grandes unités archaïques de matériel spécialisé, l'adoption en masse par les fournisseurs de technologies open source, telles que Kubernetes, Apache Hadoop et Apache Spark, a permis d'offrir une flexibilité et une évolutivité exceptionnelles. Aujourd'hui, les technologies d'entreposage de données fonctionnent à la confluence de l'innovation en matière de data science et de mise en réseau en hébergeant les données d'une entreprise dans un réseauglobal flexible compatible avec le cloud, tout en maintenant des garanties de disponibilité, de durabilité et d'exactitude des données. Numéro de document : W21 Février 2022 NucleusResearch.com 2
Nucleus définit un data warehouse comme une solution qui extrait et consolide des données de différentes sources, y compris des systèmes transactionnels, opérationnels et externes, afin de prendre en charge diverses applications SaaS gourmandes en données. Sélectionnez les offres de plateformes de données et de datalakes qui répondent à ces critères et qui rivalisent régulièrement avec les solutions de data warehouses dans cette Value Matrix. Le marché de data warehouses inclut des solutions de différentes portées et spécialités pour les cas d'emploi dans certains environnements ou cas d'utilisation de données. Nucleus a constaté que les entreprises de toutes tailles adoptaient de plus en plus des solutions d'entreposage de données. Les PME privilégient les solutions natives du cloud avec des expériences intuitives, le partage sécurisé de données et des services entièrement gérés pour accélérer la mise en œuvre du délai d'analyses. Les grandes entreprises privilégient, quant à elles, les plateformes les plus performantes optimisées pour générer une faible latence grâce aux fonctionnalités en mémoire pour les informations en temps réel et le traitement de données de plusieurs pétaoctets, en s'appuyant sur l'architecture de traitement parallèle pour les tâches big data. Au cours de l'année écoulée, les fournisseurs ont concentré leur développement sur cinq domaines principaux afin de différencier leurs offres de data warehouses : le provisionnement et l'affectation de clusters efficaces reposant sur des algorithmes de machine learning propriétaires, des fonctionnalités entièrement gérées et sans serveur afin de réduire la supervision administrative et les coûts associés, le multicloud et l'exhaustivité de plusieurs régions pour maximiser la flexibilité des clients et réduire le risque de pannes cloud et régionales, ainsi que les offres de service pour rationaliser les implémentations et atténuer les risques de déploiement mal configurés (Nucleus Research W8 - Tendances des bases de données et des data warehouses pour la période 2022 - janvier 2022) . Étant donné que les data warehouses servent de sources uniques d'informations fiables pour les données d'une entreprise, les data warehouses sont également à la pointe de l'innovation en matière de machine learning et d'intelligence artificielle (IA) basée sur les analyses et la modélisation. Par conséquent, les fournisseurs rivalisent d'ingéniosité pour offrir des fonctionnalités de data science en libre-service à certains fournisseurs en proposant une intégration native avec des services de data science spécialisés et d'autres pour proposer des services collaboratifs où les utilisateurs peuvent partager en toute sécurité des ensembles de données et des blocs-notes tiers afin d'accélérer le développement des analyses et des modèles. Dans cette Value Matrix, les fournisseurs sont positionnés en fonction de la relative convivialité et des fonctionnalités de leurs solutions respectives, ainsi que de la valeur que les clients ont réalisée à partir des capacités de chaque produit (Nucleus Research V67 - Comprendre la Value Matrix - Avril 2021). Il s'agit d'un instantané du marché actuel plutôt que d'un classement empirique des fournisseurs. Les flèches indiquent une dynamique perçue dans le sens indiqué par rapport à l'utilisabilité et aux fonctionnalités. Le positionnement et la dynamique sont principalement alimentés par les conversations avec les utilisateurs finaux ainsi que par les fonctionnalités et les domaines d'investissement des fournisseurs les plus récemment publiés. Numéro de document : W21 Février 2022 NucleusResearch.com 3
LEADERS Parmi les leaders de cette Value Matrix figurent Amazon Redshift, Microsoft Azure Synapse Analytics, Oracle Autonomous Data Warehouse et Teradata Vantage. AMAZON REDSHIFT Amazon Redshift est un leader de l'édition 2022 de la Value Matrix pour la technologie de data warehouse. Amazon Redshift peut analyser des données structurées et semi-structurées stockées dans des data warehouses, des datalakes, des bases de données opérationnelles et des ensembles de données tiers. En tant que data warehouse natif du cloud, Amazon Redshift est connu pour sa facilité d'utilisation et ses performances à grande échelle avec une accessibilité étendue aux données afin de favoriser la visibilité et des implémentations rapides afin d'accélérer le retour sur les données. Les clients s'appuient sur Amazon Redshift pour réduire la durée de l'accès aux données simplifié et géré, l'ingestion et la sortie, améliorant ainsi la productivité des développeurs et des analystes. Au cours de l'année écoulée, Amazon a offert diverses nouvelles fonctionnalités afin d'accroître la valeur de sa solution d'entreposage de données. ▪ En mars 2021, Amazon a annoncé la disponibilité générale d'Amazon Redshift Data Sharing. Le partage de données Amazon Redshift permet aux clients d'étendre la facilité d'utilisation, les performances et les coûts qu'Amazon Redshift offre dans un seul cluster aux déploiements multi-cluster tout en étant capable de partager des données. Il permet un accès précis et rapide aux données dans les clusters Amazon Redshift sans qu'il soit nécessaire de copier ni de déplacer des données. Les clients peuvent partager en toute sécurité des données en direct avec des clusters Amazon Redshift situés dans le même compte AWS ou dans des régions identiques. ▪ En mai 2021, Amazon a intégré Redshift ML à Amazon SageMaker afin de créer, d'entraîner et de déployer des modèles de machine learning à l'aide d'instructions SQL pour des cas d'utilisation tels que la modélisation de prédiction de l'attrition et l'évaluation des risques de fraude dans les requêtes et les rapports des utilisateurs. Amazon Redshift ML peut également exploiter SageMaker Autopilot pour repérer et régler automatiquement le modèle de classification approprié, binaire ou multiclasse. Les utilisateurs peuvent également sélectionner des modèles spécifiques, notamment l'arbre Xtreme Gradient Boosted ou le perceptron multicouche et modifier les hyperparamètres de modèles. ▪ En septembre 2021, Amazon a lancé Amazon Redshift Query Editor V2, un outil Web qui permet aux analystes de données, aux data scientists et aux développeurs de bases de données d'explorer, d'analyser et de collaborer sur des données dans des data warehouses Redshift et un datalake. Les utilisateurs peuvent utiliser l'interface visuelle de Query Editor pour créer et parcourir des schémas et des tables, charger des données, créer des requêtes SQL et des procédures stockées et visualiser les résultats de requêtes à l'aide de graphiques. Numéro de document : W21 Février 2022 NucleusResearch.com 4
▪ En octobre 2021, Amazon a étendu ses capacités de collaboration avec AWS Data Exchange, ce qui permet aux utilisateurs d'accélérer la collecte d'informations en s'abonnant à des ensembles de données tiers pour accélérer le développement des requêtes et des analyses. En outre, l'intégration d'AWS Data Exchange fournit également la gestion des droits, de la facturation et des paiements pour aider les fournisseurs de données à monétiser leurs données. ▪ En novembre 2021, Amazon a présenté Amazon Redshift Serverless, qui automatise le provisionnement et la mise à l'échelle des clusters, améliorant ainsi la productivité informatique tout en réduisant les coûts grâce aux tarifs basés sur l'utilisation. Nucleus prévoit qu'Amazon Redshift gagnera des parts de marché étant donné qu'Amazon continue d'améliorer l'intuitivité de ses capacités de machine learning et que Redshift Serverless termine sa période de test. MICROSOFT AZURE SYNAPSE ANALYTICS Microsoft Azure Synapse Analytics, anciennement Azure SQL Data Warehouse, est un leader dans la Value Matrix 2022 pour la technologie de data warehouse. Grâce à ses fonctionnalités de l'intégration de données, d'entreposage de données et d'analyse d'un bout à l'autre du big data, Azure Synapse Analytics offre une plateforme de données élastique gérée pour les analyses sur les données historiques, opérationnelles et publiques. Les clients Azure Synapse peuvent adapter leur infrastructure d'analyse à leurs besoins de traitement grâce à des options de tarification dédiées et sans serveur basées sur l'utilisation. Azure Synapse Analytics bénéficie également d'une intégration native avec Azure Machine Learning, qui utilise également un modèle de tarification basé sur l'utilisation. Cet environnement géré s'étend à l'intégration de la plateforme avec Apache Spark et élimine la complexité du provisionnement et du réglage des clusters. Azure Synapse Analytics utilise un service de réorganisation amélioré avec son implémentation d'Apache Spark pour aligner ses données et améliorer les performances de ses requêtes. Azure Synapse réduit encore la latence du traitement avec l'élagage dynamique des partitions pour supprimer les données inutiles lors de l'exécution des tâches. La solution cloud native de transaction hybride/traitement analytique (HTAP) de Microsoft, Azure Synapse Link, améliore la vitesse, permettant des analyses continues sur les données opérationnelles dans Azure Cosmos DB sans interférer avec les workloads opérationnels ou d'application. Pour accélérer le délai d'obtention d'informations, les clients peuvent également utiliser Synapse Studio Knowledge Center où ils trouveront des échantillons de jeux de données et des exemples de scripts SQL, de blocs-notes et de pipelines. Les clients peuvent s'attendre à un retour sur les données plus rapide à mesure que Knowledge Center se développe avec davantage de pipelines, de scripts SQL et de modèles de bloc-notes. Nucleus anticipe une prochaine adoption de Microsoft PowerBI et d'Azure Synapse Analytics à mesure que le fournisseur développe et intègre ces fonctionnalités analytiques et de gestion de données basées sur l'IA dans la suite d'applications cloud du fournisseur. Numéro de document : W21 Février 2022 NucleusResearch.com 5
ORACLE AUTONOMOUS DATA WAREHOUSE Nucleus classe Oracle Autonomous Data Warehouse comme un leader dans l'édition 2022 de la Value Matrix sur la technologie de data warehouse. Autonomous Data Warehouse est disponible pour les déploiements dans le cloud et sur site d'Oracle dans des data centers clients. Comme son nom peut l'expliquer, Autonomous Data Warehouse décharge les complexités opérationnelles liées à la gestion d'un data warehouse, notamment les processus de provisionnement, de configuration, de sécurisation, de réglage des performances, d'application de correctifs et de redimensionnement automatique. Cette automatisation permet aux clients d'exécuter diverses tâches d'analyse sans temps d'arrêt, intervention humaine ou surprovisionnement. Oracle Autonomous Data Warehouse est également la seule solution complète qui utilise une base de données convergente offrant une prise en charge intégrée des données multi-modèles et des workloads multiples. Les clients peuvent encore tirer parti de la compression Hybrid Columnar Compression d'Oracle pour réaliser des économies maximales de stockage de données. De plus, grâce aux outils en libre-service no code d'Oracle pour le chargement des données, la transformation des données et l'analyse des données, les business analysts, les data scientists et les développeurs peuvent accélérer leurs workloads courants et améliorer leur productivité. Grâce aux algorithmes dans la base de données d'Oracle et au développement de modèles reposant sur une interface utilisateur AutoML, les utilisateurs peuvent facilement analyser et modéliser des données à leur source. Oracle complète ces fonctionnalités avec des fonctionnalités généralisées de sécurité des données, notamment le chiffrement des données au repos et en mouvement, la protection des données réglementée, l'application de correctifs de sécurité et la détection des menaces. Pour plus de sécurité, les clients peuvent utiliser Oracle Data Safe pour surveiller en continu leurs données sensibles et l'accès des utilisateurs privilégiés. Oracle prévoit d'utiliser ses solutions Autonomous Data Warehouse et Autonomous Database pour connecter les analyses à la suite d'applications cloud du fournisseur (Nucleus Research W2 - Les applications Oracle s'unissent via des analyses basées sur l'IA - Janvier 2022). Pour concrétiser cette vision interdépartementale et interfonctionnelle, Oracle continue à affecter des ressources dans Autonomous Database afin de différencier Oracle Analytics. Au fur et à mesure du développement et de l'intégration de cette analyse des données basées sur l'IA dans la suite d'applications cloud du fournisseur, Nucleus prévoit une adoption croissante avec une attention particulière dans les contrats concurrentiels pour les entreprises dont les volumes de traitement sont élevés. TERADATA VANTAGE Teradata est un leader dans l'édition 2022 de la Value Matrix pour la technologie de data warehouse. Teradata est un data warehouse de niveau entreprise doté de composants de gestion de workloads aboutis, d'analyses avancées intégrées, de sécurité et d'accès aux données. Teradata offre un accès transparent aux données dans des environnements multicloud et hybrides avec la prise en charge des clouds AWS, Google et Microsoft publics. Teradata Vantage est également disponible sur les logiciels virtualisés utilisant VMware et avec le matériel IntelliFlex de Teradata. Grâce à cette approche cohérente, les clients peuvent gérer plusieurs déploiements en tant qu'écosystème unique, ce qui réduit les coûts associés au déplacement ou à la réplication des données dans tous les environnements. Les clients peuvent facilement migrer entre les options de déploiement et de tarification avec la portabilité des licences afin d'éviter toute restriction de fournisseur de cloud. Numéro de document : W21 Février 2022 NucleusResearch.com 6
Grâce à une architecture conçue pour l'évolutivité linéaire multidimensionnelle, Teradata permet aux entreprises de gérer des workloads de données massives sans perte de performances. Teradata offre la possibilité de gérer les performances avec un logiciel avancé de gestion du workload pour répondre aux contrats de niveau de service plutôt que de faire évoluer les performances avec du matériel à des coûts supplémentaires et souvent imprévisibles. Teradata Vantage est une plateforme d'analyses complètes qui inclut des moteurs avancés d'analyses, de création de graphiques et de machine learning, la prise en charge de R et Python, Vantage Analyst et la possibilité d'utiliser votre propre modèle pour simplifier l'accès aux analyses et à la modélisation complexes. Teradata Vantage est également une plateforme d'analyse hautement intégrée qui permet aux entreprises clientes d'utiliser et de mettre en oeuvre leurs analyses simplement dans leurs applications d'entreprise. En s'intégrant à diverses applications SaaS et systèmes BI, Vantage permet la création de rapports, de requêtes statiques, d'analyses ad hoc, d'alimentations de données actives, d'entreposage de données opérationnelles et d'analyses complexes dans un même environnement. Tout au londe de 2021, Teradata a offert diverses nouvelles capacités et de nouveaux partenariats stratégiques pour améliorer la valeur de Teradata Vantage, notamment : ▪ Connectivité BigQuery à QueryGrid permettant aux utilisateurs d'interroger directement Teradata Vantage sur Google BigQuery. ▪ AnalyticOps permet de produire, de gérer et de régir tout modèle analytique d'observation, qu'il s'agisse de modèles R, Python ou micro-modèles basés sur un opérateur de table SCRIPT, de modèles ou de micro-modèles à partir de la bibliothèque Vantage Analytics ou de SQL-MR in-Database et de modèles construits en externe pour Vantage via BYOM (Apportez votre propre modèle). ▪ Adhérer à Azure Cloud pour de nouveaux déploiements en tant que service afin de réduire considérablement les temps d'inactivité liés aux défaillances de noeud. Teradata a également étendu ce partenariat stratégique avec Microsoft pour intégrer Teradata avec Power BI. ▪ Expansion du réseau de partenaires cloud avec plus de 40 nouveaux partenaires, dont Alteryx, Dataiku, Domino Data, dotData, H2O.ai, IBM-Cognos, MicroStrategy, SAS et Tableau. ▪ Des modules d'extension pour Dataiku permettant à ses utilisateurs de créer des workflows complets d'un bout à l'autre à l'aide de Vantage in-database R & Python, de Teradata's Advanced SQL Engine ou des fonctionnalités de modélisation analytique natives de Dataiku. Nucleus s'attend à ce que Teradata améliore son placement dans les éditions futures de Value Matrix pour la technologie de data warehouse car le fournisseur continue d'investir et de développer des fonctionnalités cloud pour s'associer à son solide système sur site. De plus, Nucleus prévoit une adoption croissante de Teradata Vantage alors que les entreprises réalisent l'inefficacité relative des coûts liés aux modèles de tarification sans serveur et basés sur l'utilisation offerts par les fournisseurs de data warehouses natifs du cloud qui privilégient l'évolutivité par rapport à l'efficacité des ressources. Numéro de document : W21 Février 2022 NucleusResearch.com 7
EXPERTS Les experts de la Value Matrix de cette année incluent Databricks Lakehouse, IBM Db2 Warehouse et Yellowbrick Data. LAKEHOUSE DATABRICKS Databricks est placé en tant qu'expert dans l'édition 2022 de la Value Matrix pour la technologie de data warehouse, comme reconnu pour la plateforme Databricks Lakehouse. La plateforme Databricks Lakehouse offre les fonctionnalités de gestion et de performances des data warehouses avec les magasins d'objets flexibles des datalakes. Cette plateforme simplifie également les infrastructures d'analyse en regroupant les workloads d'analyse, de data science et de machine learning dans un environnement cohérent. L'un des principaux facteurs de différenciation de la plateforme Databricks Lakehouse implique sa fondation Delta Lake qui fournit un écosystème unifié pour la gestion et la gouvernance des données structurées, semi- structurées et non structurées optimisées pour l'efficacité et l'évolutivité des coûts. Les clients peuvent également tirer parti de Delta Lake pour effectuer un partage de données sécurisé à protocole ouvert avec Delta Sharing. Cela améliore considérablement la collaboration au sein de l'écosystème des utilisateurs car les entreprises peuvent partager les ressources de données de manière sécurisée sur leur réseau de partenaires. En raison de l'accent mis par Databrick sur l'open source et le protocole ouvert, les clients peuvent bénéficier d'un écosystème collaboratif de développeurs et maintenir la flexibilité avec des correctifs d'échappement afin d'éviter la dépendance des fournisseurs. Avec l'ADN des fournisseurs dans Apache Spark, Databricks convient parfaitement à l'analyse de données à grande échelle avec des capacités robustes pour l'ingénierie des données et des capacités automatisées de machine learning tirant parti de Managed MLflow. Databricks propose également une fonctionnalité de « glass box » AutoML permettant aux utilisateurs de générer rapidement des modèles de référence et des blocs-notes avec une approche à low code. Au cours de l'année passée, Databricks a continué à investir dans sa plateforme Data Lakehouse. ▪ En août 2021, Databricks a annoncé un financement de la série H de 1,6 milliard de dollars pour accélérer l'adoption des architectures data lakehouse. ▪ En octobre 2021, Databricks a acquis des laboratoires allemands de start-up de data science 8080 pour permettre une exploration et une transformation rapides et intuitives des données avec l'outil de science des données low/no-code de la start-up, bamboolib. ▪ En janvier 2022, Databricks a lancé son data lakehouse pour le retail et les biens de consommation afin de résoudre les problèmes courants pour les clients de ces secteurs. Nucleus prévoit que Databricks conquerra la part de marché d'autres fournisseurs de data warehousespour les clients qui hiérarchisent les fonctionnalités de data science. Alors que Databricks améliore l'intuitivité de sa data science grâce à d'autres investissements dans les capacités low/no code et les data warehouses propres à l'industrie, les clients peuvent s'attendre à une valeur croissante de leurs déploiements Databricks, comme représenté par un meilleur positionnement sur l'axe d'utilisation. Numéro de document : W21 Février 2022 NucleusResearch.com 8
WAREHOUSE IBM DB2 IBM Db2 est placé en tant qu'expert dans l'édition 2022 de la Value Matrix pour la technologie de data warehouse. Avec son offre Db2 Warehouse, IBM fournit un data warehouse préconfiguré déployable vers des clouds privés et d'autres infrastructures basées sur des conteneurs Docker. IBM Db2 Warehouse est idéal pour les clients qui inscrivent des approches de cloud hybride car il associe la flexibilité d'un environnement cloud avec des contrôles complets de données et de sécurité. Grâce à cette approche, les clients peuvent faire passer progressivement les données sensibles dans le cloud en prenant de plus en plus en considération dans des contrats concurrentiels, à mesure que les exigences de sécurité et la complexité de l'évolutivité de la transformation du cloud du client. IBM Db2 Warehouse offre une large gamme de fonctionnalités avec prise en charge des conceptions de systèmes SMP et MPP, des analyses intégrées et du machine learning et une évolutivité élastique automatisée. IBM Db2 Warehouse est également hautement intégré à Apache Spark, ce qui rationalise encore l'analyse des données et le machine learning à grande échelle. Au cours de l'année passée, IBM a fourni diverses fonctionnalités nouvelles et étendues à Db 2 Warehouse pour améliorer la valeur client. ▪ En juillet 2021, IBM a intégré Db2 Warehouse avec IBM Key Protect pour aider les utilisateurs à gérer leurs clés, améliorant ainsi le contrôle du chiffrement des données au sein du système. ▪ En septembre 2021, IBM a publié un panneau détaillant le statut des moniteurs d'événements d'activité, de verrouillage, d'utilitaire et de statistiques pour une connexion de base de données spécifique. IBM a également pris en charge la personnalisation du workload sur les moniteurs d'événements d'activité et de statistiques.. ▪ En janvier 2022, IBM a étendu la prise en charge des index, des espaces de table et des pools de tampons et augmenté la capacité de stockage jusqu'à 240 To. En mettant l'accent sur les contrôles de données et la sécurité, IBM a instauré la confiance dans son cloud et Db2 Warehouse, ce qui a favorisé des migrations cloud traditionnellement limitées par des exigences de sécurité des données ou des seuils de risques. En outre, l'engagement différencié d'IBM Db2 Warehouse vis-à-vis des clients de cloud hybride permet au fournisseur de construire un atout autour de sa position en tant que principal fournisseur de solutions et de services orientés vers les approches de cloud hybride. YELLOWBRICK DATA Yellowbrick Data est expert de l'édition de cette année de la Value Matrix pour la technologie de data warehouse. Yellowbrick Cloud Data Warehouse utilise PostgreSQL en parallèle d'une architecture MPP pour fournir des informations en temps réel à partir de données à n'importe quelle échelle. Yellowbrick se présente comme un data warehouse pour des clouds de données distribués et, à ce titre, peut être déployé n'importe où, y compris des data centers privés, des clouds publics et des environnements de conteneurs tels que Kubernetes en périphérie. Yellowbrick couvre un large éventail de secteurs, notamment les services financiers, Numéro de document : W21 Février 2022 NucleusResearch.com 9
les assurances, les télécommunications, le secteur industriel, la santé et la vente au détail. Yellowbrick gère les données dans un magasin de lignes et de colonnes hybride afin d'offrir des performances optimales pour les tâches à faible latence et les requêtes ad hoc. Yellowbrick lance également un appel aux clients qui exploitent les environnements de cloud privé avec son architecture propriétaire d'Andromeda, comprenant des processeurs AMD 64 coeurs et des accélérateurs d'analyse « Kalidah » pour optimiser les performances et l'efficacité de la consommation de ressources. Tous les data warehouses sont gérés par Yellowbrick Data Manager et un « écran unique » pour un contrôle unifié des données dans les environnements cloud distribués. Yellowbrick Data Manager permet également aux utilisateurs de surveiller les déploiements, de parcourir et de charger des données via un navigateur Web et d'écrire/modifier des instructions SQL. Les clients Yellowbrick ont adopté ses produits et services, notamment pour les fonctionnalités de la plateforme de traitement en direct des données de diffusion en continu et d'efficacité du traitement en batch et la flexibilité entre l'utilisation du cloud et sur site. Au cours de l'année passée, Yellowbrick a amélioré la valeur client grâce à de nouveaux partenariats et à des investissements dans de nouvelles fonctionnalités. ▪ En avril 2021, Yellowbrick Data a présenté son data warehouse conçu pour les clouds distribués afin qu'il prenne en charge les IoT émergents et les cas d'utilisation des analyses en périphérie, tout en connectant de manière transparente les data centers privés et les clouds publics. ▪ En novembre 2021, Yellowbrick Data a annoncé un financement de la série C1 de 75 millions de dollars afin d'accélérer l'adoption de son data warehouse cloud et de financer l'innovation dans un espace hautement itératif. ▪ En février 2022, Yellowbrick Data a annoncé son partenariat avec Nippon Information and Communication Corporation (NI+C) au Japon pour poursuivre son expansion mondiale et souligner la valeur des données de NI+C pour servir les institutions de télécommunication, de transport et de banque. Nucleus s'attend à ce que Yellowbrick Data améliore son positionnement lors des éditions futures de la Value Matrix pour la technologie de data warehouse grâce à l'intégration accrue de Yellowbrick Data avec divers fournisseurs de cloud public. Nucleus prévoit également une adoption plus rapide par les clients car Yellowbrick Data commence à proposer des options de tarification sans serveur afin d'étendre l'avantage concurrentiel des technologies de mise en réseau et d'architecture différenciées de Yellowbrick Data. ANIMATEURS Les facilitateurs de Value Matrix de cette année incluent Google BigQuery, SAP Data Warehouse Cloud et Snowflake. Numéro de document : W21 Février 2022 NucleusResearch.com 10
GOOGLE BIGQUERY Nucleus place Google BigQuery dans la catégorie des facilitateurs dans l'édition 2022 de la Value Matrix pour la technologie de data warehouse. Avec Google BigQuery, les utilisateurs peuvent analyser leurs données structurées et semi-structurées à l'aide de SQL, en tirant parti d'une approche sans serveur dans un environnement multicloud entièrement géré. Google BigQuery sert une variété de secteurs, y compris la vente au détail, le secteur industriel, l'automobile, l'énergie, la santé, les médias, les télécommunications, les institutions et le secteur public ainsi que les services financiers. Les clients peuvent intégrer des données dans BigQuery selon différentes modalités, notamment le chargement de lots, la diffusion en continu de données et les connecteurs actifs avec des applications tierces. Les clients peuvent également exécuter des analyses avancées s'appuyant sur le machine learning BigQuery, notamment la régression, le clustering K-means, la factorisation matricielle, les arbres de décision boostés par les gradients et les réseaux neuronaux profonds. Google associe ces fonctionnalités à des analyses de plusieurs pétaoctets avec les fonctions du moteur BI BigQuery pour l'analyse en mémoire afin de permettre un traitement des requêtes optimisé pour la latence intégré aux solutions BI populaires, notamment Looker, Tableau, Google Data Studio et Power BI. Google BigQuery prend également en charge l'analyse géospatiale avec le SIG BigQuery permettant aux utilisateurs d'intégrer les données de localisation pour une compréhension plus complète de l'impact géographique sur les opérations. Google BigQuery est au cœur de la vision de Google de soutenir les clouds de données des clients en unifiant leur cycle de vie des données entre les bases de données, l'analyse des données, BI et les cas d'utilisation de l'IA. Tout au long de 2021, Google a fourni diverses fonctionnalités nouvelles et étendues pour améliorer la valeur de BigQuery. ▪ En mai 2021, Google a annoncé Analytics Hub pour l'accès aux données et leur partage. Google a également présenté Dataplex, un maillage de données intelligent qui unifie la gestion et la gouvernance des données sur les datalakes client, les data warehouses et les data marts. ▪ En juillet 2021, Google a ouvert à tous BigQuery Omni, ce qui permet aux clients d'effectuer des analyses multicloud sans avoir à déplacer ou répliquer des données stockées dans AWS S3 ou Azure blob storage. ▪ En août 2021, Google a introduit des requêtes fédérées Cloud Spanner avec BigQuery permettant aux utilisateurs d'interroger les données conservées dans Spanner en temps réel sans avoir besoin de réplication de données ou de nouveaux pipelines ETL pour déplacer les données. ▪ En octobre 2021, Google a annoncé la prise en charge d'Apache Spark sur Google Cloud avec une mise à l'échelle automatique sans serveur afin d'accélérer l'analyse du big data, de proposer des tarifs basés sur l'utilisation et d'économiser du temps informatique consacré précédemment à la gestion des clusters Spark. ▪ En janvier 2022, Google a annoncé la disponibilité générale d'Explainable AI dans BigQuery pour aider les utilisateurs à comprendre les résultats de leurs modèles de machine learning. Numéro de document : W21 Février 2022 NucleusResearch.com 11
▪ Google a également annoncé la prise en charge de nouvelles fonctionnalités de gouvernance, telles que le chiffrement sur le terrain, les fonctions de gestion du workload SQL et la prévention automatique des pertes de données (DLP) avec Google Cloud DLP. À l'avenir, Nucleus s'attend à un meilleur positionnement de Google BigQuery car ce fournisseur continue d'étendre ses capacités de science et de gouvernance des données tout en investissant dans de nouvelles technologies de mise en réseau et une architecture lacustre sécurisée. SAP DATA WAREHOUSE CLOUD SAP Data Warehouse Cloud est placé en tant que facilitateur dans l'édition 2022 de la Value Matrix pour la technologie de data warehouse. Avec SAP Data Warehouse Cloud, le fournisseur propose une solution multicloud dotée de fonctions d'intégration de données, de bases de données, de data warehouses et d'analyses basées sur SAP HANA Cloud. SAP constitue une solution complète d'entreposage de données avec des fonctionnalités de gouvernance, de modélisation de données, de modélisation métier, de référentiel et de services de sécurité. SAP propose plusieurs options de déploiement sur site, hybrides et cloud avec un choix d'environnements publics et privés pour les déploiements cloud. Les clients peuvent également connecter ces environnements à travers des référentiels de données sur site et multicloud afin de préserver le contexte commercial entre les systèmes. Les clients bénéficient également d'une facilité d'utilisation intuitive grâce à l'espace de travail virtuel SAP et à l'environnement no code pour la connexion de données, la modélisation, la visualisation et le partage sécurisé. Pour permettre l'analyse en temps réel, SAP prend en charge le traitement en mémoire des données structurées, non structurées et géospatiales. SAP offre également une base de données, un data warehouse, un datalake et des analyses pré-intégrés pour accélérer les implémentations. SAP Data Warehouse Cloud est également un service entièrement géré qui minimise la complexité continue des activités et du service informatique après le déploiement. SAP a continué à développer de nouvelles fonctionnalités pour SAP Data Warehouse Cloud au cours de l'année écoulée, notamment : ▪ SAP BW Bridge, qui permet aux utilisateurs d'importer des modèles de données BW Bridge dans SAP Data Warehouse Cloud et de bénéficier d'autres fonctionnalités BW dans un environnement cloud public flexible. ▪ Recherche intelligente pour joindre deux entités avec une sorte de relation sémantique à l'aide d'une interface utilisateur no code. ▪ Flexibilité étendue dans Data Flow pour importer des fichiers Excel à partir du stockage de fichiers distant et configurer la feuille de calcul à utiliser. Nucleus prévoit que SAP Data Warehouse Cloud continuera à croître, exploitant les fonctionnalités intégrées de la plateforme pour alimenter des environnements multicloud hybrides et complexes. Pour la suite, nous prévoyons que SAP investisse davantage dans l'utilisabilité de Data Warehouse Cloud avec les fonctionnalités de tarification sans serveur et de partage sécurisé des données. Numéro de document : W21 Février 2022 NucleusResearch.com 12
SNOWFLAKE DATA CLOUD Nucleus classe Snowflake comme facilitateur dans l'édition 2022 de la Value Matrix pour la technologie de data warehouse. Snowflake établit ses ambitions au-delà du multicloud et aspire à une plateforme de données entièrement intercloud. Snowflake y parvient en utilisant Secure Data Sharing pour gérer l'accès aux données via la couche de services et la banque de métadonnées uniques de Snowflake afin de fournir aux services internes, aux clients et aux partenaires commerciaux une base de données en lecture seule contenant des données partagées qui n'imputent pas les frais de stockage de données d'un client. Cette fonctionnalité s'étend également aux données régies en direct permettant des informations collaboratives en temps réel. Snowflake Data Cloud offre une architecture entièrement sans serveur qui permet aux clients de redimensionner facilement leurs instances de data warehouse dans un sens ou dans l'autre et de payer en fonction de leur utilisation.. Ces fonctionnalités sans serveur permettent également d'économiser du temps informatique en gérant en interne la planification de la capacité, le provisionnement des ressources et la maintenance des serveurs. Bien que cette approche sans serveur accorde une tarification basée sur l'utilisation, Snowflake n'ajuste pas les ressources de calcul par incréments linéaires, mais a plutôt choisi des incréments exponentiels (2n). Par exemple, si une tâche de calcul nécessite cinq GPU, Snowflake donne à l'utilisateur huit GPU. Le modèle de tarification basé sur l'utilisation de Snowflake peut conduire les clients à cumuler des coûts d'utilisation qui dépassent l'utilisation de leurs ressources. Snowflake a continué à investir dans la facilité d'utilisation et l'exhaustivité fonctionnelle de sa plateforme. Voici quelques annonces et mises à jour récentes de produits : ▪ Prise en charge de la conformité au Règlement sur le trafic international des armes (ITAR) sur le gouvernement Microsoft Azure Government et AWS GovCloud, ce qui améliore l'appel de Snowflake aux clients opérant dans des secteurs réglementés. ▪ En septembre 2021, Snowflake a annoncé un partenariat stratégique avec la plateforme de data science Anaconda basée sur Python pour étendre l'accès et la gestion des bibliothèques open source. Le fournisseur a également annoncé un support natif pour Python dans Snowflake dans le cadre de développement du fournisseur, Snowpark. ▪ En septembre 2021, Snowflake a introduit Financial Services Data Cloud pour faciliter l'innovation basée sur les données entre les établissements de services financiers. ▪ En octobre 2021, Snowflake a lancé Media Data Cloud pour faciliter la collaboration des données dans les réseaux d'utilisateurs de médias et de publicité. À l'avenir, Nucleus prévoit que Snowflake acquerra des clients des secteurs réglementés qui cherchent à se moderniser tout en maintenant des niveaux élevés de sécurité des données. Alors que Snowflake améliore encore l'intuitivité de ses capacités de data science avec des clouds de données spécialisés, les clients peuvent s'attendre à une valeur croissante de leurs déploiements Snowflake, comme représenté par un meilleur positionnement sur les axes d'utilisation et de fonctionnalité. Numéro de document : W21 Février 2022 NucleusResearch.com 13
FOURNISSEURS DE BASE Parmi les fournisseurs de base de la Value Matrix de cette année figurent Cloudera Data Platform et Panoply Cloud Data Platform. CLOUDERA DATA PLATFORM Cloudera Data Platform (CDP) est placé en tant que fournisseur de base dans la Value Matrix pour la technologie de data warehouse. Cloudera Data Platform assure la gestion et la sécurité des données tout au long du cycle de vie des données et est disponible pour les déploiements publics, privés et multiclouds. En intégrant ces environnements, Cloudera offre un « écran unique » pour gérer les environnements multicloud et hybrides. Cloudera Data Platform est disponible en deux éditions : CDP Public Cloud et CDP Private Cloud. CDP Public Cloud permet aux utilisateurs de créer et de gérer des datalakes sécurisés et fournit des services d'analyse et de machine learning en libre-service sans avoir à installer et à gérer le logiciel de plateforme de données. Destiné aux clients du cloud hybride, CDP Private Cloud connecte de manière transparente des environnements sur site aux clouds publics et offre une sécurité et une gouvernance cohérentes et intégrées. Cloudera est un service élastique avec provisionnement et administration en libre-service complets pour permettre une administration sans intervention qui évolue et suspend automatiquement en fonction de l'utilisation du client pour contrôler les coûts du cloud. Cloudera fournit des temps de réponse aux requêtes inférieurs à la seconde, avec des moteurs SQL tels qu'Apache Impala et Hive capables de gérer des ensembles de données jusqu'à 150 Po. Cloudera prend en charge les données semi- structurées et non structurées, en plus des ensembles de données structurés traditionnels. Cloudera dispose d'une compatibilité plug-and-play pour divers outils d'analyse tiers permettant de connecter les données et d'alimenter les outils BI déjà utilisés par l'entreprise. L'ingénierie des données des plateformes de données client offre également des fonctionnalités sophistiquées pour l'ingénierie des données, basées sur Apache Spark afin de simplifier l'ETL et de faciliter l'orchestration et l'automatisation avec Apache Airflow. Apache Airflow fournit également aux clients Cloudera des outils de surveillance du pipeline, de débogage visuel et de gestion. ▪ En avril 2021, Cloudera a annoncé un partenariat stratégique avec NVIDIA pour intégrer RAPIDS Accelerator for Apache Spark 3.0 à Cloudera Data Platform. ▪ En juin 2021, Cloudera a acquis Datacoral et Cazena pour développer la poussée du fournisseur dans l'analytique en libre-service no/low code. Datacoral simplifie l'ETL grâce à des services entièrement gérés pour les intégrations et les transformations de données, tandis que Cazena accélère l'analyse basée sur l'IA et le machine learning. ▪ En août 2021, Cloudera a annoncé avoir conclu un accord portant sur son acquisition par Clayton, Dubilier & Rice (CD&R) et KRR pour une valeur de 5,3 milliards de dollars pour rendre Cloudera privé. Cette migration fournit à Cloudera les ressources nécessaires pour accélérer l'innovation de la plateforme cloud hybride de Cloudera. Numéro de document : W21 Février 2022 NucleusResearch.com 14
▪ En août 2021, Cloudera a également présenté Cloudera DataFlow pour que le cloud public traite les workloads hybrides de diffusion en continu. Les utilisateurs peuvent désormais automatiser les opérations complexes de flux de données et améliorer l'efficacité des ressources grâce à des fonctionnalités d'évolutivité automatique. Nucleus s'attend à ce que l'adoption de CDP continue alors que les clients se tournent de plus en plus vers Cloudera pour bénéficier de fonctionnalités intégrées dans des environnements multicloud hybrides et complexes. Nous prévoyons que Cloudera s'améliorera sur ces deux axes au fur et à mesure que le fournisseur développe des capacités cloud natives étendues. PANOPLY Panoply est reconnu comme un fournisseur de bases dans la Value Matrix 2022 pour la technologie des data warehouses. Panoply fournit un stockage de données cloud et ETL entièrement géré afin d'analyser le big data à l'aide d'un langage SQL standard. Le service de pipeline de données automatisé Panoply décharge la configuration, les mises à jour logicielles et la mise à l'échelle de l'infrastructure, réduisant ainsi la complexité du chargement des données dans Panoply et permettant aux utilisateurs de connecter des fichiers, des bases de données et des API no code. La plateforme de données Cloud Panoply comprend des connecteurs dotés de plus de 40 sources de données, notamment Amazon S3, PostgreSQL, Google Analytics, HubSpot, MongoDB, Shopify et Salesforce. Panoply prend également en charge une large gamme d'outils de BI et de visualisation des données, tels que Count, Tableau, Power BI, Looker, cumul.io, Mode Analytics, Panintelligence et Metabase. Panoply Cloud Data Platform inclut également des fonctionnalités de sécurité et de gouvernance telles que les normes SOC 2 et HIPAA afin de gérer les données sensibles et les autorisations utilisateur de niveau table pour un contrôle affiné. En décembre 2021, Panoply a été acquis par SQream Technologies, une plateforme d'accélération des données centrée sur les GPU. Cette acquisition devrait accélérer les requêtes SQL pour les clients Panoply et aider à concrétiser la vision de SQream en matière d'analyses rapides dans les environnements cloud, sur site et en périphérie. Étant donné que SQream intègre sa plateforme d'analyse hybride à la plateforme Panoply Cloud Data Platform, Nucleus s'attend à une valeur ajoutée pour les utilisateurs des deux produits. Numéro de document : W21 Février 2022 NucleusResearch.com 15
Vous pouvez aussi lire