L'HISTOIRE MÉCONNUE D'APACHE - CASSANDRATM COMMENT DATASTAX A AIDÉ LA SOLUTION INNOVANTE CASSANDRA À DEVENIR UNE NORME INDUSTRIELLE À PART ENTIÈRE
←
→
Transcription du contenu de la page
Si votre navigateur ne rend pas la page correctement, lisez s'il vous plaît le contenu de la page ci-dessous
L’histoire méconnue d’Apache Cassandra TM Comment DataStax a aidé la solution innovante Cassandra à devenir une norme industrielle à part entière
L’histoire méconnue d’Apache CassandraTM SOMMAIRE Un Secret Révélé � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 3 L’open Source : Un Terrain De Jeu Ouvert À Tous � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 3 Nourriture Thaïlandaise Bon Marché Et Naissance De Quelque Chose De Grand � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 5 Nouvelle Appellation, Nouvelle Mission (Coup De Théâtre) � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 5 Mutation À L’échelle Mondiale – Et Vers Le Cloud � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 6 Retour À Apache Cassandra � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 7 L’histoire Ne Fait Que Commencer � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 8 À Propos De Datastax � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 9 2
L’histoire méconnue d’Apache CassandraTM UN SECRET RÉVÉLÉ Nous sommes en 2019, au beau milieu d’une troisième révolution des bases de données alimentée par la prolifération des applications cloud et leur dépendance croissante vis-à-vis des données – qu’elles soient générées par des humains ou des machines – visant à proposer la meilleure expérience utilisateur possible. Première révolution : la création du grand système IBM (ou IBM mainframe), qui a dynamisé l’informatique des années 1960 aux années 1980 ; deuxième révolution : l’émergence de la base de données relationnelle, qui a favorisé l’avènement de l’ère du client-serveur pendant la première décennie de ce siècle. Voici à présent la troisième révolution, déjà bien entamée : celle de la base de données distribuée. L’émergence du cloud a créé des richesses inimaginables, mais s’est également accompagnée de nombreux défis à relever. Des volumes incommensurables de données nous parviennent de toutes parts en permanence et les clients exigent rapidité, personnalisation en temps réel et disponibilité absolue des systèmes. Jusqu’à présent, un secret a été bien gardé : DataStax est l’élément moteur à l’origine d’Apache Cassandra. L’entreprise a en effet contribué à plus de 85 % aux « commits » (validation de code temporaire en code permanent) et fait évoluer cette technologie, initialement simple communauté d’encodage Facebook, en une base de données qui alimente plus de 30 % du Fortune 100, notamment Netflix, Cisco et eBay. Revivez ici les différents chapitres de cette histoire et découvrez comment une entreprise à part entière peut évoluer pour passer d’une communauté innovante à une solution entièrement applicable et absolument incontournable dans le monde orienté données d’aujourd’hui. L’OPEN SOURCE : UN TERRAIN DE JEU OUVERT À TOUS Si les ingénieurs Jonathan Ellis et Matthew Pfeil fondent DataStax sous l’appellation « Riptano » en 2010, l’histoire de DataStax commence véritablement quelques années auparavant, en 2008, alors que J. Ellis et M. Pfeil travaillent pour Rackspace, une société de cloud computing basée à San Antonio. J. Ellis est un ingénieur de talent passionné par les systèmes et bases de données évolutifs. La société Rackspace s’est intéressée à lui en raison de son travail chez Mozy, où il a mis sur pied une architecture de stockage d’objets semblable au site d’hébergement de fichiers S3 d’Amazon. Chez Mozy, les employés surnomment leur architecture de stockage de métadonnées « la base de données massive effrayante », car, si elle devait tomber en panne, Mozy s’écroulerait également. Le saviez-vous ? Le nom « Cassandra » Chez Rackspace, J. Ellis essaie de convaincre l’entreprise de le est issu du personnage de Cassandre dans laisser mettre en œuvre une base de données distribuée évolutive la mythologie grecque. Cassandre est la fille du roi Priam et de la reine Hécube de Troie. car il a conscience que toute application cloud prospère finit par se En raison de sa beauté, elle reçoit d’Apollon heurter au problème d’évolutivité rencontré par Mozy. le don de dire l’avenir. Toutefois, parce qu’elle ne l’aime pas en retour, Apollon la maudit et décrète que ses prédictions ne seront jamais Alors que J. Ellis se met à l’ouvrage, Facebook lance Cassandra, crues ; elle devient celle que l’on surnomme l’oracle maudit. une nouvelle technologie gratuite conçue pour effectuer des Dès 2008, alors que la base de données est recherches dans de vastes quantités de données. Cassandra étant en cours de développement par Facebook, l’entreprise sait déjà qu’il s’agit là d’une accessible en open source, J. Ellis se met rapidement à jouer avec. base de données de qualité professionnelle qui permettrait de renverser l’actuel roi du marché, Oracle. 3
L’histoire méconnue d’Apache CassandraTM Nous sommes alors à la fin de l’année 2008 et peu après les concepteurs de Cassandra décident de confier leur technologie à l’organisation à but non lucratif Apache Software Foundation en raison de sa popularité grandissante, non seulement chez Facebook et Rackspace mais également chez Twitter, qui l’utilise alors pour des analyses en temps réel. À l’époque, seule une poignée de personnes travaille sur Cassandra, mais les réponses aux problèmes à grande échelle et la valeur ajoutée apportées par la solution deviennent rapidement évidentes. Dans le courant de l’été 2009, J. Ellis reçoit un appel téléphonique du capital-risqueur John Vrionis de Lightspeed Venture Partners. J. Vrionis, qui va par la suite également investir dans d’incroyables success stories telles que Nicira, AppDynamics et Mulesoft, s’intéresse alors au potentiel disruptif des nouvelles technologies « big data » comme Hadoop pour l’analyse en batch et les bases NoSQL pour les charges transactionnelles. Il s’avère que J. Vrionis a des connaissances dans le domaine puisqu’il est titulaire d’un master dans les infrastructures de grilles informatiques et les systèmes distribués. Il demande à J. Ellis s’il a déjà envisagé de fonder sa propre entreprise fondée sur Apache Cassandra. J. Ellis a en effet commencé à caresser l’idée mais n’est pas encore prêt à se lancer. C’est plus tard, à l’automne 2009, que l’occasion se présente, quand il est contacté par Comcast. Il s’avère que Comcast a une base de données extrêmement partitionnée dont le développement et la maintenance sont devenus très complexes. Si les ingénieurs de Comcast se sont dans un premier temps montrés satisfaits par Cassandra, l’enthousiasme des débuts a laissé place à la perplexité. Lorsque J. Ellis se joint à eux, ces derniers lui disent que leur parton ne souhaite pas lancer la production d’une base de données sans entreprise à laquelle ils pourraient faire appel en cas de problème. C’est le déclic pour J. Ellis : il est temps pour lui de fonder son entreprise. 4
L’histoire méconnue d’Apache CassandraTM NOURRITURE THAÏLANDAISE BON MARCHÉ ET NAISSANCE DE QUELQUE CHOSE DE GRAND C’est à ce stade que M. Pfeil entre en scène : il rejoint Rackspace lors de son acquisition de MailTrust, qui proposait alors une messagerie en ligne aux petites entreprises. Libre de choisir entre deux projets à réaliser chez Rackspace, M. Pfeil décide de se concentrer sur une infrastructure de base de données et d’analyse partagée à destination des équipes de développement internes. La base de données devait reposer sur Apache Cassandra et l’infrastructure analytique sur Apache Hadoop®. Pendant ce temps, le recrutement de jeunes ingénieurs talentueux auprès de l’Université du Texas à Austin est confié à M. Pfeil (à l’époque, Rackspace compte 300 employés sur son site d’Austin) et ces projets permettent un recrutement de qualité. En février 2010, J. Ellis et M. Pfeil déjeunent dans un restaurant thaïlandais bon marché. Chacun a pour mission de convaincre son interlocuteur. M. Pfeil a eu vent que J. Ellis est sur le point de quitter Rackspace afin de chercher une entreprise utilisant Apache Cassandra et il est déterminé à le convaincre de rester. Quant à J. Ellis, il est déterminé à aller de l’avant, mais a besoin pour se faire d’un PDG fondateur. M. Pfeil semble être le candidat idéal pour tout ce qui a trait aux activités commerciales tandis que J. Ellis se concentrerait sur la technologie en elle-même. C’est J. Ellis qui sort vainqueur de leur joute oratoire. À la fin du déjeuner, tous deux ont pris la décision de quitter Rackspace afin de créer une entreprise reposant sur la technologie open source Apache Cassandra. Grâce à des financements de Rackspace et Lightspeed, J. Ellis et M. Pfeil fondent Riptano au mois de mars 2010 (ils utilisent un générateur de noms aléatoires pour trouver cette appellation) et se fixent comme objectif de devenir la nouvelle grande entreprise spécialisée dans la technologie de bases de données. NOUVELLE APPELLATION, NOUVELLE MISSION (COUP DE THÉÂTRE) La technologie Apache Cassandra n’en est encore qu’à ses balbutiements, mais elle permet de répondre à un besoin tel en matière d’évolutivité et de disponibilité que la grande majorité des entreprises se penche sur le sujet. La technologie NoSQL a le vent en poupe et, du jour au lendemain, on assiste à l’apparition de bases de données NoSQL un peu partout ; à la fin de l’année 2011, on en compte plus de 250. L’entreprise de logiciels de marketing en ligne Constant Contact va devenir le premier client payant de Riptano à adopter la première version de la solution maintenant connue sous le nom DataStax « OpsCenter » – un outil de surveillance et de gestion avec assistance technique Matt Pfeil (à g.) et Jonathan Ellis (à dr.), les co-fondateurs de et services divers. DataStax, s’adressent aux employés de l’entreprise à ses débuts 5
L’histoire méconnue d’Apache CassandraTM M. Pfeil, J. Ellis et leur petite équipe d’ingénieurs passent l’année qui suit à former l’ensemble du marché aux technologies NoSQL et Apache Cassandra, investissant dans la communauté open source et le développement du code source. Hadoop, le moteur d’analyse d’Apache, attire alors toute l’attention sur lui et Cassandra est alourdie par une pléthore d’autres bases de données NoSQL, moins puissantes mais plus simples d’utilisation. En 2011, M. Pfeil et J. Ellis décident d’abandonner le nom « Riptano » au profit de « DataStax » sur le conseil du vice- président de la gestion des produits alors en fonction, qui trouve que le nom « Riptano » manque de professionnalisme pour une entreprise de gestion de bases de données. Au mois d’octobre 2011, ils commercialisent la version V1 de DataStax Enterprise, la toute première plate-forme de données intégrée avec fonctions d’analyse reposant sur la technologie Hadoop et fonctionnant sur Apache Cassandra. Dans l’univers de la gestion de base de données, ce lancement est une véritable révolution : les architectes n’ont plus besoin de séparer les clusters Hadoop pour les analyses en batch à grande échelle et peuvent analyser leurs données transactionnelles sans recourir à une extraction, un transfert et un chargement des données à la fois onéreux et chronophages. À peu près à la même époque, M. Pfeil et J. Ellis décident d’engager un PDG – un entrepreneur autrefois footballeur et maintenant spécialisé en technologie dénommé Billy Bosworth – afin de les aider à gérer la croissance phénoménale de l’entreprise et à obtenir de nouveaux capitaux, sous la supervision de Crosslink Capital. M. Pfeil et J. Ellis ont réussi à établir Cassandra en tant que technologie viable. Ils doivent à présent rassembler des fonds afin de la faire adopter dans le monde entier. Matt Pfeil (à g.) et Jonathan Ellis (à dr.), les co-fondateurs de DataStax, s’adressent aux employés de l’entreprise à ses débuts. MUTATION À L’ÉCHELLE MONDIALE – ET VERS LE CLOUD Jusqu’à 2013, DataStax connaît une période florissante. Contrairement au premier Cassandra Summit de 2010 qui n’avait attiré que quelques centaines de participants, celui de 2013 en rassemble plus de 1 000 ; il fait la part belle aux interventions d’entreprises phares comme Instagram, Spotify, eBay et Netflix. Des entreprises d’investissement sont elles aussi emportées par la vague du Big Data – notamment NoSQL – et le marché est en train de se scinder entre le groupe des gagnants et celui des perdants ; Apache Cassandra tire son épingle du jeu en tant que base de données professionnelle la plus évolutive et la mieux certifiée pour l’entreprise. DataStax continue d’ajouter de nouvelles fonctionnalités telles que la sécurité et de nouvelles technologies telles que les modèles de données sous forme graphique. Ces caractéristiques offrent un plus déterminant par rapport à la solution Apache Cassandra open source. Ellis a effectué un talk technique au Cassandra Summit 2016 à San Jose, son dernier talk en tant que président du projet pour Apache Cassandra. 6
L’histoire méconnue d’Apache CassandraTM L’entreprise commence par ailleurs à s’investir considérablement 70 % DES COMMITS dans la solution Apache Cassandra open source (sur laquelle a été PROVIENNENT DE DATASTAX conçue DataStax), avec notamment 85 % des « commits » (validation de code temporaire en code permanent). Elle crée en outre une base de connaissances gratuite intégrant une formation en ligne, une documentation de premier ordre, les pilotes leaders sur le marché et des activités visant à renforcer la communauté. Les architectes sont confrontés à un essor de technologies open source et à une pléthore étourdissante de projets ponctuels haut de gamme qui monopolisent le secteur. Garder le rythme avec le développement de ces projets et tirer parti des avantages open source qu’ils proposent constituent deux enjeux qui limitent le temps consacré aux applications front-end importantes. C’est pour cette raison que, dans toutes les industries et dans les très grandes entreprises, les architectes commencent à se tourner vers DataStax Enterprise – car cette solution répond à la nécessité de plus en plus pressante d’adopter des applications cloud (synonymes de disponibilité et d’évolutivité) et met fin à l’obligation fastidieuse pour les architectes d’élaborer et d’entretenir leurs propres plates-formes. Alors que DataStax Enterprise devient la plate-forme de gestion incontournable pour les architectes exerçant dans un seul secteur d’activité, la liste des clients de DataStax ressemble de plus en plus à un répertoire « Who’s who » des principales marques mondiales : on y compte Netflix, UBS, Cisco, Comcast, ING, Safeway, eBay et Sony, parmi des centaines d’autres. Et parce que DataStax Enterprise est en mesure de prendre en charge des applications front-end cloud et de répondre aux questions complexes de distribution et colocation des données, les entreprises commencent à l’utiliser pour d’autres activités également. La demande de formation et de services ne fait donc que s’intensifier, ce à quoi DataStax répond avec la mise en œuvre de la communauté gratuite DataStax Academy et d’un service payant de conseil. RETOUR À APACHE CASSANDRA Tandis que DataStax continue à évoluer avec la commercialisation de produits tels que DataStax Managed Cloud, un service haut de gamme entièrement géré, l’entreprise commence également à comprendre le besoin exprimé par certaines entreprises d’avoir une distribution de Cassandra prête à la production avec une assistance assurée par des experts. C’est alors qu’arrive DataStax Distribution d’Apache Cassandra™, qui permet aux entreprises de rationaliser leurs activités et contrôler les coûts liés à toutes leurs charges de travail Apache Cassandra en leur donnant accès à un logiciel Cassandra open source de premier ordre et en leur offrant une assistance et des services assurés par des experts impliqués dans la majeure partie de la programmation d’Apache Cassandra. DataStax Distribution d’Apache Cassandra intègre une version prête à la production de Cassandra 100 % compatible open source et laissant le choix entre une assistance 24x7 ou 8x5 auprès des experts ayant programmé la majeure partie du code d’Apache Cassandra. 7
L’histoire méconnue d’Apache CassandraTM L’HISTOIRE NE FAIT QUE COMMENCER Avec DataStax Distribution d’Apache Cassandra, DataStax opère un retour aux sources de son histoire open source. Néanmoins, la véritable histoire des bases de données ne fait que commencer alors que nous abordons l’ère du cloud hybride. Le déploiement d’applications cloud hybride devenant – lentement mais sûrement – la norme, DataStax, en proposant une base de données « active everywhere » qui élimine les silos de données, permet aux entreprises de déployer des applications en toute transparence dans des environnements hybrides et/ou multi-cloud sans avoir à modifier leurs applications ou à réécrire leur code source. C’est là un avantage considérable. Facebook a développé Cassandra afin de résoudre un problème de données distribuées et a ensuite contribué à en faire une technologie open source. DataStax a fait de même et a Le saviez-vous ? DataStax permet de gérer les données pour les entreprises qui souhaitent expérimenter des projets critiques de Customer 360, de transformé cette technologie en une solution à même de résoudre personnalisation en temps réel, de recommandations et de détection de fraude. les problèmes de données qui caractérisent les applications Beaucoup de ces applications sont transformationnelles – Permettre aux données d’être distribuées et accessibles par des utilisateurs situés à différents d’aujourd’hui et de faire de ces données des informations utiles endroits géographiques augmente la performance, réduit les latences et améliore considérablement la satisfaction client. sur la base desquelles améliorer l’expérience utilisateur. DataStax continue à puiser dans ses racines tandis que l’arbre se mue en forêt. Les entreprises assurent leur viabilité en s’adaptant aux changements et le véritable atout de DataStax est d’intervenir au niveau de la couche de données, là où tout commence. Savoir gérer ses données, c’est savoir gérer son entreprise et ses clients : pas simplement les gérer, mais cultiver leur intérêt pour votre organisation grâce à des méthodes révolutionnaires. Les données sont à la fois le commencement et la fin – et pour l’instant, aucune fin n’est en vue. Sélection de quelques-uns des clients DataStax parmi les 500 et quelques faisant appel à DataStax Enterprise afin de prendre en charge leurs applications critiques pour l’expérience client qu’ils proposent. 8
L’histoire méconnue d’Apache CassandraTM À PROPOS DE DATASTAX DataStax fournit la base de données cloud hybride distribuée « active everywhere » hautement disponible reposant sur Apache Cassandra™. Fondation de l’autonomie des données et des applications personnalisées, en temps réel et à grande échelle, DataStax Enterprise facilite l’exploitation des environnements hybrides et multi-cloud via une couche de données transparente qui élimine les problèmes inhérents au déploiement d’applications sur plusieurs centres de données locaux et/ou plusieurs clouds publics. Notre solution confère également aux entreprises une visibilité totale sur les données, ainsi qu’une portabilité et un contrôle qui leur permettent de garder la propriété stratégique de ce qui est leur actif le plus précieux dans un monde hybride/multi-cloud. Nous aidons de nombreuses marques mondiales leaders dans divers secteurs à transformer leurs activités grâce à une couche de données d’entreprise qui élimine les silos de données et le verrouillage des fournisseurs dans le cloud, tout en optimisant des applications modernes et critiques. Pour de plus amples informations, rendez-vous sur www.DataStax.com et suivez-nous sur @DataStax. © 2019 DataStax, tous droits réservés. DataStax, Titan et TitanDB sont des marques déposées de DataStax, Inc. et de ses filiales aux États-Unis et/ou dans d’autres pays. Apache, Apache Cassandra, Cassandra, Apache Tomcat, Tomcat, Apache Lucene, Lucene, Apache Solr, Apache Hadoop, Hadoop, Apache Spark, Spark, Apache TinkerPop, TinkerPop, Apache Kafka et Kafka sont des marques commerciales d’Apache Software Foundation ou de ses filiales au Canada, aux États-Unis et/ou dans d’autres pays. Last Rev: APR2019 9
L’histoire méconnue d’Apache Cassandra TM Comment DataStax a aidé la solution innovante Cassandra à devenir une norme industrielle à part entière
Vous pouvez aussi lire