LinkedIn rend Open Source Pinot, son outil d'analyse en temps réel - Silicon.fr

La page est créée Françoise Rossignol

Science

Français

Like
Partager
Intégrer
Plein écran
Diapositives
Télécharger HTML
Télécharger PDF
Abus

←

CONTINUER À LIRE

→

Transcription du contenu de la page

Si votre navigateur ne rend pas la page correctement, lisez s'il vous plaît le contenu de la page ci-dessous

LinkedIn rend Open Source Pinot, son outil d'analyse en temps réel - Silicon.fr

LinkedIn rend Open Source Pinot, son outil
d’analyse en temps réel
LinkedIn multiplie les initiatives dans le Big Data. Huit mois après avoir dévoilé son framework
d’analyse de données en temps réel Pinot (en réference au cépage du même nom), le réseau social
professionnel américain a annoncé, mercredi 10 juin, rendre sa solution Open Source. Le but :
ouvrir Pinot aux contributions de développeurs tiers et élargir son adoption.

Pour collecter des évènements en temps réel et réagir à l’activité de l’utilisateur en quelques
secondes, LinkedIn s’est détourné de solutions propriétaires et d’alternatives comme Druid, le data
store Open Source qui se rapproche le plus de Pinot. Cet outil maison a été conçu pour traiter « des
milliards d’évènements en temps réel par jour ». Hautement évolutif et tolérant aux pannes, selon
ses promoteurs, Pinot offre un faible temps de latence et dispose d’une interface de type SQL.

Pinot en téléchargement sur Github
En interne, LinkedIn utilise Pinot depuis plus de deux ans avec 30 de ses produits, dont XLNT,
plateforme de test A/B, indique dans un billet de blog Kishore Gopalakrishna, responsable
technique logiciels chez LinkedIn. Parallèlement, Pinot sert de backend à plus de 25 produits
d’analyse destinés aux clients et aux membres du réseau (Qui a consulté votre profil ou vos
nouvelles ? Quel est l’impact des offres d’emploi et des annonces publicitaires diffusées via
LinkedIn…).

Le code source de Pinot est disponible sous licence Apache 2.0 sur Github. En plus de Pinot,
LinkedIn a « ouvert » d’autres solutions d’infrastructure data, parmi lesquelles : Azkaban, Kafka,
Samza et Voldemort. Il n’est pas le seul. D’autres grands noms du numérique ont rendu Open
Source leurs propres outils d’analyse et traitement de flux, dont eBay avec Pulsar et Twitter avec
Storm.

Lire aussi :
Emploi et Big Data : LinkedIn ouvre ses données aux chercheurs
Linkedin s’empare de l’expertise Big Data de Carreerify

Crédit : McIek Shutterstock

BI : Qlik veut convertir les métiers au
mélange des données
Dans la foulée des annonces de Qlik Sense, de ses offres cloud, et de son service Datamarket (issu
du rachat du service Data as a Service ou DaaS éponyme –données professionnelles accessibles en
mode cloud), l’éditeur suédois a organisé une journée dédiée à ses clients et partenaires à Paris.
Une occasion pour Silicon.fr de rencontrer Anthony Deighton, son directeur technique (CTO), et
James Richardson, son Managing Director (ex-analyste du cabinet d’études Gartner).

Dès la création de la société, le leader de la visualisation et de l’exploration analytiques choisit de
stocker tous les détails des données en mémoire, et pas uniquement les résultats. Un défi risqué
dans les années 1990, lorsque la mémoire coutait beaucoup plus cher… L’évolution informatique
semble lui avoir donné raison, comme le prouve la généralisation du In-Memory ou encore SAP
avec Hana.

Libérer l’utilisateur de la technologie

« En 30 ans, la Business Intelligence a fortement évolué. Devenue stratégique, elle s’impose désormais à tous
les niveaux de l’entreprise,» assure James Richardson. «C’est pourquoi les utilisateurs peuvent à présent faire
beaucoup plus avec une solution comme Qlik. Grâce à la plateforme Sense, les métiers peuvent explorer
intelligemment leurs données en mode Click&Look sans dépendre sans cesse des informaticiens afin de
découvrir des informations ou de prendre de meilleures décisions. Nous visons trois objectifs essentiels. Avant
tout : libérer l’utilisateur métier des barrières technologiques grâce à la visualisation. Second objectif : intégrer
et donner accès à tous les types de données internes ou externes à l’entreprise. Traditionnellement, la BI se
contentait d’analyser les informations transactionnelles des ERP et autres applications centrales. D’ailleurs, les
volumes ne sont pas forcément importants. Enfin, il s’agit de mettre fin à l’utilisateur final passif se contentant
de visualiser le résultat d’une chaîne de traitements: SGBD, ETL, front-office… Aujourd’hui, l’utilisateur plus
impliqué veut être actif et explorer des données de façon interactive, collaborative, afin d’exprimer des idées,
des opinions, etc.»

Le mélange de données à la portée des métiers

La variété des données à considérer et leurs différents formats –bases de données, tableurs, etc.)
apportent un niveau de complexité pour l’utilisateur final, non-initié aux liaisons de données et
autres référentiels informatiques. Les opérations dites « de data blending » (mélange de données)
nécessitent une connaissance de la structure des données et de la mise en relation entre elles.
Peut-on alors s’affranchir des informaticiens ?

« Dans Sense, notre moteur d’associations détecte les relations a priori possibles entre des colonnes Excel et
des champs de bases de données, ou en analysant la forme des informations… Il propose donc
automatiquement à l’utilisateur des liens qu’il peut refuser, soit parce qu’il constate que cela n’a aucun sens,
soit parce que le résultat final n’apporte rien. Mais bien souvent, la proposition est pertinente,» explique
Anthony Deighton. « Effectivement, parfois l’opération s’avère inefficace. Néanmoins, cela présente
l’avantage de mettre à jour des problèmes d’incohérence ou de qualité des données, avec charge à l’utilisateur
et aux informaticiens d les résoudre. Toutefois, l’utilisateur connait ses informations généralement locales et

est à même de trouver rapidement une solution.»

Pourtant le problème des données non structurées ne devrait-il pas s’accentuer? « Pour ma part, je
ne connais pas de données non structurées. Toute information a une structure, non seulement les bases de
données, mais aussi les documents bureautiques ou les objets connectés. Le défi consiste surtout à détecter
cette structure,» rétorque le directeur technique.
Cette question de qualité des données est épineuse, car essentielle à la pertinence des analyses.
D’où l’importance croissante des solutions de gouvernance des données.

« Cependant, avec les grands volumes, la pertinence a fortement tendance à augmenter,» relativise James
Richardson. « La question à se poser touche aux seuils de tolérance acceptable par l’entreprise pour telle ou
telle analyse. Ainsi, sur des informations locales, elle pourrait envisager 90 à 95% de fiabilité, contre 99,99%
pour des données professionnelles achetées auprès de spécialistes. Par ailleurs, le phénomène culturel reste
l’un des freins majeurs à la démocratisation de l’accès aux outils de BI. Certaines personnes pensent que leur
pouvoir tient dans ces informations. Mais cela évolue finalement assez vite dans le bon sens. Et ces solutions
visuelles y contribuent.»

La concurrence, quelle concurrence ?

Dans le sillon d’entreprises pionnières comme Qlik et Tableau, et face aux succès remportés, tous
les acteurs de la BI ont fortement investi sur la visualisation et l‘exploration des données. La
concurrence s’accentue donc, non seulement pour Qlik, mais aussi pour des acteurs comme
Tableau.

« Souvent, ces acteurs ont imité l’interface de Qlik, mais leur moteur reste le même, et ne propose ni le même
spectre fonctionnel ni la même agilité,» affirme Anthony Deighton.
«Contrairement à Qlik, ces plates formes n’ont pas été originellement conçues avec cette préoccupation
visuelle intégrée dans leur socle. Ni avec la mobilité. Résultat la combinaison des deux devient généralement
laborieuse et complexe, et non naturelle,» renchérit James Richardson.

La guerre des trois n’aura pas lieu

Longtemps, les éditeurs de BI ont proposé leurs solutions comme exclusivement à destination des
informaticiens. Puis, depuis quelques années, certains responsables d’entreprise (marketing,
financiers…) ont décidé de passer outre l’informatique. Alors, une grande partie des éditeurs ont
court-circuité les DSI en s’adressant directement aux métiers. Résultat : des solutions souvent
hétérogènes et complexes à intégrer, des conflits plus tendus encore, et un remplacement de
l’éditeur quand il faut quelqu’un porte le chapeau…

« Chacun doit trouver sa place dans la décision, avec pour objectif une solution qui réponde aux attentes de
l’utilisateur final. Car, finalement, tout le monde ressort perdant de la bataille entre DSI et directions métier, et
surtout l’entreprise. La solution doit être simple à utiliser, ergonomique et pouvoir apporter la bonne
information dans le bon contexte et au bon moment à l’utilisateur. Avec la possibilité pour l’informaticien
d’intervenir. Sinon, comment l’utilisateur peut-il avoir confiance dans les résultats de données ? Comment
pourrait-il utiliser un outil qui ne convient pas?… Le dénouement passe par un partenariat en bonne
intelligence autour d’un outil collaboratif,» conclut James Richardson.

A lire aussi :

Avec Sense 2.0, Qlik pousse la dataviz vers les métiers et le Cloud
Qlik Branch, une plateforme ouverte au partage d’API entre développeurs

Crédit Photo : Syda production-Shutterstock

Le gouvernement britannique s’associe
avec IBM sur le Big Data
Le ministre des Sciences du gouvernement britannique, Jo Johnson, a levé le voile sur un
partenariat signé avec IBM, d’une durée de cinq ans et d’un montant de 313 millions de livres
(environ 453 millions d’euros).

L’objectif est de booster la recherche sur le Big Data au sein du Royaume-Uni. Le gouvernement va
mettre 113 millions de livres sur la table, et IBM 200 millions, sous la forme d’un ensemble de
technologies et d’une expertise sur site.

L’accès aux datacenters d’IBM et à la plate-forme Watson sera ouvert aux chercheurs. Un minimum
de 24 chercheurs de la firme américaine seront également détachés auprès du Hartree Centre,
piloté par le STFC (Science and Technology Facilities Council). Les résultats des travaux menés par les
universitaires britanniques et les équipes d’IBM seront commercialisés conjointement par les deux
acteurs.

Des serveurs OpenPower
Ce partenariat est d’importance pour IBM, mais également pour la Fondation OpenPower. Cette
technologie sera en effet un des éléments clés des infrastructures qui seront mises en place dans le
cadre de ces travaux de recherche, aux côtés de Watson, lui aussi basé sur la technologie Power.

Les machines OpenPower se positionnent ainsi comme les fantassins des infrastructures massives
dédiées à des traitements Big Data, la tête pensante de ces clusters restant Watson.

À lire aussi :
Quiz Silicon.fr – 10 questions pour tout savoir sur l’initiative OpenPower
SoftLayer va intégrer des serveurs OpenPower à ses offres bare metal
Tyan et Cirrascale lancent les premiers serveurs OpenPower non IBM

Crédit photo : © Feature Photo Service

Discover 2015 : les 4 commandements de
Hewlett Packard Entreprise
La séparation en deux activités arrive à grand pas pour HP, car elle sera effective au 1er novembre
prochain, a annoncé Meg Whitman, CEO du groupe. Elle a profité de l’évènement annuel de la firme
à Las Vegas pour reparler de la création de ces deux entités et surtout de dresser une feuille de
route pour l’activité entreprise qu’elle va diriger.

En premier lieu, elle justifie inlassablement cette scission pour mieux rassurer les clients. « Nous
avons besoin de plus d’agilité, d’apporter plus vite des solutions à vos besoins notamment dans la
transformation numérique », rappelle la dirigeante. Elle constate en outre que les stratégies métiers
et IT ne sont pas si éloignées au point d’en faire un nouveau credo, le « new style of business ».

Les choses ont bien avancé depuis l’annonce de cette séparation. Hewlett Packard Entreprise a vu
son périmètre se cantonner des serveurs et du stockage au Cloud en passant par la sécurité et le
réseau, tout en gardant au passage les services. L’organigramme des différents responsables de
ces divisions a aussi été arrêté en janvier dernier. Pour mémoire, il comprend Mike Nefkens, en
charge des services, et Robert Youngjohns, à la tête de la division Software. Antiono Neri,
responsable de l’activité serveur et réseau, prend part à l’aventure pour s’occuper de la gestion
courante. Ils étaient tous présents sur scène, mais on aura noter l’absence de Bill Veghte, en charge
de la stratégie de HP et homme fort de HP Entreprise.
Cette entité s’est dotée d’un nouveau logo avec un rectangle vert qui avait été présenté en avril
dernier.

Bascule sur l’hybride
Puis est venu le temps pour Meg Whitman de décliner sa stratégie pour HP Entreprise. Elle se
décline en 4 orientations : transformation, protection, accompagnement et renforcement. A chaque
orientation, les dirigeants de HP Entreprise cités précédemment sont venus apporter la bonne
parole de manière un peu docte, parfois, et commerciale, souvent. La première pierre de la
stratégie de Meg Whitman est la transformation des sociétés vers des infrastructures hybrides.
« Avec le développement des applications (1 trillion en 2020), des devices (100 milliards), les entreprises ont
besoin de se reposer sur des infrastructures plus agiles, plus rapides. Il est donc nécessaire de les
accompagner vers des solutions d’automatisation, d’orchestration et de convergence », souligne Mike
Nefkens.

HP Entreprise propose plusieurs éléments pour cette transformation comme l’a rappelé Antonio

Neri. Sur le Cloud par exemple, la firme de Palo Alto a dévoilé la 9ème itération de Helion Cloud
System comprenant la plateforme Helion Openstack ainsi qu’une version de Cloud Foundry et la
dernière mouture de CSA (Cloud Service Automation). Elle sera disponible en septembre prochain.
On peut ajouter l’amélioration du reporting et du monitoring avec View 2.0 et Ops Analytics pour
permettre à la DSI de « devenir un broker d’applications et de services ».

La sécurité, un problème de Big Data
La seconde orientation est la sécurité avec comme objectif de protéger les données, les
applications contre différentes menaces (cyberattaques, erreurs humaines, incidents systèmes).
Pour Robert Yougjohns, « la sécurité est un problème de Big Data. Pour détecter les menaces, il faut
analyser des énormes volumes de données ». L’analytique est donc la clé pour réduire le temps de
détection des attaques. Le responsable n’a pas fait d’annonces produits. Il faudra attendre
septembre pour en savoir un peu plus notamment sur les évolutions du produit ArcSight.

Troisième étage de la stratégie de HP Entreprise, valoriser les données de l’entreprise. Car le
constat est sans appel : « actuellement 80 à 90 % des personnes considèrent que les promesses du Big Data
ne sont pas effectives ou surévaluées », constate Mike Nefkens. Pour les porte-parole, le salut passera
par les solutions de HP en matière de Big Data comme Haven ou la mise en place d’une plateforme
Hadoop en collaboration avec Hortonworks.

Aruba au cœur de la mobilité
Enfin, dernière brique du ‘quadrant magique’ de HP Entreprise : la mutation de la productivité. Sous
ce concept, on retrouve notamment la transition vers la mobilité. Dans ce cadre, l’acquisition
d’Aruba Networks va prendre tout son sens. Son CEO, Dominic Orr, a fait sensation sur scène avec
un dynamisme rafraîchissant pour expliquer les besoins des différentes générations en entreprises
et leur implication sur les réseaux. Pour Antonio Neri, il ne fait aucun doute qu’Aruba va redéfinir le
paysage du réseau. Toutefois, il faudra là encore attendre quelques mois avant d’en savoir un peu
plus.

Au final, Meg Whitman a donné sa feuille de route : « nous nous sommes demandés comment
positionner HP non pas pour seulement survivre, mais aussi prospérer ». Cela passera par des acquisitions
probablement, comme le montrent les derniers mouvements autour d’Aruba ou de Contextream.
La dirigeante sait qu’elle joue une partie de poker importante, car les derniers résultats financiers
de HP n’étaient pas au beau fixe.

A lire aussi :

Discover 2015 : HP enfonce le coût sur le stockage flash

HP s’ancre dans le SDN/NFV avec Contextream

Antemeta et HP, une histoire commune sur

le stockage et l’innovation
« Ce ne sont pas nos amis, ils sont des partenaires de raison où les clients recherchent des experts et des
compétences », explique Gérald Karsenti, PDG de HP France en parlant d’Antemeta. L’intégrateur
français de solutions de stockage assume ce rôle de partenaire depuis 20 ans, précise Stéphane
Blanc, président d’Antemeta. L’histoire des deux acteurs a commencé en février 1995 avec le
développement des services Storageworks de HP. Puis, « il y a eu quelques infidélités » glisse
discrètement Stéphane Blanc. Déçu par Storageworks, il a écumé la Silicon Valley pour trouver une
technologie plus performante et importera dans l’hexagone les produits 3Par, dont le CEO, David
Scott est un ancien de HP. Cette infidélité ne durera pas, car au mois de septembre2010, après une
bataille homérique entre HP et Dell, 3Par tombe dans l’escarcelle de la firme de Palo Alto.

Depuis ce rachat, les relations sont de plus en plus étroites entre les deux partenaires. « Nous
disposons de la troisième base installée de baies 3Par dans le monde », constate Stéphane Blanc. Une
connaissance des produits qui lui permet de disposer d’une R&D en étroite collaboration avec les
laboratoires de HP pour développer des fonctionnalités ou des outils de gestion des solutions de
stockage. Le directeur technique d’Antemeta, Samuel Berthollier, est venu présenter les dernières
évolutions des solutions 3Par Vision et Peer Persitent pour AIX.

Des solutions de gestion du stockage
Sur le premier, il s’agit d’un service de reporting sur l’utilisation des baies. La troisième version
vient de sortir et comprend quelques innovations, comme le traitement en quasi temps réel avec
des points de mesure remontés chaque seconde. Un avantage et un inconvénient constate le CTO
d’Antemeta. « Les clients sont très demandeurs de ces informations en temps réel. Par contre il est difficile de
leur fournir des données sur mobiles ou tablettes, car certains vont jusqu’à 150 000 points retranscrits. Nous
avons essayé, mais les écrans ne sont pas adaptés et les navigateurs crashent. » L’application qui tourne
sous Windows s’essaye à la BI et au machine learning pour prévoir le comportement des baies et
l’évolution des besoins de stockage du client (consommation IOPS, niveau d’utilisation de la baie,
etc.).

Autre service, Peer Persistent pour AIX. « Il s’agit d’un outil pour s’assurer la migration d’une baie à une
autre à chaud dans des datacenters distants. HP a eu la bonne idée d’intégrer cette fonctionnalité dans les
contrôleurs. Mais sur d’autres environnements comme AIX d’IBM très implantés dans certains secteurs comme
la banque, il a été nécessaire de développer des solutions ad hoc », indique Samuel Berthollier. Des
solutions qui sont homologuées par les laboratoires de HP et qui sont ensuite proposées aux
clients HP/3Par.

10% de passage en full flash
Mais la prochaine grande rupture, c’est la flash. Pour Gerald Karsenti, « l’année 2015 sera celle de la
flash avec un marché en forte croissance avec une orientation vers les services et les usages ». Les prix et les
capacités commencent à devenir intéressants sur la mémoire flash au point de devenir une vraie
alternative aux disques traditionnels. Stéphane Blanc est plus direct. « Les constructeurs de disques se

sont reposés sur leurs lauriers, il n’y avait plus de réelle innovation. La flash a redistribué les cartes. »

Un engouement pour la flash qui commence à percer selon le dirigeant : « Nous avons migré
aujourd’hui 10% de notre base installée en full-flash. » Et les ambitions sont grandes dans ce
domaine, sans pour autant tout confier à HP. En effet, Antemeta a noué un partenariat avec Pure
Storage depuis plusieurs mois pour développer son activité autour du flash. L’intégrateur pousse
également ses services managés avec des bons retours notamment sur sa dernière offre Arcabox,
un service de stockage Cloud pour les entreprises.

A lire aussi :

Avec ArcAbox, Antemeta à l’assaut du stockage Cloud pour entreprise
Antemeta : « Nous avons développé une solution de gestion unifiée de stockage NAS »

Analytique Big Data : R sera intégré en
standard au sein de SQL Server 2016
Fin janvier, Microsoft annonçait l’acquisition de Revolution Analytics, spécialiste du langage de
programmation R. Voir à ce propos notre précédent article « Microsoft gobe Revolution Analytics
sur un R de Big Data ».

Les annonces autour de cette technologie ne se seront pas fait attendre. « SQL Server 2016 (qui sera
accessible en version publique de test cet été) comprendra de nouvelles fonctions d’analyse en temps réel, le
chiffrement automatique des données et la possibilité d’exécuter R au sein de la base de données elle-même »,
explique ainsi David Smith sur le blog de Revolution Analytics.

« Les data scientists n’auront plus besoin d’extraire les données d’un serveur SQL via ODBC pour les analyser
avec R. Au lieu de cela, Ils seront en mesure d’amener le code R au cœur des données, où il sera exécuté
dans un processus de SQL Server lui-même. Ceci élimine le temps et le stockage nécessaire pour déplacer les
données, et offre toute la puissance de R et des packages CRAN dans la base de données. »

R, la nouvelle star des data scientists
R est un outil Open Source de traitement des données, spécialisé dans les analyses statistiques.
Des caractéristiques qui lui valent une popularité croissante au sein de la communauté des data
scientists. L’acquisition de Revolution Analytics et l’inclusion de R au sein de SQL Server 2016 sont
donc des avancées clés pour Microsoft sur le terrain du Big Data analytique.

La firme n’est toutefois pas seule dans ce secteur. Elle a en effet été précédée par Oracle, qui a
déployé très tôt R dans ses offres (voir l’article de février 2012 « Oracle place le langage R au cœur
de son offre analytique big data »).

À lire aussi :
Rust 1.0 : le langage de programmation des projets critiques
Programmation : Xojo pourra créer des applications Raspberry Pi
La NASA et IBM lancent un concours de programmation basé sur Bluemix

Crédit photo : © McIek – Shutterstock

Avec Sense 2.0, Qlik pousse la dataviz vers
les métiers et le Cloud
Outre Analytics Platform, destinée aux développeurs pour concevoir des applications analytiques
avec exploration visuelle des données, l’éditeur suédois fait évoluer sa plateforme Sense destinée à
l’utilisateur non informaticien, et annonce ses nouveaux services cloud. Les rachats des sociétés
DataMarket et Vizubi (et sa ligne de produits Nprinting) donnent naissance à des offres intégrées à
forte valeur ajoutée.

Quelles sont les particularités et les différences entre Analytics Platform et Sense ?

Stéphane Briffod : La business intelligence traditionnelle est assez rigide et très orientée
informatique. En outre, au sein des départements de l’entreprise les utilisateurs nécessitent non
seulement les données centrales, mais aussi celle provenant de tableurs comme Excel ou d’autres
sources d’information, ou encore du cloud. On constate aussi un écart important entre l’anarchie
des données de l’utilisateur et l’indispensable gouvernance informatique. C’est pourquoi Qlik se
positionne en tant que plate-forme d’entreprise permettant une collaboration entre l’informatique
et les métiers, avec du self-service discovery, des tableaux de bord, du reporting, des analyses
guidées, des applications analytiques embarquées dans d’autres logiciels, de la collaboration et du
partage…

Le travail des informaticiens reste indispensable, mais l’entreprise a besoin de plus d’agilité pour
permettre aux métiers de prendre des décisions dans l’heure ou dans la journée. Ce qui amène à
repenser l’organisation des données dans l’entreprise afin de réconcilier ces deux mondes.
Analytics Platform apporte au développeur une solution simple pour concevoir rapidement des
applications analytiques en quelques jours ou semaines et non plus en plusieurs mois ou années.
Elle repose sur le moteur associatif de données en mémoire QIX in-memory Associative Indexing
Engine, proposant aussi des APIs de mash-up et d’extension. Analytics Platform permet d’étendre
la Business Intelligence aux clients et partenaires via l’extranet et Internet, favorisant la
collaboration et l’interaction autour des données.

Quant aux utilisateurs métier, Sense Enterprise 2.0 leur apporte le self-service, la collaboration et
du partage, la possibilité de créer très simplement des visualisations différentes, en modifiant des
axes, filtrant les résultats, etc. Qlik Sense Enterprise 2.0 (disponible dès juin 2015) leur apporte une

utilisation ergonomique et intuitive pour la visualisation de données en libre-service, le reporting,
les tableaux de bord, et les analyses guidées et intégrées. Et suite à l’acquisition récente de
NPrinting, Sense permet désormais d’imprimer et d’exporter des analyses au format PDF ou sous
PowerPoint (ou Word), et de produire ces rapports pour les partager. Analytics Platform est intégré
dans Sense.
Ce qui répond au besoin d’agilité. En effet, dans les rapports interactifs ou applications analytiques
conçues par les informaticiens, certaines choses non prévues s’avèrent parfois indispensables pour
l’utilisateur final, qui peut via Qlik Sense en réaliser en grande partie de façon autonome.

Pouvez-vous nous expliquer la nouvelle fonction Smart Data Load ?

Avec Sense, l’utilisateur métier peut combiner des informations issues de diverses sources et les
relier automatiquement, afin de révéler des relations invisibles entre ces informations. Le profiling
Visuel de la nouvelle fonction Smart Data Load permet à l’utilisateur métier d’associer
visuellement et en quelques clics des sources de données via une interface graphique intuitive.

Par exemple, s’il utilise une feuille Excel avec une colonne « Client » et des données venant d’une
base de données ou application avec une colonne « Customer », Smart Data Load lui suggérera
automatiquement de relier ces deux colonnes. Et le tout, sans script ni code d’aucune sorte. Un
script étant généré automatiquement, l’informaticien pourra éventuellement s’en servir pour
d’autres cas d’usage.

Qu’offrez-vous aujourd’hui (et demain) sur le Cloud ?

Sous Qlik Cloud, via le service Sense Cloud, l’utilisateur peut partager gratuitement des
applications Sense avec d’autres personnes (jusqu’à 5, et plus au cours du second semestre 2015)
qui nécessitent juste un terminal équipé d’un navigateur Internet. Au cours du second semestre, il
sera également possible directement dans Sense Cloud de créer des applications analytiques, du
Story Telling, de la visualisation, etc.

Suite à l’acquisition de Datamarket, nous proposerons dès le mois de juin (et dans QlikView au
second semestre 2015) notre offre de Data as a service Qlik DataMarket permettant aux
utilisateurs de Sense d’accéder à une multitude de données externes payantes ou gratuites afin
d’enrichir leurs informations (avec des bases de données Entreprises, météorologie, finances,
démographie…). Des opérations qui permettent d’apporter plus de valeur et donc de prendre de
meilleures décisions aussi bien pour de de l’analyse que pour du prédictif. Ces sources de données
sont préfigurées et accessibles via un modèle d’abonnement.

Au second semestre 2015, Sense Charts offrira aux utilisateurs métier techniques d’intégrer des
visualisations interactives Sense au sein d’une page Web ou d’un blog ou de les partager
gratuitement sur les réseaux sociaux. Et chacun pourra consulter ces graphiques interactifs depuis
n’importe quel support et même –par exemple- filtrer ces données pour découvrir davantage
d’informations avancées. Le tout à partir d’un simple navigateur.

A lire aussi :

Qlik Branch, une plateforme ouverte au partage d’API entre développeurs

René Bergniard : « Qlikview ne se limite pas à la dataviz »

Crédit Photo : Syda production-Shutterstock

Le Machine Learning améliore la
productivité de la PME Conexance
Mise à jour à 14h22

Remplacer un long processus manuel par des algorithmes qui découvrent seuls les relations les
plus significatives entre différentes variables. Cette approche, qui est au cœur du Machine
Learning, ne pouvait pas laisser la PME lilloise Conexance indifférente. Regroupant une quarantaine
de personnes, ce prestataire spécialiste de statistiques propose à des sociétés d’un même secteur
de partager, au sein de clubs fermés (distribution, presse et caritatif), des données anonymisées
afin d’effectuer des analyses sur de larges volumes d’information. « Nous gérons des données
historisées sur de longues périodes, renfermant de multiples informations sur les comportements des clients.
Notre travail consiste à fournir des informations prédictives à nos clients : modélisation du churn (déperdition
au sein de la base clients, NDLR), définition du potentiel de clients, stratégie d’acquisition de nouveaux
clients… », précise René Lefébure, le directeur de la R&D de Conexance. Au total, la PME a agrégé,
dans ses bases, 24 millions de foyers et gère pas moins de 1 700 variables essentiellement
transactionnelles (2 500 prévues fin 2016. Autant d’éléments potentiellement significatifs des
comportements clients. « C’est cette largeur qui pose problème. Nous avions besoin de nouveaux
algorithmes », reprend René Lefébure.

Un modèle prêt en moins d’une heure
Avant tout pour des questions de productivité. Chez Conexance, une équipe de 9 personnes doit
réaliser plus de 5 000 scorings par an. « Or, chacun d’entre eux nécessite en moyenne 6 passages (choix
des dimensions et algorithmes pertinents, NDLR). Ces étapes statistiques demandent entre 3 heures – pour les
scorings les plus simples – et jusqu’à 7 ou 8 heures de travail », détaille le directeur de la R&D. D’où
l’intérêt de la PME pour les services de Machine Learning. Après étude (et évaluation de plusieurs
alternative dont l’offre de Sas Institute et des solutions Open Source bâties autour de R), Conexance
opte pour l’offre Microsoft : Azure Machine Learning. « Aujourd’hui, avec plus de 1 000 variables et
environ 1 million d’enregistrements, construire un modèle sur ce service prend environ 50 minutes. Et le faire
tourner demande 11 à 12 minutes de plus », assure René Lefébure. A condition évidemment de
dimensionner l’infrastructure Azure en conséquence, ce qui a un impact sur les coûts.

Le gain de productivité pour les équipes de statisticiens n’en reste pas moins important. Un
élément intéressant pour Conexance, qui, pour gagner l’adhésion de nouveaux clients à ses clubs,
propose des tests gratuits sur de premiers scoring. Etre en mesure de les produire rapidement et

de façon très automatisée s’avère donc crucial pour la société nordiste.

Prédictions plus fiables
Par ailleurs, le passage au Machine Learning masque également un enjeu de performances. « Dans
l’univers mouvant de la donnée, où il faut faire progresser les rendements des campagnes, multiplier les types
de scoring, intégrer des démarches de segmentation ou encore raccourcir les délais de livraison, miser sur une
analyse statistique qui, elle, n’évolue pas ne me paraît pas être le bon modèle », résumé René Lefébure. Le
Machine Learning permet de faire tourner en parallèle 8 modèles différents. « Selon les
problématiques il est possible soit de sélectionner le meilleur modèle (selon un ou plusieurs critères), soit de
combiner les différents modèles et/ou leurs résultats », précise le statisticien dans un billet de blog. Là où
la méthode classique ne permet de bâtir – en 3 heures au mieux – qu’un modèle reposant sur un
seul algorithme. Conexance avance des gains dans la qualité de prédiction allant de 20 % – « ce qui
ne change rien pour un client sur le plan opérationnel »- à 300 %. Un bond qui, là, se révèle très
significatif et qui résulte de « l’intégration de davantage de variables et de l’utilisation d’une combinaison
de modèles », selon René Lefébure

Si la PME utilise pour l’instant Azure for Machine Learning en doublon de son outillage
traditionnel (basé sur les solutions de Sas Institute), essentiellement pour benchmarker les
modèles traditionnels de Conexance, René Lefébure envisage un avenir où le Machine Learning
prendra le pas sur les démarches manuelles. « A terme, j’espère que ces dernières ne représenteront plus
que 10 % de nos opérations de scoring », dit-il. D’ici la fin 2015, la PME envisage également la
construction d’un portail sur lequel ses clients pourront faire fonctionner eux-mêmes les modèles
les plus performants.

Signalons que Conexance s’est également appuyé sur Azure pour son architecture Hadoop. Celle-ci
héberge des données non structurées (essentiellement des données de navigation), tandis que les
bases SQL plus classiques (Oracle pour les données très confidentielles et SQL Server) prennent en
charge les données transactionnelles.

A lire aussi :

Machine Learning contre statistiques « classiques » : qui remportera le match ? (tribune)
Ciblage marketing : la Fnac fait confiance au Machine Learning
Bernard Ourghanlian, Microsoft : « Pourquoi le Machine Learning va gagner l’entreprise »

Crédit photo : agsandrew / Shutterstock

Emploi et Big Data : LinkedIn ouvre ses

données aux chercheurs
Après avoir acquis Careerify, spécialiste du Big Data appliqué au recrutement et à la détection de
talents, LinkedIn va mettre des jeux de données à disposition de 11 équipes de chercheurs
sélectionnées dans le cadre de son programme Economic Graph Challenge. Les chercheurs ont 6
mois pour analyser ces données préalablement anonymisées et présenter leurs conclusions,
indique LinkedIn dans un billet de blog. L’objectif : identifier les opportunités économiques du
marché.

Les équipes de chercheurs, doctorants et professeurs, axent leurs travaux sur des thématiques
différentes, de la réduction des inégalités sur le marché du travail à la montée en compétences IT
des collaborateurs. L’équipe du Massachusetts Institute of Technology (MIT), par exemple, veut
mesurer la « santé économique » des villes en examinant les données d’individus qui y travaillent et
celles d’organisations qui les emploient. Un autre groupe étudie la façon dont les hommes et les
femmes assurent leur auto-promotion via leur profil professionnel.

LinkedIn tire profit du Big Data
Les chercheurs peuvent donc analyser de nouveaux jeux de données et apporter plus de visibilité à
leurs travaux. Pour Linkedin, c’est l’occasion de bénéficier des lumières de datascientists à
moindre frais. Le réseau social américain va en effet verser une enveloppe de 25 000 dollars à
chaque équipe (soit 275 000 dollars au total). Une somme bien inférieure aux rémunérations de
spécialistes de la donnée et au retour sur investissement attendu. Les solutions issues des travaux
de recherche pourraient, selon LinkedIn, impacter positivement « des millions de personnes ».

Les travaux engagés au printemps doivent se conclure en fin d’année 2015 et les résultats être
présentés dans la foulée à des collaborateurs de LinkedIn triés sur le volet. Le réseau social
américain assure, par ailleurs, que les résultats de recherche seront rendus publics début 2016,
mais LinkedIn, qui a un droit de propriété intellectuelle sur ces travaux, gardera la main sur les
informations publiées à cette occasion. La plateforme disposera ainsi d’une marge de manoeuvre
pour créer des produits et services issus de ces recherches et s’adapter aux attentes du marché.

D’autres acteurs actifs dans la gestion de carrière tirent profit d’investissements réalisés dans le Big
Data, dont Workday. L’éditeur a récemment complété ses applications RH de fonctionnalités de
recommandation. Les employeurs ont ainsi la possibilité de déterminer quels talents seraient prêts
à les quitter dans les prochains mois et quelles actions mettre en oeuvre pour les retenir.

Lire aussi :
LinkedIn lorgne sur la collaboration intra-entreprise
LinkedIn géolocalise les compétences IT

Un outil pour débusquer les espions sur
Linkedin
Et si vous surveilliez les surveillants ? C’est le credo défendu par trois passionnés d’informatiques.
Brennan Novack (co-fondateur du service de mail chiffré Mailpile), Kevin Gallagher et M.C.Mc Grath
ont créé ensemble un outil, baptisé Transparency Toolkit qui a pour vocation de recenser à travers
les réseaux sociaux, les personnes travaillant directement et étroitement avec les agences de
renseignements, via notamment leurs compétences. Ce service, dont le code est disponible sur Git
Hub, utilise l’analyse de données publiques que les personnes mettent sur les médias sociaux. Une
première vague d’études vient de se conclure par le recensement de plus de 27 000 personnes
grâce à leur profil public sur Linkedin.

Dans une intervention à la conférence Re:Publica 15, M.C.Mc Grath a démontré que les agents
laissent beaucoup de traces visibles et publiques sur les médias sociaux. Dans leur outil d’analyse,
les chercheurs ont travaillé sur des mots clés, notamment sur les noms des programmes de
surveillance dévoilés dans les documents transmis par Edward Snowden. Dans sa communication,
le jeune universitaire du MIT donne l’exemple d’une femme de la Navy qui marque ses
compétences en analytique dans son CV sur Linkedin en inscrivant les noms XKeyScore, Pinwale,
Marina, etc. Il cite d’autres exemples de CV qui contiennent les fameux programmes de la NSA.

Avoir une autre vue des programmes de surveillance
Au final, cet outil a permis la création d’un moteur de recherche ICwatch qui permet de trouver des
gens à partir d’un nom, d’un lieu ou d’une société qui ont un lien avec des programmes de
surveillance. Mais la finalité n’est pas seulement d’être un annuaire « d’espions » assure M.C.Mc
Grath, cette recherche peut corréler les métadonnées pour mettre en perspective le travail des
agences de surveillance. Par exemple, il est possible de connaître le nombre de personnes
travaillant sur un programme, de savoir quand il a commencé, le pic d’activité, sa fin ou
d’éventuelles reprises après une mise en berne. Par recoupement, il est possible aussi de détecter
les prémisses de nouveaux projets.

Interrogé sur le caractère moral de cette recherche avec des noms, des photos, des adresses
personnelles, M.C.Mc Grath se retranche derrière le fait que ces informations sont publiques et ne
sont donc pas classées. Les travaux des chercheurs ont pour objectif de mieux faire comprendre
aux citoyens les enjeux des programmes de surveillance massive et des orientations des agences
de renseignements. Ils auront aussi le mérite de montrer les limites de l’exposition des « agents »
sur les réseaux sociaux.

A lire aussi :

Les acteurs de l’IT mobilisés contre la surveillance massive de la NSA
Les CNIL européennes encadrent la surveillance « Made in NSA »

crédit photo © kurhan- shutterstock

Accord autour du marketing entre IBM et
Facebook
Facebook et IBM Commerce se rapprochent dans le but de fournir aux entreprises des solutions
marketing leur permettant de mener des campagnes mieux ciblées, avec comme objectif de
toucher « la bonne personne, avec le bon message, au bon moment ». Une problématique
classique du monde la publicité.

Nous retrouverons d’un côté la solution Custom Audiences de Facebook, qui permet de cibler des
clients, dont les données seront affinées par l’offre Journey Analytics d’IBM, qui va se charger de
faire un tri encore plus précis parmi les 1,44 milliard d’utilisateurs du réseau social.

IBM Journey Designer sera ensuite employé afin de délivrer des messages sur mesure sur le site
Facebook. Les réactions des clients seront remontées au sein de Journey Analytics pour analyse.
Un workflow complet est donc proposé ici aux enseignes souhaitant cibler les utilisateurs du
réseau social Facebook, avec à la clé des campagnes qui se veulent plus efficaces.

Facebook rejoint le Commerce ThinkLab
Dans le même temps, Facebook rejoint l’IBM Commerce ThinkLab, unité de recherche et de
collaboration qui permettra aux entreprises de travailler avec les marques, avec pour objectif la
mise au point de solutions permettant de mieux personnaliser l’expérience client.

Facebook est la première société à rejoindre cette nouvelle entité. Un candidat et partenaire de
choix pour Big Blue dans le secteur du marketing digital.

À lire aussi :
Résultats : Facebook dépense toujours plus en R&D
Résultats IBM : bénéfices en hausse, chiffre d’affaires en baisse
Le spécialiste du marketing mobile ZipDial rejoint Twitter

Crédit photo : © Jirsak – Shutterstock

Avec les Xeon E7 v3, Intel met le cap sur
l’analytique temps réel
En septembre dernier, Intel avait levé le voile sur les puces Xeon E5 2600 v3 qui accueillaient la
microarchitecture Haswell. A la mi 2015, c’est au tour du haut de gamme des puces pour serveurs
de profiter du passage à cette microarchitecture. Le fondeur a annoncé le lancement des Xeon E7
v3. Il s’agit de processeurs comprenant 5,7 milliards de transistors, un die de 3,1 cm sur 2. Gravée
en 22 nanomètres, la puce accueille 18 cœurs (144 cœurs sur 8 sockets) soit une progression de
20% par rapport à la génération précédente.

Stanislas Odinot, responsable avant-vente datacenter en France et pivot de la collaboration avec les
OEM explique que « ces processeurs sont historiquement dédiés pour les bases de données principalement
Oracle et DB2 pour du datawarehouse. Aujourd’hui compte tenu de la performance et des fonctionnalités, le
transactionnel reste toujours le cœur de cible avec de nouveaux usages comme le in-memory promu par
HANA de SAP ». Car la cible de ces dernières puces d’Intel est d’entrer dans le monde de l’analytique
en temps réel et pour cela, la firme de Santa Clara a mis les bouchées doubles, notamment sur la
mémoire.

Une gestion optimisée de la mémoire
En matière de performance, beaucoup de travail a été réalisé sur la mémoire. Comme sur les E5 v3,
les Xeon E7 v3 supportent la DDR3, mais aussi la DDR4 qui affichent une bande passante deux fois
plus véloce que celles en DDR3 (1 066 MT/s (megatransfert par seconde) et 8,5 Go/s pour la DDR3
contre 2 133 MT/s et 17 Go/s pour la DDR4). Stanislas Odinot souligne que « d’ici la fin de l’année, la

parité du prix entre la DDR4 et la DDR3 devrait être acquise ». Cette mémoire DDR4 comporte plusieurs
avantages dont la hausse de la fréquence et une amélioration de l’efficacité énergétique. Et les
processeurs peuvent gérer jusqu’à 1,5 To de mémoire à travers 24 bancs, précise le responsable.

La performance est une chose, mais les Xeon E7 v3 affichent certaines fonctionnalités pour
accompagner ce voyage vers l’analytique en temps réel. On peut citer le cas du TSX (Transactional
Synchronization Extension) qui apporte de la puissance supplémentaire et ouvre aux éditeurs la
possibilité d’exécuter des threads de manière opportuniste plus rapidement. « Les gains peuvent
atteindre 40 à 42% », souligne Stanislas Odinot. Les bugs sur cette fonctionnalité sont corrigés
assure-t-on du côté d’Intel. Elle reste néanmoins désactivée par défaut sur les différentes
configurations. Le cache monitoring est une autre fonction intéressante qui se niche dans la
mémoire de niveau 3 et permet aux applications de voir s’il y a un engorgement de mémoire. Une
vision pratique dans le cadre de la virtualisation pour constater si, dans un groupe de VM, une des
machines est plus gourmande et donc nécessite un déplacement.

Rafraîchissement de gammes chez les constructeurs
La gamme des Xeon E7 v3 a été simplifiée pour comprendre 3 catégories : Basic, Standard et
Advanced. Il faut compter également une famille de processeurs supplémentaires réalisés sur
mesure pour des constructeurs sur certaines applications. Pour le lancement, pas moins de 38
fabricants ( dont Bull, Cisco, Dell, Fujitsu, Hitachi, Hewlett-Packard, Huawei, Inspur, Lenovo, NEC,
Oracle, PowerLeader, Quanta, SGI, Sugon, Supermicro, et ZTE) ont prévu d’intégrer les derniers
processeurs Intel dans leurs configurations.

Ainsi, HP vient de rafraîchir sa gamme Apollo 2000 et 4000, mais également les systèmes critiques
Superdome X et la génération 9 des serveurs ProLiant DL580, DL560 et BL660c. De son côté,
Lenovo toilette son offre Flex System par deux serveurs orientés vers le Big Data et notamment
pour l’offre SAP HANA. Les tarifs de ces processeurs s’échelonneront de 1200 à plus de 7100
dollars.

A lire aussi :

Microserveurs : Intel livre les Xeon D, des SoC Broadwell en 14 nm
Ribambelle d’annonces chez les fabricants de serveurs autour du Xeon E5 v3

Stockage : HDS mise sur l’agilité et la
verticalisation
Hitachi Data Systems a réuni partenaires et clients à Las Vegas à la fin du mois dernier pour
dévoiler ses ambitions et ses propositions. Michel Alliel, directeur marketing chez HDS France, est

revenu sur les tendances de cette grand-messe. « Les annonces se sont focalisées sur deux thèmes : le
software defined infrastructure et la social innovation », souligne le responsable.

Derrière le premier thème se cache la montée en puissance de la programmation du hardware et
de la virtualisation du stockage. « Il faut donner à l’infrastructure plus d’agilité, plus de performance »,
précise Michel Alliel. Et cela passe par une unification des gammes comme par exemple les VSP
(Virtual Storage Platform) qui voient l’arrivée des modèles G200, G400, G600 et prochainement le
G800. « Il s’agit des déclinaisons de l’offre high end existante G1000 en gardant les mêmes microcodes. La
plus petite déclinaison comme le G200 dispose de fonctionnalités comme la virtualistation, la réplication, du
provisionning et du tiering dynamique, ainsi que du stockage multisite en mode actif/actif . Il y a la même
connectivité sur le back et front end. » Sur les caractéristiques techniques (cf schéma ci-dessous), les
baies VSP accueillent aussi bien des disques classiques, des SSD, ou un mix des deux.

L’hyperconvergence, terme en vogue, n’est pas oubliée avec l’arrivée de deux évolutions de l’UCP
(Unified Compute Platform) en version 1000 et 2000. Il s’agit de la déclinaison des solutions
hyperconvergées poussées par VMware à travers son programme Evo : Rail qui peut aller de 4
nœuds jusqu’à 16 nœuds. HDS ajoute des couches logicielles maisons pour l’automatisation des
workflows, la sauvegarde, le déploiement, etc.

Une orientation métier assumée
L’autre axe de développement est ce que HDS nomme la social innovation, ce qui peut se traduire
par un renforcement de la segmentation métier de HDS. « Nous avons pour ambitions de combiner
différentes technologies pour adresser des métiers différents. C’est notamment le cas avec l’analytique et nos
différentes acquisitions dans ce domaine, Avrio, OxYa, Pantascene et de Pentaho », affirme Michel Alliel.
D’où l’idée d’enrichir le portefeuille de solutions autour de l’analytique. Ainsi pour les responsables
informatiques, Hitachi lance Insight for IT Operations, une solution de big data pour le datacenter,
nous confie son porte-parole. Elle analyse les interactions entre les machines (M2M) et offre aux
utilisateurs la capacité d’optimiser les performances et la disponibilité de leur IT.

Autre service annoncé, Clinical Repositery for Connected Health qui s’adresse au monde de la santé
avec des outils d’analyses sur les données médicales, le partage et la découverte de dossier patient,
etc. Enfin, le constructeur annonce le lancement de Live Insight Center of Excellence, qui s’adresse à
de multiples secteurs énergies, finances, etc. Il s’agit d’une plateforme mettant à disposition
différentes solutions de HDS pour mener à bien des projets et de bénéficier des bonnes pratiques.

A lire aussi :

HDS met la main sur le Français Oxya, spécialiste de l’infogérance SAP
Michel Alliel, HDS: « les objets connectés nécessitent un stockage en mode Scale Out»

Vous pouvez aussi lire