D’abord « Open » avant d’être « Big », la data est devenue en cinq ans la pépite des chercheurs d’or 2.0. Faute de technologie adaptée, chacun devait au départ, travailler dans son coin du fait de l’impossibilité de centraliser les données. Mais désormais, ces silos sont devenus des obstacles au business des entreprises et nécessitent d’être réinventés.
Ne cassons pas les silos, unifions-les !
Cinq ans après l’émergence du Big Data, force est de constater qu’un des premiers bénéfices de ces nouvelles plateformes est d’être parvenu à réconcilier des univers différents équipés de leurs propres outils informatiques. Et ils sont nombreux. Un des plus marquant est le rapprochement stratégique entre le marketing et l’IT. Mais cela ne suffit pas. Encore faut-il que les systèmes d’informations ne soient pas isolés les uns des autres. Ce qui a généré des applicatifs qui se sont construits, au fil du temps, chacun de leur côté. Et, dans le cas de la grande distribution, par exemple, les enseignes distribuant à la fois en ligne et en magasin ont vu une frontière entre offline et online s’installer et difficile à déraciner.
Dans un contexte où les digital officers ne jurent plus que par des stratégies data centric la situation est tout simplement inacceptable. L’explication est pourtant simple : au moment où le e-commerce est monté en puissance, les systèmes online ont développé leur propre système d’information et ont fonctionné indépendamment des magasins. S’en est ressenti immédiatement une impossibilité de faire travailler les données ensemble. Résultat, pour sortir de ce silotage, il paraissait inévitable de devoir tout casser pour tout reconstruire en un seul et même bloc. Un projet long, extrêmement couteux mais surtout fermé à toutes évolutions. Une plateforme unique sous forme de grand réservoir. L’alternative tant attendue est récente et porte un nom : le datalake. Cette technologie parvient à unifier les silos en accueillant dans une unique plateforme l’ensemble des données de l’entreprise. Tout cela dans un environnement évolutif et accessible à un coût raisonnable.
Fini la peur de dupliquer les données, contrairement au datawarehouse, le datalake récupère la donnée brute provenant du système d’information de l’entreprise ou de sources externes. La collecte d’informations est systématisée y compris pour celles non utilisées parce que leur stockage demande très peu d’efforts. Pour schématiser, voyons cette technologie comme un immense réservoir dans lequel nous avons une gouvernance, un catalogue des données, des habilitations, des règles de conformité (ex. rétention des données). Toutes les données du datalake sont alors exposées dans des Lakeshores à des fins de mesure et d’analyse mais aussi (voire surtout) d’activation de dispositifs opérationnels « data driven » (Marketing, CRM, Vente, Logistique, etc.) c’est-à-dire conduits et optimisés grâce aux données.
Dans un contexte où les digital officers ne jurent plus que par des stratégies data centric la situation est tout simplement inacceptable. L’explication est pourtant simple : au moment où le e-commerce est monté en puissance, les systèmes online ont développé leur propre système d’information et ont fonctionné indépendamment des magasins. S’en est ressenti immédiatement une impossibilité de faire travailler les données ensemble. Résultat, pour sortir de ce silotage, il paraissait inévitable de devoir tout casser pour tout reconstruire en un seul et même bloc. Un projet long, extrêmement couteux mais surtout fermé à toutes évolutions. Une plateforme unique sous forme de grand réservoir. L’alternative tant attendue est récente et porte un nom : le datalake. Cette technologie parvient à unifier les silos en accueillant dans une unique plateforme l’ensemble des données de l’entreprise. Tout cela dans un environnement évolutif et accessible à un coût raisonnable.
Fini la peur de dupliquer les données, contrairement au datawarehouse, le datalake récupère la donnée brute provenant du système d’information de l’entreprise ou de sources externes. La collecte d’informations est systématisée y compris pour celles non utilisées parce que leur stockage demande très peu d’efforts. Pour schématiser, voyons cette technologie comme un immense réservoir dans lequel nous avons une gouvernance, un catalogue des données, des habilitations, des règles de conformité (ex. rétention des données). Toutes les données du datalake sont alors exposées dans des Lakeshores à des fins de mesure et d’analyse mais aussi (voire surtout) d’activation de dispositifs opérationnels « data driven » (Marketing, CRM, Vente, Logistique, etc.) c’est-à-dire conduits et optimisés grâce aux données.
Une mise en œuvre conséquente par Auchan Retail . Dans un objectif de mutualisation des données, des savoir-faire et des moyens, le groupe de la famille Mulliez a créé BluData, une Business Unit transverse dotée d’un catalogue de services orientés data aux mains de data scientists orientés métiers. Un choix judicieux car, au lieu de multiplier les investissements dans chaque pays où l’entreprise est implantée, il est ici question de créer une plateforme unique permettant d’exposer les mêmes types de données pour chaque enseigne quelle que soit sa taille ou sa localisation. Un Data Lake a donc été mis en place avec comme solution BI QlikViewAncre Et demain ? Vers un Big Data doté d’une intelligence artificielle.
Dans nos missions nous avons eu un bref aperçu de ce que cela pourrait donner. Nous avons récemment développé pour une grande coopérative agricole, un algorithme qui permet d’évaluer le risque de contamination des parcelles de blé par le champignon septoriose. Si la coopérative possédait déjà un outil, le temps de traitement initial de plus de 8 jours a été réduit à… 2 minutes 30 secondes ! On imagine sans peine par extrapolation, des usages futurs que l’on aurait qualifiés de futuristes à une époque. Clairement nous nageons en pleine science-fiction sur une planète qui s’apparente de plus en plus à un disque dur géant, voire à un serveur de données. Imaginons une centrale médicale qui collecte les informations relayées depuis les montres électroniques elles-mêmes connectés à un composant implanté dans l’organisme : il serait alors possible d’anticiper une épidémie à l’échelle locale, nationale, voire mondiale. Nous avançons à grand pas vers une intelligence artificielle autonome. Et c’est là que réside le futur du Big Data.
A propos de l'auteur : Cédric Despres est CTO d'Ysance.
Dans nos missions nous avons eu un bref aperçu de ce que cela pourrait donner. Nous avons récemment développé pour une grande coopérative agricole, un algorithme qui permet d’évaluer le risque de contamination des parcelles de blé par le champignon septoriose. Si la coopérative possédait déjà un outil, le temps de traitement initial de plus de 8 jours a été réduit à… 2 minutes 30 secondes ! On imagine sans peine par extrapolation, des usages futurs que l’on aurait qualifiés de futuristes à une époque. Clairement nous nageons en pleine science-fiction sur une planète qui s’apparente de plus en plus à un disque dur géant, voire à un serveur de données. Imaginons une centrale médicale qui collecte les informations relayées depuis les montres électroniques elles-mêmes connectés à un composant implanté dans l’organisme : il serait alors possible d’anticiper une épidémie à l’échelle locale, nationale, voire mondiale. Nous avançons à grand pas vers une intelligence artificielle autonome. Et c’est là que réside le futur du Big Data.
A propos de l'auteur : Cédric Despres est CTO d'Ysance.