Que choisir entre les processus ETL et ELT ?
La différence entre l’ETL et l’ELT réside dans le fait que les données sont transformées en informations décisionnelles et dans la quantité de données conservée dans les entrepôts.
L’ETL (Extract/Transform/Load) est une approche d’intégration qui recueille des informations auprès de sources distantes, les transforme en formats et styles définis, puis les charge dans des bases de données, sources de données ou entrepôts.
L’ELT (Extract/Load/Tansform) extrait également des données à partir d’une ou plusieurs sources distantes, mais les charge ensuite dans l’entrepôt de données cible sans changement de format. Dans un processus ELT, la transformation des données s’effectue au sein de la base de données cible. L’ELT nécessite moins de sources distantes, uniquement leurs données brutes et non préparées.
Les deux approches sont viables, mais les décideurs informatiques, lorsqu’ils créent une architecture de données, doivent prendre en compte les capacités internes et l’impact croissant des technologies Cloud.
L’évolution de l’ELT
L’ELT existe depuis un certain temps, mais il a connu un regain d’intérêt avec des outils comme Apache Hadoop, un framework de distribution et de traitement des charges de travail volumineuses sur quelques nœuds seulement ou bien des milliers, pour un traitement parallèle. Les vastes tâches comme la transformation de pétaoctets de données brutes ont été scindées en tâches plus petites, traitées de manière distante, puis renvoyées pour chargement dans la base de données.
Mais les évolutions de la puissance de traitement, en particulier le clustering virtuel, ont permis une augmentation exponentielle de la puissance des ressources de serveur local, réduisant ainsi la nécessité de scinder les tâches. Les tâches Big Data qui étaient habituellement distribuées dans le Cloud, traitées et renvoyées peuvent désormais être traitées en un seul emplacement.
Comment et quand utiliser l’ELT
Contrairement à l’ETL, l’ELT (Extract/Load/Transform) est un processus qui consiste à rassembler les informations provenant d’un nombre illimité de sources, à les charger dans un emplacement en vue de leur traitement, puis à les transformer en données décisionnelles actionnables.
- Extraction – La première étape, l’extraction, fonctionne de la même manière dans les deux approches de gestion des données. Flux bruts de données d’une infrastructure virtuelle, logiciels et applications sont ingérées entièrement ou en fonction de règles prédéfinies.
- Chargement - C’est ici que la branche ELT se sépare de celle de son cousin ETL. Plutôt que de fournir une telle quantité de données brutes et de les charger sur un serveur de traitement temporaire avant transformation, l’ELT livre toutes les données au site dans lequel elles vont ensuite résider. Cela réduit le cycle entre extraction et livraison, mais nécessite un travail bien plus important avant que les données ne deviennent utiles.
- Transformation – La base de données ou l’entrepôt trient et normalisent les données, en en conservant une partie seulement ou la totalité de sorte qu’elles soient accessibles à des fins de reporting personnalisé. La charge de stockage pour une telle quantité de données est plus importante, mais elle offre davantage d’opportunités d’exploration personnalisée pour des données décisionnelles pertinentes en temps quasi réel.
L’approche ELT est-elle le bon choix ? Selon l’architecture réseau existante de l’entreprise, de son budget et de son niveau de maîtrise des technologies Cloud et Big Data, cela n’est pas toujours vrai. Mais si un ou plusieurs des trois aspects suivants sont stratégiques, la réponse est probablement oui.
- Lorsque la vitesse d’ingestion prime. Avec l’ELT, inutile d’attendre que les données soient traitées hors site puis rechargées, (chargement et transformation peuvent s’effectuer en parallèle) ; le processus d’ingestion est donc bien plus rapide, ce qui fournit des informations brutes nettement plus vite qu’avec l’ETL.
- Lorsque plus de données décisionnelles sont de meilleures données. La transformation des données en données décisionnelles présente l’avantage de pouvoir révéler et convertir des schémas cachés en informations actionnables. En conservant toutes les données historiques, les entreprises peuvent explorer délais, schémas de vente, tendances saisonnières ou tout autre indicateur émergent qui devient important pour l’entreprise. Étant donné que les données n’ont pas été transformées avant d’être chargées, vous avez accès à toutes les données brutes. Généralement, les data lakes Cloud possèdent un magasin de données brutes, puis un magasin de données affinées (ou transformées). Les data scientists, par exemple, préfèrent accéder aux données brutes, tandis que les utilisateurs métier apprécient les données normalisées à des fins décisionnelles.
- Lorsqu’une évolution est nécessaire. Lorsque vous utilisez des moteurs de traitement ultra performants comme Hadoop, ou des entrepôts de données Cloud, l’ELT peut s’appuyer sur la puissance de traitement native pour une plus grande évolutivité.
ETL et ELT sont des méthodologies classiquement utilisées pour la production de données décisionnelles à partir de données brutes. Mais, comme pour tout ce qui concerne la technologie, le Cloud vient modifier la manière dont les entreprises gèrent les problématiques ELT.
Avantages de l’ELT dans le Cloud
Le Cloud apporte avec lui un ensemble de fonctionnalités qui, selon de nombreux professionnels du secteur, rendront obsolète le centre de données sur site. Le Cloud surmonte les obstacles naturels à l’ELT en fournissant :
- Évolutivité - Les fonctions de l’ELT dans des centres de données sur site pourraient rapidement remplacer le traitement local et la puissance de stockage, qui nécessitent des mises à niveau matérielles onéreuses et des temps d’inactivité planifiés pendant le déploiement des correctifs. L’évolutivité d’une infrastructure Cloud virtuelle et de service hébergés, par exemple iPaaS (Integration Platform-as-a-Service) et SaaS (Software-as-a-Service) permet aux entreprises d’étendre les ressources à la volée. Elles ajoutent le temps de calcul et l’espace de stockage nécessaire pour des tâches de transformation de données même lourdes.
- Intégration (presque) transparente - Étant donné que l’ELT basé sur le cloud interagit directement avec d’autres services et équipements sur une plateforme Cloud, les tâches habituellement complexes telles que le mappage de données en continu sont considérablement simplifiées. Ce qui constituait autrefois un défi monumental peut aujourd’hui être proposé grâce à des interfaces graphiques simples et interactives qui fournissent toutes les informations stratégiques d’un seul coup d’œil.
- Open source - Les meilleures solutions ELT utilisent la puissance des plateformes Cloud open source vivantes, qui fonctionnent de manière collaborative pour mettre en place améliorations, sécurité et conformité dans l’entreprise. L’ELT open source permet à des communautés professionnelles internationales de remédier à des difficultés relatives aux données lorsqu’elles apparaissent sur votre réseau, voire avant qu’elles n’apparaissent.
- Coût de possession réduit - Lorsque l’ETL était la norme, toute extension de capacité signifiait accroissement des coûts. L’augmentation des ressources de traitement et de stockage n’était qu’une dépense sans retour, qui a nécessité de gros investissements matériels. Cette approche était limitée dans le sens où les entreprises devaient payer au départ pour une puissance maximale théorique requise, mais n’utilisaient en réalité qu’une fraction de cette possibilité.
Comme la plupart des services Cloud, l’ELT basé sur le Cloud suit une tarification à l’utilisation. Cela signifie que les coûts de calcul et de stockage augmentent lors du traitement de jobs ETL volumineux, mais tendent vers zéro lorsque l’environnement fonctionne sous pression minimale. En moyenne par an, cela engendre un coût total de possession bien plus faible, en particulier s’il n’existe aucun investissement initial.
De cette façons et de bien d’autres encore, le Cloud redéfinit quand et comment les entreprises localisent les productions décisionnelles.
Résoudre les problématiques ELT fréquentes
Pour une bonne exécution des tâches, chaque entreprise s’entoure des outils et de l’expertise adéquats. Quelle que soit la tâche, les erreurs qui surviennent précocement dans le processus de production sont amplifiées à mesure que le projet prend de l’ampleur et plusieurs pièges courants risquent de nuire aux architectures ELT.
- Lacunes de sécurité - En termes de sécurité, il est risqué de déplacer des pétaoctets de données et de les rendre accessibles à toutes les applications et à tous les utilisateurs. Pour une approche de création fiable, la sécurité doit être intégrée à tous les niveaux de l’entreprise, afin de garantir qu’un jeu de données corrompu ou endommagé ne puisse pas infecter les entrepôts de données.
- Conformité insuffisante - La mise en place de cadres de conformité tels que HIPAA, PCI et RGPD fait peser sur les entreprises l’obligation de réaliser des audits et de prouver leur respect des normes. Toute approche ELT doit être conçue en gardant à l’esprit les questions de conformité afin d’éviter tout problème avec les règlementations nationales et internationales.
- Gonflement des ressources - Si les entrepôts de données présentent des avantages pour explorer les données décisionnelles, ils ont aussi un défaut évident : toutes ces données doivent faire l’objet d’une maintenance. Grâce aux fournisseurs Cloud et à la tarification à l’utilisation, la maîtrise des Big Data est plus abordable que jamais, mais même une tarification différenciée du stockage peut devenir onéreuse sans un plan de gestion qui permet d’éviter la multiplication sans fin des jeux d’informations de travail.
- Absence de gouvernance des données - La sécurité des données traversant un processus ELT est essentielle et il en va de même des « 5 W » (Who, What , Where, When, Why) en gouvernance des données : Qui contrôle la gestion des master data dans l’entreprise ? Quelles sont les données rassemblées/conservées ? Quand les présentations et les audits sont-ils exécutés ? Où les données sont-elles stockées ? Pourquoi les efforts ELT ont-ils un impact positif sur les performances de l’entreprise ?
Anticiper les réponses aux questions clés permet de faire naître des pratiques ELT responsables et préparent les entreprises à des récoltes abondantes d’informations ayant un impact quotidien sur les résultats.
Récapitulatif ELT/ETL
Pendant plus de quinze ans, Talend a fourni à ses partenaires mondiaux les outils dont ils avaient besoin pour transformer leur entreprise. Exécutez des jobs ELT même les plus lourds avec Open Studio for Big Data, la plateforme gratuite d’envergure mondiale ayant gagné la confiance de certaines des plus grandes entreprises au monde.
Mettez-vous en route avec l’ELT ou l’ETL grâce aux outils Talend pour les Big Data. Découvrez ce que Talend peut faire pour les entreprises et téléchargez la Big Data Sandbox pour configurer un environnement de développement et de test dès aujourd’hui.