Traitement en temps réel
- Posted by Jonas Agbakou
- Categories Business Intelligence, Le Big Data
- Date 13 janvier 2020
- Comments 0 comment
Pourquoi le traitement en temps réel
L’explosion des quantités de données a évolué en même temps que la montée des analyses « Big Data ». Dans les domaines tels que :
- Les systèmes de détection d’intrusions ou de fraudes ;
- Système de tracking;
- Les systèmes de recommandation ;
- Monétisation des Tweets sur Twitter ;
- Analyse des données de géolocalisation dans un centre commercial pour envoyer des offres promotionnelles;
où les volumes de données sont grandissants mais aussi très diversifiés et où la vélocité est importante, le traitement par lots, ne peut pas satisfaire les nouveaux besoins. Ces besoins sont essentiellement :
- Une analyse en temps réel des données (faible latence) ;
- Une meilleure tolérance aux pannes.
Définition du traitement en temps réel
Le traitement en temps réel se définit comme le traitement continue de données d’entrée, avec des critères de latence en millisecondes ou en secondes et une bonne tolérance aux pannes. Généralement, ces données entrantes arrivent dans un format non structuré ou semi-structuré avec des exigences de traitement en temps de latence très faible et une tolérance aux pannes importantes.
Les données sont souvent traitées efficacement avec des outils comme Spark Streaming et Apache Storm qui est plus adapté avec un temps de latence très faible.
Spark est fait à la base pour faire le traitement en lots avec un temps de latence plus faible que Hadoop MapReduce mais sa fonctionnalité Apache Streaming permet aussi de faire le traitement en temps réel. Cependant, Spark Streaming n’est pas efficace que Storm qui a été conçue à la base pour le traitement en temps réel.
Les données traitées sont écrites dans un magasin de données analytiques comme Hive, Hbase, Spark Sql et Sql Data Warehouse, qui sont bien adaptés pour l’analytique et la visualisation. Elles peuvent également être transférées directement dans la couche d’analytique et de création de rapports à des fins d’analyse, d’informatique décisionnelle et de visualisation de tableaux de bord en temps réel.
Défis
L’une des grandes difficultés des solutions de traitement en temps réel est d’ingérer, de traiter et de stocker les données en temps réel, en particulier pour les grands volumes de données avec grandes vélocité. Le traitement doit être effectué de manière à ne pas bloquer le pipeline d’ingestion. Le magasin de données doit prendre en charge de gros volumes d’écritures. Il existe une autre problématique : la capacité à effectuer des traitements rapidement à partir des données, par exemple, à générer des alertes en temps réel ou à présenter les données dans un tableau de bord en temps réel (ou en quasi-temps réel).
Architecture
Une architecture de traitement en temps réel comporte les composants logiques suivants.
Ingestion de messages en temps réel
L’architecture doit prévoir un moyen de capturer et de stocker les messages en temps réel, qui seront exploités par un consommateur de traitement des flux de données. Dans les cas de base, ce service peut être implémenté comme un magasin de données simple au sein duquel les nouveaux messages sont déposés dans un dossier. Mais la solution requiert souvent un répartiteur de messages, comme Azure Event Hubs, qui fonctionne comme un tampon pour les messages. Il doit prendre en charge le traitement avec montée en charge et la distribution fiable.
Traitement des flux de données
Après la capture des messages en temps réel, la solution doit les traiter en filtrant, agrégeant et préparant les données en vue de l’analyse.
Magasin de données analytiques
De nombreuses solutions Big Data sont conçues pour préparer les données à des fins d’analyse, puis fournir les données traitées dans un format structuré et interrogeable à l’aide d’outils d’analyse.
Analyse et rapports
La plupart des solutions Big Data ont pour but de fournir des informations sur les données via l’analyse et les rapports.
Partagez l'article à vos réseaux: on Twitter on Facebook on LinkedIn
Je suis Jonas, un spécialiste passionné du Business Intelligence.
Je fais parler la donnée pour susciter des actions générant de la valeur pour le Business.
Je t'accompagne dans ton voyage vers l'excellence en Business Intelligence, en te transformant d'aspirant ou de débutant en expert BI.
Next post