Aujourd’hui, je vous présente l’outil Apache Flume.
Définition
Apache Flume permet de collecter, d’agréger et de déplacer de grandes quantité de logs en temps réel vers d’autres systèmes de stockage.
Flume possède 3 composants principaux.
Source
Ce composant est dédié à l’étape de collecte des données.
Ces données peuvent provenir de différents systèmes sources externes.
Channel
C’est une sorte de mémoire tampon où la donnée collecte y est stockée de manière temporaire en attendant sa consommation.
Néanmoins, même si son stockage est temporaire il est persistant jusqu’à sa consommation.
Cela le rend plus fiable en cas de défaillance du système.
Sink
C’est le composant qui se charge de consommer les données dans le Channel afin de les acheminer vers le système cible.
Par exemple, une des destination peut être Elasticsearch.
Intégrations
Apache Flume peut s’intégrer à l’écosystème Hadoop comme HDFS, Hive ou HBase.
De plus, le Channel peut stocker ses données dans un cluster Kafka.
Merci de votre lecture !