Techno - C’est quoi Apache Flume ?

Techno - C’est quoi Apache Flume ?

Date de sortie
August 1, 2024
Auteur
Bertrand Fabre

Aujourd’hui, je vous présente l’outil Apache Flume.

Définition

Apache Flume permet de collecter, d’agréger et de déplacer de grandes quantité de logs en temps réel vers d’autres systèmes de stockage.

Flume possède 3 composants principaux.

Source

Ce composant est dédié à l’étape de collecte des données.

Ces données peuvent provenir de différents systèmes sources externes.

Channel

C’est une sorte de mémoire tampon où la donnée collecte y est stockée de manière temporaire en attendant sa consommation.

Néanmoins, même si son stockage est temporaire il est persistant jusqu’à sa consommation.

Cela le rend plus fiable en cas de défaillance du système.

Sink

C’est le composant qui se charge de consommer les données dans le Channel afin de les acheminer vers le système cible.

Par exemple, une des destination peut être Elasticsearch.

Intégrations

Apache Flume peut s’intégrer à l’écosystème Hadoop comme HDFS, Hive ou HBase.

De plus, le Channel peut stocker ses données dans un cluster Kafka.

Il n’y a pas eu de nouvelle version depuis octobre 2022.

Merci de votre lecture !