Aujourd’hui, je vous présente l’outil Apache Hadoop.
Définition
Apache Hadoop est un framework open source conçu pour faciliter le stockage et le traitement de volumes de données dépassant les capacités logiciels traditionnels.
Apache Hadoop est découpé en 4 modules principaux que je vous définie ensuite.
Hadoop Common
Il contient tous les utilitaires pour démarrer et Hadoop et faire fonctionner les autres modules.
Hadoop Distributed File System (HDFS)
C’est le système de fichiers d’Hadoop pour stocker de grandes quantités de données sur plusieurs machines en assurant une haute disponibilité et tolérance aux pannes.
Les données sont découpées et reparties en blocs qui sont répliqués sur plusieurs machines, que l’on appelle nœuds, du cluster.
Hadoop Yarn (Yet Another Resource Negotiator
C’est le gestionnaire de ressource CPU et RAM de Hadoop. Il gère et suit également les tâches en cours.
Hadoop MapReduce
Ce module permet de gérer de grandes quantités de données en parallèle sur un cluster de machines.
Dans ce processus il y a 2 étapes.
Map
Cette étape lit et traite les données et les convertit en paires clé-valeur.
Reduce
Quant à elle, cette étape s’occupe de l’agrégation des paires de clé-valeur de l’étape “Map” pour produire le résultat final.
Avec ces principes, Hadoop permet donc la mise à l’échelle en ajoutant “simplement” de nouveaux nœuds au cluster.
Hadoop permet aussi l’utilisation de machines peu coûteuses pour faire fonctionner ses différents modules.
Merci de votre lecture !