Techno - C’est quoi Apache Hadoop ?

Techno - C’est quoi Apache Hadoop ?

Date de sortie
July 25, 2024
Auteur
Bertrand Fabre

Aujourd’hui, je vous présente l’outil Apache Hadoop.

Définition

Apache Hadoop est un framework open source conçu pour faciliter le stockage et le traitement de volumes de données dépassant les capacités logiciels traditionnels.

Apache Hadoop est découpé en 4 modules principaux que je vous définie ensuite.

Hadoop Common

Il contient tous les utilitaires pour démarrer et Hadoop et faire fonctionner les autres modules.

Hadoop Distributed File System (HDFS)

C’est le système de fichiers d’Hadoop pour stocker de grandes quantités de données sur plusieurs machines en assurant une haute disponibilité et tolérance aux pannes.

Les données sont découpées et reparties en blocs qui sont répliqués sur plusieurs machines, que l’on appelle nœuds, du cluster.

Hadoop Yarn (Yet Another Resource Negotiator

C’est le gestionnaire de ressource CPU et RAM de Hadoop. Il gère et suit également les tâches en cours.

Hadoop MapReduce

Ce module permet de gérer de grandes quantités de données en parallèle sur un cluster de machines.

Dans ce processus il y a 2 étapes.

Map

Cette étape lit et traite les données et les convertit en paires clé-valeur.

Reduce

Quant à elle, cette étape s’occupe de l’agrégation des paires de clé-valeur de l’étape “Map” pour produire le résultat final.

Avec ces principes, Hadoop permet donc la mise à l’échelle en ajoutant “simplement” de nouveaux nœuds au cluster.

Hadoop permet aussi l’utilisation de machines peu coûteuses pour faire fonctionner ses différents modules.

Merci de votre lecture !