Aujourd’hui, je vous présente l’outil Apache Sqoop (même s’il n’est plus maintenu)
Définition rapide
Apache Sqoop est un outil de transfert de données entre des bases relationnelles et le système de fichiers Hadoop.
Les bases relationnelles
Il est possible d’utiliser des bases de données relationnelles comme MySQL, PostgreSQL, Oracle, etc.
L’écosystème Hadoop
Les données sources sont envoyées vers des outils de l’écosystème Hadoop comme Hive (Data Warehouse pour Hadoop) ou HBase (base de données NoSQL sur Hadoop).
Aller-retour
Attention, il est aussi possible de faire l’inverse et d’envoyer des données de l’écosystème Hadoop vers des bases relationnelles.
Optimisation
Apache Sqoop découpe automatiquement et transfert les données en parallèle afin d’accélérer le processus.
Utilisation
L’interface d’Apache Sqoop est en ligne de commande.
Apache Attic
La présentation de ce projet était surtout à titre informatif car il n’est plus maintenu depuis plusieurs année et est passé en Apache Attic : projet non maintenu ou développé.
C’est donc un “grenier” pour les projet Apache arrivés à la fin de leur cycle de vie.
Merci de votre lecture !