Techno - C’est quoi Apache Hop ?

Techno - C’est quoi Apache Hop ?

Date de sortie
August 8, 2024
Auteur
Bertrand Fabre

Aujourd’hui, je vous présente l’outil Apache Hop.

Définition

Apache Hop (Hop Orchestration Platform), est une plateforme open source d’orchestration et de gestion de pipelines de données.

L’application

Apache Hop est disponible en client lourd, qui s’installe sur son ordinateur, ou alors via une application web.

Il est possible de l’exécuter au sein d’une image Docker.

No-code

Fork de Pentaho, Apache Hop a gardé le principe de pouvoir écrire des workflows sans code via l’interface utilisateur qui s’appelle Hop GUI.

Les plugins

Il est possible d’ajouter des plugins afin de bénéficier de fonctionnalités supplémentaires comme l’utilisation de services sur Azure, de services Google Cloud Platform, de Cassandra, et d’autres.

Metadata

Dans la documentation d’Apache Hop il est indiqué que les métadonnées sont les objets les plus importants.

En effet, ils sont générés pour tout et tout le temps et sont centralisés pour en simplifier leur gestion dans Hop.

Les concepts

  • Projects : regroupe l’ensemble des pipelines, workflows et configurations ;
  • Environments : paramètres spécifiques à chaque environnement (dev, test, prod) ;
  • Pipelines : séquences de transformations de données (ETL) avec Apache Spark, Apache Flink, Apache Beam ;
  • Workflows : orchestration et exécution des pipelines avec dépendances et conditions.

Merci de votre lecture !