Techno - C’est quoi Apache Impala ?

Techno - C’est quoi Apache Impala ?

Date de sortie
November 28, 2024
Auteur
Bertrand Fabre

Aujourd’hui je vous présente Apache Impala

Définition rapide

C’est un moteur de traitement de requêtes SQL dans un environnement distribué qui permet un usage à faible latence sur les données.

Apache Hadoop

Il s’intègre à l’écosystème Apache Hadoop et ses fichiers HDFS, mais aussi avec Apache Kudu et YARN pour la gestion des ressources.

Format de données

Apache Impala peut s’utiliser sur des données Apache Iceberg, Parquet, ORC, Avro, JSON, Apache Hudi, et d’autres.

Exécution en mémoire

Les requêtes sont directement exécutées en mémoire afin d’être plus rapide.

Lecture directe des données

Il n’y a pas besoin de déplacer les données dans un autre environnement pour exécuter les requêtes. Impala va directement lire les données sur des systèmes comme Hadoop, Apache HBase, Amazon S3.

Scalabilité horizontale

Un classique des technologie de Big Data. La flexibilité des ressources en ajoutant ou supprimant des machines (nœuds).

BI

Il est aussi possible de connecter différents outils de business intelligence à Apache Impala comme Tableau, Power BI et Qlik.

Exécution interactive

C’est le grand avantage d’Impala, comme avec Google BigQuery (pas que) on peut lancer des requêtes de manière interactive, sur des téraoctets de données et avoir des résultats en quelques secondes.

Merci de votre lecture !