Aujourd’hui je vous présente Apache Impala
Définition rapide
C’est un moteur de traitement de requêtes SQL dans un environnement distribué qui permet un usage à faible latence sur les données.
Apache Hadoop
Il s’intègre à l’écosystème Apache Hadoop et ses fichiers HDFS, mais aussi avec Apache Kudu et YARN pour la gestion des ressources.
Format de données
Apache Impala peut s’utiliser sur des données Apache Iceberg, Parquet, ORC, Avro, JSON, Apache Hudi, et d’autres.
Exécution en mémoire
Les requêtes sont directement exécutées en mémoire afin d’être plus rapide.
Lecture directe des données
Il n’y a pas besoin de déplacer les données dans un autre environnement pour exécuter les requêtes. Impala va directement lire les données sur des systèmes comme Hadoop, Apache HBase, Amazon S3.
Scalabilité horizontale
Un classique des technologie de Big Data. La flexibilité des ressources en ajoutant ou supprimant des machines (nœuds).
BI
Il est aussi possible de connecter différents outils de business intelligence à Apache Impala comme Tableau, Power BI et Qlik.
Exécution interactive
C’est le grand avantage d’Impala, comme avec Google BigQuery (pas que) on peut lancer des requêtes de manière interactive, sur des téraoctets de données et avoir des résultats en quelques secondes.
Merci de votre lecture !