Aujourd’hui je vous présente Apache Kudu
Définition rapide
C’est un système de stockage de données en colonnes de l’écosystème Hadoop.
Pour l’analytique
Le stockage en colonne lui permet de répondre de manière optimale à des besoins pour faire des agrégations, des filtres sur un volume de données important.
Schémas flexibles
Un concept intéressant, que l’on peut aussi retrouver sur des systèmes récents comme les Data Lake Houses (mais pas que), c’est la possibilité d’avoir des schémas de données dynamiques.
C’est-à-dire de pouvoir faire évoluer son schéma de données sans avoir de mise à jour ou de migration complexe.
Temps réel
Apache Kudu permet des opérations de lecture et d’écriture en temps réel.
Cela permet aux utilisateurs d’avoir toujours de la donnée récente afin de prendre des décisions le plus rapidement possible.
Hadoop
Faisant partie de l’écosystème Hadoop, Apache Kudu s’intègre avec d’autres outils comme Apache Hive et Apache Spark.
En effet, Kudu peut être utilisé comme source de données pour les requêtes de ces outils.
Scalabilité
Je me pose la question s’il est encore nécessaire de dire qu’un outil peut s’adapter aux volumes de données croissant tant cette possibilité est un standard.
Si un outil n’est pas scalable, il y a peu de chance qu’il soit utilisé en production dans des grandes entreprises, non ?
Merci de votre lecture !