Aujourd’hui je vous présente Apache HBase
Définition rapide
Apache HBase est une base de données NoSQL distribuée (coucou Zookeeper) et orientée colonnes qui fonctionne au-dessus de Apache Hadoop.
Stockage en colonne
Ce type de stockage permet le traitement et l’analyse d’un grand volume de données.
C’est la structure récurrente des bases de données analytique que l’on appelle des bases OLAP.
Scalabilité horizontale
Cela permet d’ajouter de nouvelles machines (serveurs) à son cluster afin d’en augmenter les ressources (CPU, RAM, GPU) au lieu d’augmenter juste la puissance de la machine.
En augmenter juste la puissance de la machine, il peut y avoir une limite dans la progression des ressources qui sont mise à disposition alors qu’en ajouter d’autres serveurs, il peut y avoir théoriquement des ressources infinies.
Temps réel
Il est possible de lire et surtout d’écrire des données en temps réel sur HBase, afin d’avoir les données les plus fraîches possibles.
Schéma flexible
Dans HBase, le schéma de donnée n’est pas strictement défini, cela signifie qu’il est possible de faire évoluer le schéma (ajout/suppression) sans impacter la structure existante.
Temporalité
HBase permet de stocker plusieurs versions d’une même donnée ce qui facilite la récupération d’historique (time travel ?) et l’audit.
Merci de votre lecture !