Techno - C’est quoi Apache DataFusion ?

Techno - C’est quoi Apache DataFusion ?

Date de sortie
September 12, 2024
Auteur
Bertrand Fabre

Aujourd’hui, je vous présente l’outil Apache DataFusion.

Définition rapide

Apache DataFusion est un moteur de requêtes SQL qui gère les traitements distribués sur des données en mémoire.

DataFrame

Apache DataFusion propose une API pour l’utilisation de DataFrames qui sont similaire à ce que l’on peut retrouver sur Pandas ou Apache Spark.

Lazzy evaluation

C’est une stratégie de gestion des traitements de données qui ne fait les traitements que lorsque cela est vraiment nécessaire. Cela permet une optimisation des ressources et donc des performances.

Rust

DataFusion est écrit en Rust et suit donc les arguments habituels de ce langage : performances proches du C/C++ et une sécurité optimale.

Apache Arrow

Apache Arrow est utilisé dans Apache DataFusion afin d’utiliser un format de données en mémoire pour des performances adaptées à des besoins analytiques.

Compatibilité

L’utilisation de DataFusion est possible avec AWS S3, Azure Blob Storage et Google Cloud Storage. D’autres possibilités sont également proposées.

Les format de fichiers

Il est possible d’utiliser Apache DataFusion pour travailler avec des fichiers CSV, Parquet, JSON et Avro.

Merci de votre lecture !