Aujourd’hui, je vous présente l’outil Apache DataFusion.
Définition rapide
Apache DataFusion est un moteur de requêtes SQL qui gère les traitements distribués sur des données en mémoire.
DataFrame
Apache DataFusion propose une API pour l’utilisation de DataFrames qui sont similaire à ce que l’on peut retrouver sur Pandas ou Apache Spark.
Lazzy evaluation
C’est une stratégie de gestion des traitements de données qui ne fait les traitements que lorsque cela est vraiment nécessaire. Cela permet une optimisation des ressources et donc des performances.
Rust
DataFusion est écrit en Rust et suit donc les arguments habituels de ce langage : performances proches du C/C++ et une sécurité optimale.
Apache Arrow
Apache Arrow est utilisé dans Apache DataFusion afin d’utiliser un format de données en mémoire pour des performances adaptées à des besoins analytiques.
Compatibilité
L’utilisation de DataFusion est possible avec AWS S3, Azure Blob Storage et Google Cloud Storage. D’autres possibilités sont également proposées.
Les format de fichiers
Il est possible d’utiliser Apache DataFusion pour travailler avec des fichiers CSV, Parquet, JSON et Avro.
Merci de votre lecture !