Date de sortie
23/12/2025
Auteur
U
Untitled🎙️ DataWatch est un podcast de veille orienté Data Engineering.
📰 Axel Mauroy et Bertrand Fabre échangent autour d’articles publiés récemment en Data Engineering.
☝️ Dans cet épisode, les sujets abordés sont :
- Polars chez Decathlon :
- Pourquoi Spark peut être surdimensionné pour certains workloads Data
- Usage de Polars comme complément à Spark, exécuté sur Kubernetes
- Réduction drastique des temps de démarrage et des coûts de compute
- Critères concrets pour décider Polars vs Spark (taille des données, complexité, stabilité)
- Architecture Data de Décathlon :
- Lakehouse basé sur EMR, Databricks, S3 et formats Delta/Parquet
- Orchestration via Airflow (MWAA) et gestion des métadonnées avec Glue
- Enjeux d’industrialisation, d’ops et de gouvernance à grande échelle
- Lance - un nouveau format orienté IA :
- Comparaison avec Parquet et Avro
- Format pensé pour les usages vectoriels et multimodaux (ML/IA)
- Limites claires pour la Data Engineering classique (volumétrie, performances, compression)
- Monte Carlo et l’IA agentique (serveur MCP) :
- Passage d’un mode “pompier” à une observabilité data plus proactive
- Interaction en langage naturel avec le monitoring data
- Cas d’usage : analyse des incidents, priorisation, post-mortems automatiques
- Promesse d’une meilleure fiabilité et d’une prise de décision plus factuelle
- Message clé de l’épisode :
- La vraie question n’est pas “Spark ou pas Spark”, mais
👉 est-ce que le problème nécessite vraiment un moteur distribué ?
Sources
- Decathlon Switches to Polars to Optimize Data Pipelines and Infrastructure Costs
- Parquet Killer? Introduction to the Lance File Format.
- Stop Fighting Fires: 3 Easy Ways to Transform Data Engineering with AI Workflows
👉 Axel sur LinkedIn 👉 Bertrand sur LinkedIn
🔗 Le podcast DataWatch :