L’IA va remplacer les Data Engineers ?!
On en parle avec Axel dans ce dernier épisode.
On a parlé pas mal d’IA dans les outils Data de GCP.
En même temps, la plupart des entreprises tech ont ce mot à la bouche et cela se voit aussi dans les nouvelles releases.
Un des sujet abordé était le Conversational Analytics dans BigQuery pour permettre, encore, de faire du Text-to-SQL afin de, encore 😅, démocratiser l’accès et l’usage de la donnée.
Je me demande toujours ce que cela fait en terme d’optimisation des requêtes en coûts 🧐. J’aimerai aussi me rendre du Time To Market du passage en production d’une de ces requêtes générées, ou alors c’est exclusivement pour de l’exploration.
Vous faites déjà de l’Analytics assistée par IA ? Ca donne quoi concrètement ?
On a aussi parlé de…tadaaaaa ! D’agents IA, mais aussi de Data Products. Google présente le Data Product comme une base pour les agents afin de pouvoir exploiter pleinement la sémantique métier, avec une gouvernance des données de qualités (ça existe) pour produire des requêtes pour obtenir des insights, faire des pipelines de données 😱 ! Donc on y arrive ?? Bon en vrai, il y a toujours besoin de contrôles comme d’hab, mais avoir un assistant semi-autonome pourrait permettre de ce concentrer sur d’autres tâches comme la qualité des données 🔄, et même du Data Modeling Sémantique ! Je ne vais pas me la péter j’ai découvert le concept en préparant l’épisode.
Et pour changer on a parlé de l’utilisation de Gemini dans Airflow via Composer. Bon, j’avoue, l’analyse des logs j’adore. Expliquer rapidement l’erreur, détecter des patterns d’erreur, faire de recommandations ça donne une plus-value intéressante. Bah oui, comme beaucoup, je préfère faire du build que de faire le run 😆
Cette fois, pour VRAIMENT changer, on a parlé de Cloud SQL et de Microsoft Entra ID. En gros, cela permet de centraliser la gestion d’identité dans Azure, afin de gérer les accès dans Cloud SQL pour SQL Server. Cela évite de gérer deux identité distinctes. Ce n’est pas la news data du siècle mais je trouve que cela amorce un petit pas pour le multi-cloud. Ca reste quand même bien modeste.
Pour revenir à la thématique omniprésente, on a parlé de Cloud SQL pour l’IA. Alors, en donnant le transcript de l’épisode à Gemini, il a dit quelque chose que je pourrai résumer en : t’as vraiment dit de la m**** Donc je reprends car j’avoue que c’était brouillon même pour moi durant le podcast 🫣. En gros il est possible d’utiliser Cloud SQL pour stocker toutes sorte d’infos comme l’état des agents IA, des sessions, des metadata de prompts, des features simples. Alors qu’on peut utiliser BigQuery plutôt pour l’entraînement et l’analytics à grande échelle. Et Vector DB plutôt pour la partie recherche sémantique, RAG.
Et pour finir on a aborder la sortie du driver JDBC officiel de Google pour BigQuery. J’imagine que la différence entre avec les drivers non officiels est clairement l’intégration peut-être spécifique de ce driver dans BigQuery ? En tout, on peut espérer de meilleures perf.
Donc beaucoup d’IA.
Source : https://cloud.google.com/blog/products/data-analytics/whats-new-with-google-data-cloud/?hl=en
👉 Axel sur LinkedIn 👉 Bertrand sur LinkedIn
➕ Blog
➕ Coaching individuel en SQL sur BigQuery
➕ Formation “Diminuer vos coûts BigQuery !”
➕ Formation de SQL sur BigQuery
🔗 Le podcast DataWatch :