Comment utiliser UNION ALL BY NAME pour simplifier vos requêtes BigQuery SQL ?

UNION ALL BY NAME permet d’unir deux résultats SQL en associant les colonnes par leur nom, pas par leur position. Cette fonctionnalité récente de BigQuery élimine les erreurs classiques quand l’ordre des colonnes diffère, tout en améliorant la lisibilité et la maintenance des requêtes.

3 principaux points à retenir.

UNION ALL BY NAME associe les colonnes selon leur nom et non leur ordre.
Il évite les erreurs liées à un mauvais alignement des colonnes.
Cette fonctionnalité améliore la clarté et la robustesse des requêtes SQL.

Qu’est-ce que UNION ALL BY NAME et pourquoi c’est un game changer ?

UNION ALL BY NAME est une véritable révolution qui chamboule le paysage des requêtes SQL dans BigQuery. Pour ceux qui n’ont pas encore eu l’occasion de se familiariser avec cette nouvelle fonctionnalité, voici un aperçu de pourquoi elle est un game changer.

Traditionnellement, quand on utilisait l’UNION ALL classique, il était indispensable d’aligner les colonnes non seulement par leur ordre, mais aussi par leur type exact. Imaginez le casse-tête : vous avez deux tables avec des colonnes similaires, mais leur ordre diffère. Que se passe-t-il ? Erreur d’exécution. Cela crée non seulement de la frustration, mais une complexité souvent inutile dans le code. On se retrouve à jongler avec des alias, à recoder des requêtes entières, juste pour s’assurer que tout est au bon endroit. Un véritable purgatoire pour tout analyste de données.

Avec UNION ALL BY NAME, cette contrainte disparaît. Ce qui compte désormais, ce sont les noms des colonnes et non leur position. Cela signifie que vous pouvez combiner facilement des tables, même si l’ordre ou le type des colonnes n’est pas identique. Moins d’erreurs, moins de stress et, soyons honnêtes, bien plus de productivité. Vous pouvez vous concentrer sur l’analyse plutôt que sur la syntaxe.

En termes pratiques, voici un exemple simple. Supposons que vous ayez deux tables : table_a avec (nom, âge) et table_b avec (âge, nom). Avec l’ancienne méthode, votre requête ressemblerait à :


SELECT nom, âge FROM table_a
UNION ALL
SELECT nom, âge FROM table_b; -- Cela génère une erreur

Avec UNION ALL BY NAME, tout devient plus fluide :


SELECT nom, âge FROM table_a
UNION ALL BY NAME
SELECT âge, nom FROM table_b; -- Pas d'erreur ici, et tout se combine parfaitement

Ce changement modifie non seulement la manière dont nous écrivons les requêtes, mais aussi la manière dont nous pensons les données. Ce niveau d’abstraction élevé simplifie considérablement la gestion de l’information. Pour plus de détails sur cette fonctionnalité, vous pouvez consulter la documentation officielle de Google.

Comment utiliser UNION ALL BY NAME en pratique dans vos requêtes BigQuery ?

Pour intégrer UNION ALL BY NAME dans vos requêtes BigQuery, la syntaxe est très simple, et elle permet de rendre vos scripts plus lisibles et moins sujet à erreurs. Prenons d’abord un exemple basique.


SELECT name, age FROM table1
UNION ALL BY NAME
SELECT name, salary FROM table2

Dans cet exemple, table1 contient des colonnes name et age, tandis que table2 dispose de name et salary. Grâce à UNION ALL BY NAME, BigQuery va faire correspondre les colonnes par leur nom, même si l’ordre diffère. Cela signifie que les résultats renvoyés auront les colonnes name et les champs correspondants aux valeurs les plus à droite dans les sélections respectives. Cela évite les erreurs de correspondance basées sur des positions de colonnes et simplifie la gestion des requêtes.

Attention, il y a quelques conditions à respecter : les colonnes doivent avoir les mêmes noms et types pour que l’opération fonctionne sans accrocs. Sinon, attendez-vous à des erreurs peu sympathiques.

Passons à un exemple plus complexe. Supposons maintenant que vous ayez les deux tables suivantes :


SELECT name, age, address FROM table1
UNION ALL BY NAME
SELECT name, salary, department FROM table2

Ici, table1 a name, age et address, alors que table2 contient name, salary et department. BigQuery fait correspondre uniquement name et retournera des ensembles de résultats avec ces deux attributs, laissant les colonnes non correspondantes en dehors de l’union. Cela renforce l’idée que UNION ALL BY NAME est robuste pour les scénarios où les structures des tables sont variées. Ainsi, vous évitez une grande partie de la complexité rencontrée avec des unions traditionnelles.

En utilisant cette syntaxe, vous simplifiez vos requêtes tout en garantissant leur clarté. Si vous n’avez pas encore expérimenté cette fonction, il est temps d’exploiter UNION ALL BY NAME et d’élever vos scripts BigQuery à un autre niveau.

Quels bénéfices concrets apporte UNION ALL BY NAME sur la maintenance et optimisation SQL ?

Quand on parle d’UNION ALL BY NAME, on évoque aussi une série d’avantages notables qui vont bien au-delà de la simple question de syntaxe. On cible directement des problématiques concrètes de maintenance et d’optimisation SQL. D’abord, un des bénéfices majeurs réside dans la réduction des bugs inattendus. Avec cette approche, les erreurs dues à un ordre de colonnes mal configuré deviennent presque obsolètes. Par exemple, dans les anciennes pratiques avec UNION ALL, si vous deviez réorganiser des colonnes ou en ajouter, il fallait repasser l’intégralité de la requête pour vérifier que tout était en ordre. Une perte de temps qui peut être évitée avec UNION ALL BY NAME, où les colonnes sont référencées par leur nom et non par leur position.

Ensuite, cette méthode apporte une vraie facilité pour modifier ou réorganiser les listes de colonnes. Prenons un cas où vous devez ajouter une colonne supplémentaire – au lieu de revoir chaque occurrence de l’UNION, il suffit de l’ajouter simplement à votre définition initiale. Cela rend le code non seulement plus flexible, mais aussi plus intuitif, une vraie aubaine pour la collaboration au sein des équipes. Moins d’ambiguïté rime souvent avec moins de conflits et une meilleure compréhension des requêtes.

En termes de lisibilité, le code devient également plus clair. On s’y retrouve plus facilement, surtout dans des projets où plusieurs développeurs interagissent. En contrastant cela avec l’ancien paradigme, où chaque modification pouvait entraîner une revalidation totale des ordres de colonnes, il est évident que UNION ALL BY NAME assure un gain de temps considérable dans le processus de développement.

Cela dit, toutes les approches ne sont pas parfaites. Quand est-ce que cette méthode pourrait ne pas être adaptée ? Par exemple, dans des environnements hautement performants où chaque milliseconde compte, certains experts peuvent avoir des réserves sur l’impact possible de ce type de requêtes. Les optimisations sont toujours à évaluer au cas par cas.

Voici un tableau synthétique comparant UNION ALL classique et UNION ALL BY NAME sur différents critères :

Critères	UNION ALL Classique	UNION ALL BY NAME
Maintenance	Difficile, bugs fréquents	Facile, bugs réduits
Modifications	Revalidation requise	Modification simple
Lisibilité	Peu clair, confus	Intuitif, clair
Performance	Optimizations nécessaires	Variable, dépend du contexte

Pour en savoir plus sur les meilleures pratiques en matière de SQL avec BigQuery, consultez ce lien vers la documentation officielle ici.

Quelles alternatives à UNION ALL BY NAME pour gérer l’union de données dans BigQuery ?

Quand on parle de combiner des résultats dans BigQuery, l’option UNION ALL est souvent citée en premier lieu. Cependant, elle a ses limites, notamment en ce qui concerne la contrainte des colonnes. Si les schémas des tables ne s’alignent pas parfaitement, vous allez droit au mur. Dans cette situation, quelles alternatives s’offrent alors à nous ?

UNION ALL classique: Cette méthode concatène simplement les lignes de plusieurs requêtes. Si les colonnes ne correspondent pas, BigQuery vous claque une erreur au visage. Bien que simple et rapide à mettre en place, cette méthode demande une attention particulière à la hiérarchie des colonnes.
SELECT structuré: Avec cette technique, vous pouvez envelopper vos résultats dans des structures spécifiques (utilisez SELECT AS STRUCT). Cela vous permet de créer des ensembles de résultats de colonnes alignés, facilitant ainsi l’union. Ce n’est pas une panacée, car ça implique un peu plus de cheminements, mais ça fonctionne.
Normalisation: Avant d’unir vos données, normalisez vos schémas. Cela signifie créer un modèle de données uniforme afin que toutes vos colonnes soient harmonisées. Par exemple, si certaines données sont au format numérique et d’autres au format texte, mieux vaut convertir le tout dans un format standard avant d’envisager l’union.
Utilisation de vues: Les vues peuvent également servir de solution. Créez une vue pour chaque ensemble de données avec un schéma homogène, et ensuite, appliquez UNION ALL sur ces vues. Cela permet de gérer plusieurs jeux de données sans trop de tracas.
Fonctions d’automatisation et outils externes: Envisagez d’intégrer des outils d’automatisation pour préparer vos données avant de les combiner. Des outils tels que Apache Airflow ou Google Cloud Dataflow peuvent aider à orchestrer votre pipeline de données, ajoutant une couche d’efficacité à votre processus.

Malgré toutes ces alternatives, UNION ALL BY NAME demeure souvent la méthode la plus simple et efficace pour un grand nombre de cas. Le premier avantage est sa simplicité d’utilisation : vous n’avez pas à vous soucier des colonnes en désordre. De plus, c’est un gain de temps qui peut se révéler crucial dans des scénarios où chaque minute compte. C’est pourquoi, même avec des outils plus sophistiqués à votre disposition, l’union par nom se révèle souvent la solution la plus intuitive et pratico-pratique, permettant d’éviter les circonvolutions inutiles. Dans l’univers de BigQuery, parfois, il est prudent de garder les choses simples.

Alors, pourquoi se compliquer la vie avec UNION ALL classique quand BY NAME existe ?

UNION ALL BY NAME, c’est un tournant pour les développeurs SQL qui utilisent BigQuery. Fini les erreurs tordues liées à l’alignement des colonnes, cette fonctionnalité rend les unions de données plus intuitives, sûres et rapides à écrire. Elle aligne les résultats par nom, pas par position, libérant du temps et réduisant la casse en production. Pour qui veut optimiser sa productivité et fiabiliser ses scripts, c’est un must à adopter immédiatement. En bref, intégrer UNION ALL BY NAME dans votre boîte à outils SQL, c’est gagner en sérénité, lisibilité et efficacité.

FAQ

Qu’est-ce que UNION ALL BY NAME dans BigQuery ?

UNION ALL BY NAME est une commande SQL dans BigQuery qui permet d’unir plusieurs résultats de requêtes en associant les colonnes par leur nom plutôt que leur ordre, évitant ainsi des erreurs d’alignement classiques avec UNION ALL.

Quand utiliser UNION ALL BY NAME ?

Utilisez UNION ALL BY NAME dès que vos requêtes retournent les mêmes colonnes avec les mêmes noms mais dans un ordre différent. C’est indispensable pour éviter les erreurs et rendre votre SQL plus lisible et maintenable.

Est-ce que UNION ALL BY NAME gère les colonnes avec des types différents ?

Non, les colonnes doivent avoir des types compatibles pour que UNION ALL BY NAME fonctionne. Sinon, BigQuery renvoie une erreur de type.

UNION ALL BY NAME impacte-t-il les performances de requête ?

La différence de performance est négligeable dans la plupart des cas. L’amélioration principale est sur la robustesse et la maintenabilité du code, non sur la vitesse d’exécution.

Cette fonctionnalité est-elle exclusive à BigQuery ?

Pour l’instant, UNION ALL BY NAME est une nouveauté propre à BigQuery. D’autres plateformes SQL n’ont pas encore cette fonctionnalité native, ce qui rend BigQuery un cran au-dessus en flexibilité SQL.

Franck Scandolera

⭐ Analytics engineer, Data Analyst et Automatisation IA indépendant ⭐

Ref clients : Logis Hôtel, Yelloh Village, BazarChic, Fédération Football Français, Texdecor…

Mon terrain de jeu :

Data Analyst & Analytics engineering : tracking avancé (GTM server, e-commerce, CAPI, RGPD), entrepôt de données (BigQuery, Snowflake, PostgreSQL, ClickHouse), modèles (Airflow, dbt, Dataform), dashboards décisionnels (Looker, Power BI, Metabase, SQL, Python).
Automatisation IA des taches Data, Marketing, RH, compta etc : conception de workflows intelligents robustes (n8n, App Script, scraping) connectés aux API de vos outils et LLM (OpenAI, Mistral, Claude…).
Engineering IA pour créer des applications et agent IA sur mesure : intégration de LLM (OpenAI, Mistral…), RAG, assistants métier, génération de documents complexes, APIs, backends Node.js/Python.