Comment utiliser UNION ALL BY NAME dans BigQuery pour simplifier vos requêtes SQL ?

UNION ALL BY NAME dans BigQuery permet d’unir des résultats SQL selon les noms de colonnes et non leur position, évitant ainsi les erreurs courantes liées à l’ordre des colonnes. Cette fonctionnalité améliore clarté, robustesse et productivité dans vos requêtes (source : Google BigQuery docs).

3 principaux points à retenir.

UNION ALL classique exige une correspondance stricte par position et type de colonne.
UNION ALL BY NAME unionne les colonnes selon leur nom, indépendamment de leur ordre.
Cette méthode réduit les erreurs et simplifie la maintenance de requêtes SQL complexes.

Qu’est-ce que UNION ALL BY NAME et pourquoi BigQuery l’a-t-il ajouté ?

UNION ALL BY NAME est une fonctionnalité récente dans BigQuery qui révolutionne la façon dont nous fusionnons des résultats SQL. À la base, elle étend l’opération classique UNION ALL en permettant d’aligner les colonnes selon leurs noms, plutôt que selon leur ordre. Pourquoi est-ce si important ? Dans l’ancienne méthode, l’utilisation d’UNION ALL nécessite de s’assurer que les colonnes soient positionnées exactement dans le même ordre et qu’elles aient le même type. Sinon, attention aux erreurs qui peuvent surgir dans le traitement des données. Cela peut rapidement devenir un casse-tête, surtout lorsque l’on travaille avec des ensembles de données volumineux et complexes.

Avec UNION ALL BY NAME, vous n’avez plus à vous soucier de l’ordre. BigQuery s’occupe de tout pour vous, aligne les colonnes de manière intelligente et vous épargne une bonne dose de stress dans la préparation de vos requêtes. Cela améliore considérablement la lisibilité et diminue la rigueur nécessaire dans les étapes préliminaires, vous permettant de vous concentrer sur l’analyse des données au lieu de jongler avec les types et les positions des colonnes. Vous obtenez ainsi des requêtes plus simples, plus claires et moins sujettes à erreurs.

Comme on dit à Brive, un bon plan de marquage vaut mieux qu’un bon reporting ! Si besoin, consultez moi - faites appel à un super consultant en tracking client et server side.

Pour illustrer ce point, considérons un exemple simple. Supposons que nous ayons deux tables : la première contient des colonnes nommées id, nom et ville, tandis que la seconde contient ville, id et nom (dans un ordre différent).


-- Utilisation d'UNION ALL classique
SELECT id, nom, ville FROM table1
UNION ALL
SELECT ville, id, nom FROM table2;  -- Provoque une erreur de type correspondant

-- Utilisation d'UNION ALL BY NAME
SELECT * FROM table1
UNION ALL BY NAME
SELECT * FROM table2;

Avec le deuxième exemple, tout s’aligne parfaitement sans aucune erreur ! Cette fonctionnalité a été intégrée dans BigQuery à partir de 2023. C’est un ajout crucial pour les utilisateurs qui souhaitent optimiser leur flux de travail et réduire les chances d’erreurs lors de l’exécution de requêtes complexes. Si vous voulez en savoir plus sur la syntaxe SQL et les fonctionnalités disponibles, n’hésitez pas à consulter la documentation officielle d’Google BigQuery.

Comment utiliser concrètement UNION ALL BY NAME dans vos requêtes SQL ?

Pour utiliser UNION ALL BY NAME dans BigQuery, vous devez comprendre comment il fonctionne au niveau syntaxique et pratique. C’est ici que les choses deviennent intéressantes, car cela simplifie considérablement vos requêtes SQL et gère les colonnes, même si elles n’apparaissent pas dans le même ordre.

Premièrement, la syntaxe de base d’une requête UNION ALL BY NAME est la suivante :

SELECT colonne1, colonne2, ... FROM table1
UNION ALL BY NAME
SELECT colonneA, colonneB, ... FROM table2;

Voici un exemple simple. Supposons que vous ayez deux tables, table1 et table2, contenant les colonnes id et nom dans des ordres différents :

SELECT id, nom FROM table1 
UNION ALL BY NAME 
SELECT nom, id FROM table2;

Ce qu’il faut retenir ici, c’est que peu importe l’ordre des colonnes, BigQuery les combine basées sur leurs noms. Alors, que se passe-t-il si l’une des tables a des colonnes supplémentaires ou en manque ? Imaginons que table2 a une colonne supplémentaire age :

SELECT id, nom FROM table1 
UNION ALL BY NAME 
SELECT nom, id, age FROM table2;

Dans ce cas, les résultats de table1 afficheront les colonnes age comme null. BigQuery remplira les cellules manquantes avec des valeurs nulles, ce qui est un comportement attendu.

Conseils pratiques :

Assurez-vous que les colonnes partagées ont des types compatibles. Un entier et une chaîne ne fonctionnent pas ensemble.
Évitez les colonnes absentes dans l’une des requêtes, sinon vous risquez de recevoir des messages d’erreur.
Utilisez des alias de colonnes si besoin pour garder vos données claires.

Voici un exemple de code SQL incluant des commentaires pour illustrer tout cela :

-- Requête pour combiner table1 et table2
SELECT id, nom 
FROM table1 
UNION ALL BY NAME 
SELECT nom AS nom, id AS id, age 
FROM table2; -- age peut être null pour les entrées de table1

Avec un peu de pratique et en évitant ces erreurs courantes, vous exploiterez pleinement la puissance de UNION ALL BY NAME dans vos requêtes BigQuery. Pour approfondir votre compréhension, n’hésitez pas à consulter plus de ressources sur les unions SQL ici.

Quels impacts et limites à connaître avant d’adopter UNION ALL BY NAME ?

Adopter UNION ALL BY NAME dans BigQuery, c’est un peu comme passer de votre vieille bagnole à une belle sportive : ça optimise votre vitesse et votre efficacité. Concrètement, les analystes et développeurs SQL peuvent s’attendre à plusieurs gains. Pour commencer, le gain de temps est évident. Cette fonctionnalité permet de fusionner des jeux de données sans se soucier de l’ordre des colonnes, ce qui simplifie considérablement la rédaction des requêtes. Par cette approche, on élimine le risque d’oublier d’aligner les colonnes, ce qui conduit souvent à des erreurs fastidieuses et à de longues heures de débogage. En 2020, une étude a démontré que les utilisateurs expérimentant des gains de productivité de l’ordre de 30% grâce à des requêtes simplifiées dans BigQuery (source : Scribd).

Ensuite, la lisibilité des requêtes s’améliore radicalement. Moins de méandres, plus de clarté. Plus besoin de gérer l’ordonnancement des colonnes, ce qui rend les opérations beaucoup plus intuitives. Cela facilite également la maintenance des requêtes. Lorsque vos collègues doivent plonger dans votre code, une requête lisible est un précieux atout.

Cependant, tout n’est pas rose. Il y a des limites qu’il ne faut pas ignorer. D’abord, la correspondance exacte des noms est requise. Si vous avez des colonnes ayant le même nom mais de types différents dans deux tables, vous allez constater que BigQuery vous renvoie une erreur. Ensuite, soyez conscient de la sensibilité aux types. Par exemple, un champ `STRING` et un champ `INTEGER` ne sont pas compatibles ; il vous faudra effectuer des conversions explicitement. Ces aspects peuvent devenir un cauchemar si vous traitez des données hétérogènes provenant de diverses sources.

Quant à la performance, dans des scénarios impliquant des jeux de données massifs, l’impact sur la vitesse peut ne pas être négligeable. Dans ces cas, un UNION ALL classique peut s’avérer plus performant, car le moteur SQL peut optimiser la manière dont il fusionne des tables. En définitive, évaluez vos besoins et essayez d’estimer si l’adoption de cette fonctionnalité vous apportera réellement un bénéfice tangible. C’est là toute la finesse de l’adoption d’outils en data science.

Comment tirer parti de UNION ALL BY NAME pour automatiser et sécuriser vos pipelines BigQuery ?

Lorsque vous développez des pipelines de données dans BigQuery, la gestion efficace des sources de données multiples devient cruciale. C’est là qu’intervient UNION ALL BY NAME, une fonctionnalité incontournable pour orchestrer vos données de manière dynamique et automatisée. Comment ? En unissant les résultats de plusieurs requêtes sans vous soucier de l’ordre des colonnes. Cela facilite les transformations ETL et renforce le potentiel des environnements Cloud BI.

Imaginez que vous devez fusionner des données provenant de plusieurs bases de données : des logs d’applications, des ventes RSS et des retours clients. Avec UNION ALL BY NAME, vous n’avez qu’à spécifier les noms de colonnes au lieu de leur position. Ce n’est pas seulement un gain de temps, c’est une amélioration du code qui rend le maintien et l’automatisation des pipelines beaucoup plus simples. Cette technique permet également de minimiser les erreurs : moins de manipulation manuelle signifie moins de risques de bogues.

Voici un exemple succinct d’automatisation avec UNION ALL BY NAME :

SELECT * FROM (
  SELECT name, log AS data FROM `project.dataset1.logs`
  UNION ALL BY NAME
  SELECT name, sale AS data FROM `project.dataset2.sales`
  UNION ALL BY NAME
  SELECT name, feedback AS data FROM `project.dataset3.feedback`
)

Dans ce cas, on fusionne les données de trois sources différentes en utilisant le même nom de colonne, ce qui rend la requête facilement lisible et modifiable. Maintenant, si vous devez intégrer une nouvelle source, ajoutez simplement une ligne sans vous soucier de réorganiser tout votre schéma.

Pour assurer une gestion efficace des schémas de données, voici quelques bonnes pratiques :

Conservez une documentation claire des noms de colonnes utilisés dans chaque source.
Évitez les changements de types de données qui pourraient briser l’union.
Testez rigoureusement chaque nouvelle source avant de l’intégrer dans le pipeline.

En fin de compte, les avantages de cette approche dans l’automatisation sont nombreux :

Avantages
Simplification des requêtes
Réduction des erreurs lors de l’intégration
Flexibilité lors de l’ajout de nouvelles sources
Gain de temps dans l’écriture des requêtes

Utiliser UNION ALL BY NAME dans BigQuery n’est pas seulement une question de style : c’est une stratégie gagnante pour automatiser et sécuriser vos pipelines de données de manière efficace et durable.

Alors, pourquoi ne pas adopter UNION ALL BY NAME dès aujourd’hui pour fiabiliser vos requêtes BigQuery ?

UNION ALL BY NAME est une évolution simple mais puissante dans BigQuery, qui résout une limite récurrente des unions SQL classiques : l’alignement rigide par position des colonnes. En privilégiant l’ordre par nom, elle simplifie les requêtes, réduit les erreurs courantes et facilite les modifications de schéma. Que vous soyez développeur SQL ou architecte data, c’est un outil indispensable pour rendre vos traitements plus robustes et adaptables, en particulier dans des architectures multi-sources. L’adopter, c’est améliorer la clarté et la fiabilité de vos données, avec un impact direct sur la productivité de vos équipes.

FAQ

Qu’est-ce qui différencie UNION ALL BY NAME de UNION ALL classique dans BigQuery ?

UNION ALL classique combine des résultats en alignant les colonnes par position, ce qui impose que les colonnes soient dans le même ordre et avec des types compatibles. UNION ALL BY NAME, introduit récemment dans BigQuery, lie les colonnes via leurs noms, peu importe leur position, ce qui facilite la gestion des requêtes et évite des erreurs de correspondance.

UNION ALL BY NAME fonctionne-t-il si des colonnes sont présentes dans une table et pas dans l’autre ?

Non, toutes les colonnes doivent être présentes dans les deux jeux de résultats pour que UNION ALL BY NAME fonctionne correctement. Si une colonne manque, BigQuery déclenche une erreur, car l’opération nécessite un alignement exact des noms, tout comme les types de données doivent être compatibles.

Quelles sont les contraintes de types avec UNION ALL BY NAME ?

Les colonnes correspondantes doivent avoir des types compatibles ou identiques dans les deux sous-requêtes. Si les types sont incompatibles, la requête échouera. Par exemple, on ne peut pas unir une colonne STRING avec une colonne INTEGER même si elles portent le même nom.

Cette fonctionnalité impacte-t-elle les performances des requêtes BigQuery ?

En général, l’impact sur les performances est minime et largement compensé par la réduction des erreurs et du temps de développement. Toutefois, dans des jeux de données extrêmement volumineux ou complexes, une référence par nom peut ajouter une légère surcharge, mais Google n’a pas communiqué de limitations majeures à ce jour.

Comment UNION ALL BY NAME facilite-t-il l’automatisation des workflows data dans BigQuery ?

En coupant la dépendance à l’ordre strict des colonnes, UNION ALL BY NAME rend les pipelines plus adaptables aux changements de schéma, fréquents en environnement multi-sources. Cela sécurise l’assemblage automatique des données sans ajustements manuels constants, ce qui accélère la mise en production et la maintenance des workflows BigQuery.

Franck Scandolera

⭐ Expert et formateur en Tracking avancé, Analytics Engineering et Automatisation IA (n8n, Make) ⭐

Ref clients : Logis Hôtel, Yelloh Village, BazarChic, Fédération Football Français, Texdecor…

Mon terrain de jeu :

Data & Analytics engineering : tracking propre RGPD, entrepôt de données (GTM server, BigQuery…), modèles (dbt/Dataform), dashboards décisionnels (Looker, SQL, Python).
Automatisation IA des taches Data, Marketing, RH, compta etc : conception de workflows intelligents robustes (n8n, Make, App Script, scraping) connectés aux API de vos outils et LLM (OpenAI, Mistral, Claude…).
Engineering IA pour créer des applications et agent IA sur mesure : intégration de LLM (OpenAI, Mistral…), RAG, assistants métier, génération de documents complexes, APIs, backends Node.js/Python.

Résumer ce contenu avec :