Comment optimiser vos requêtes BigQuery avec les fenêtres nommées SQL ?

Il y a quelques années, j’ai passé des heures à débugger des requêtes SQL répétitives. Puis j’ai découvert les fenêtres nommées en SQL, un gain de temps monumental. BigQuery, PostgreSQL et T-SQL les supportent, rendant vos requêtes plus claires et efficaces, même sur des cas complexes comme GA4.

3 principaux points à retenir.

Fenêtres nommées simplifient la répétition des définitions complexes dans les fonctions OVER.
Amélioration de la lisibilité du code SQL pour faciliter la maintenance collaborative.
Gain significatif de productivité en évitant les répétitions fastidieuses et réduisant les erreurs potentielles.

Qu’est-ce qu’une fenêtre nommée en SQL et pourquoi l’utiliser

Imaginez que vous êtes en train de préparer un plat complexe en cuisine. Vous avez tous vos ingrédients, mais chaque fois que vous devez les utiliser, vous devez répéter le même processus de préparation. Frustrant, n’est-ce pas ? C’est là qu’intervient la fenêtre nommée en SQL, un concept qui pourrait tout changer dans la façon dont vous écrivez vos requêtes. Une fenêtre nommée est comme une recette que vous préparez une bonne fois pour toutes, puis que vous pouvez réutiliser à volonté. Elle permet de définir une partition et un ordre que l’on peut aliaser pour les utiliser dans plusieurs fonctions analytiques, comme LAG() ou ROW_NUMBER(), au sein d’une même requête.

La beauté de cette fonctionnalité réside dans sa capacité à réduire la répétition des définitions compliquées et à rendre le code plus lisible et plus facile à maintenir. Dès qu’on utilise la clause WINDOW, on transforme des définitions de fenêtres complexes en noms simples qui, d’un coup de cuillère magique, s’invitent dans nos requêtes.

Voici un exemple simple pour illustrer cela. Supposons que nous avons une table transactions où chaque ligne représente une transaction d’utilisateur avec une date et un montant. Nous voulons partitionner par utilisateur et ordonner par date :


SELECT utilisateur, date, montant,
       ROW_NUMBER() OVER my_window AS row_num,
       LAG(montant) OVER my_window AS montant_precedent
FROM transactions
WINDOW my_window AS (PARTITION BY utilisateur ORDER BY date);

Dans cet exemple, nous définissons notre fenêtre nommée my_window qui partitionne les résultats par utilisateur et les ordonne par date. Nous l’utilisons ensuite dans les fonctions ROW_NUMBER() et LAG() pour attribuer un numéro de ligne et récupérer le montant de la transaction précédente pour chaque utilisateur.

Pour mieux saisir l’impact de ces fenêtres nommées sur la clarté de vos requêtes, voici un tableau comparatif :

Requête avec fenêtres répétées Requête avec fenêtres nommées

Requête avec fenêtres répétées	Requête avec fenêtres nommées
`SELECT utilisateur, date, montant, ROW_NUMBER() OVER (PARTITION BY utilisateur ORDER BY date) AS row_num, LAG(montant) OVER (PARTITION BY utilisateur ORDER BY date) AS montant_precedent FROM transactions;`	`SELECT utilisateur, date, montant, ROW_NUMBER() OVER my_window AS row_num, LAG(montant) OVER my_window AS montant_precedent FROM transactions WINDOW my_window AS (PARTITION BY utilisateur ORDER BY date);`


SELECT utilisateur, date, montant,
       ROW_NUMBER() OVER (PARTITION BY utilisateur ORDER BY date) AS row_num,
       LAG(montant) OVER (PARTITION BY utilisateur ORDER BY date) AS montant_precedent
FROM transactions;


SELECT utilisateur, date, montant,
       ROW_NUMBER() OVER my_window AS row_num,
       LAG(montant) OVER my_window AS montant_precedent
FROM transactions
WINDOW my_window AS (PARTITION BY utilisateur ORDER BY date);

La différence est frappante : relevons que l’utilisation de fenêtres nommées est non seulement plus concise, mais aussi beaucoup plus claire. En fin de compte, moins de répétition signifie moins d’erreurs potentielles et un code plus élégant à lire. La prochaine fois que vous jonglez avec des requêtes BigQuery, envisagez d’utiliser des fenêtres nommées pour optimiser vos requêtes. Pour des pratiques encore plus performantes, n’hésitez pas à consulter cet article.

Comment implémenter les fenêtres nommées dans BigQuery concrètement

Plongeons directement dans le vif du sujet : comment implémenter les fenêtres nommées dans BigQuery ? Imaginez que vous êtes un chef d’orchestre et que chaque fonction analytique est un musicien. Pour que l’harmonie soit parfaite, chaque musicien doit savoir quand entrer et sortir. Les fenêtres nommées, ou window functions, sont ces partitions qui garantissent que chaque fonction joue son rôle au bon moment.

La structure d’une requête SQL utilisant des fenêtres nommées dans BigQuery se dévoile ainsi : après le FROM, vous allez définir votre fenêtre. Voici un exemple concret :

SELECT
  date,
  sales,
  SUM(sales) OVER w AS running_total,
  LAG(sales, 1) OVER w AS previous_sales,
  LEAD(sales, 1) OVER w AS next_sales
FROM
  sales_data
WINDOW
  w AS (PARTITION BY region ORDER BY date)

Décomposons cela. Premièrement, vous avez défini une fenêtre nommée w. Ici, vous avez indiqué que vous souhaitez partitionner les résultats par region et les ordonner par date. Ensuite, vous appliquez plusieurs fonctions analytiques : SUM() pour le total cumulatif, LAG() pour retrouver les ventes de la session précédente, et LEAD() pour anticiper celles de la session suivante. C’est comme un pas de danse parfaitement synchronisé !

Alors, quelles sont les bonnes pratiques à suivre ? Voici quelques conseils :

Nommage clair : optez pour des noms explicites afin que vos collègues puissent comprendre facilement ce que fait chaque fenêtre.
Évitez les redéfinitions inutiles : ne créez pas plusieurs fenêtres pour réaliser la même tâche, cela alourdit la requête.
Partitionnement et ordre adaptés : assurez-vous que la logique de partitionnement correspond à vos besoins métier ; un mauvais choix ici peut fausser vos analyses.

Au-delà de BigQuery, sachez que les fenêtres nommées se retrouvent dans d’autres dialectes SQL comme PostgreSQL et T-SQL. Cependant, certaines subtilités peuvent différer. Par exemple, BigQuery a ses propres spécificités concernant la gestion des NULL, qui ne sont pas toujours alignées avec d’autres systèmes comme PostgreSQL.

Alors, prêt à faire une belle symphonie avec vos requêtes BigQuery? Pour découvrir plus de bonnes pratiques, n’hésitez pas à consulter ce lien : Best Practices for BigQuery.

Dans quel contexte avancer l’usage de fenêtres nommées sur des données GA4

Vous avez sûrement déjà été confronté à ce petit ennui qui vous fait perdre du temps : des valeurs NULL dans vos colonnes de source, medium ou campagne sur vos données GA4, n’est-ce pas ? C’est particulièrement fâchant, surtout après l’été 2023, où un bug connu a semé le trouble. Mais ne désespérez pas ! Les fenêtres nommées en SQL sont là pour vous sauver la mise, comme un super-héros des temps modernes du Big Data.

Pourquoi les fenêtres nommées sont-elles votre allié précieux ? Imaginez que vous voulez attribuer les conversions à la bonne source, à la bonne campagne, au bon moyen. Avec ces fenêtres, vous pouvez effectuer des calculs analytiques et reconstituer les données manquantes pour chaque événement d’une session, ce qui vous permet d’analyser les performances réelles de vos canaux. Pour ceux qui aiment le dernier clic (last click), cette méthode vous permet de récupérer les informations de manière structurée et précise.

Voyons cela en pratique avec un exemple. Prenons le cas d’une session où l’utilisateur a interagi avec plusieurs événements, mais où la source d’acquisition est vide à cause de ce satané bug. Grâce à BigQuery et aux fenêtres nommées, vous pouvez utiliser une requête qui va réattribuer la source et le medium à chaque événement. Voici un extrait de la requête :

WITH attribution AS (
  SELECT
    event_name,
    user_pseudo_id,
    session_id,
    source,
    medium,
    campaign,
    LAST_VALUE(source IGNORE NULLS) OVER (PARTITION BY session_id ORDER BY event_timestamp) AS last_source,
    LAST_VALUE(medium IGNORE NULLS) OVER (PARTITION BY session_id ORDER BY event_timestamp) AS last_medium,
    LAST_VALUE(campaign IGNORE NULLS) OVER (PARTITION BY session_id ORDER BY event_timestamp) AS last_campaign
  FROM
    `your_project.your_dataset.your_table`
)
SELECT
  event_name,
  last_source AS source,
  last_medium AS medium,
  last_campaign AS campaign
FROM
  attribution;

Cette requête vous permet de remplir les valeurs NULL avec celles les plus récentes, assurant ainsi un suivi de l’attribution solide et réactif. Gardez à l’esprit que cette méthode nécessite un abonnement premium, donc attention à bien vérifier vos accès !

Pour un tableau récapitulatif, voici les bénéfices métier que vous allez gagner à utiliser cette approche :

Précision : Obtenez des données fiables pour vos analyses marketing.
Attribution correcte : Améliorez la compréhension de votre retour sur investissement publicitaire.
Analyses approfondies : Alimentez vos stratégies commerciales avec des données plus riches et exploitables.

Avec ces outils à votre disposition, vous êtes plus que jamais paré à faire face aux défis posés par GA4.

Comment cette astuce peut-elle révolutionner votre écriture SQL ?

Les fenêtres nommées en SQL sont loin d’être un gadget : elles transforment vos requêtes BigQuery en code lisible, maintenable et plus rapide à écrire. Que vous soyez analyste data ou développeur, adopter cette technique vous protègera du chaos syntaxique et accélérera vos analyses, notamment sur des données complexes comme celles de GA4. Le vrai bénéfice ? Plus de temps pour l’analyse et moins pour le débogage. Cette pratique simple mais puissante mérite une place dans votre boîte à outils SQL.

FAQ

Qu’est-ce qu’une fenêtre nommée en SQL ?

Une fenêtre nommée est une définition de partitionnement et d’ordre que l’on associe à un alias pour la réutiliser dans plusieurs fonctions analytiques OVER d’une même requête SQL, simplifiant le code et évitant les répétitions inutiles.

Pourquoi utiliser des fenêtres nommées dans BigQuery ?

Pour rendre les requêtes plus lisibles et éviter de répéter plusieurs fois la même définition de fenêtre, ce qui réduit les erreurs et accélère le développement.

La syntaxe WINDOW est-elle compatible avec tous les dialectes SQL ?

WINDOW est supportée dans BigQuery, PostgreSQL et T-SQL mais pas dans tous les dialectes SQL. Il vaut mieux vérifier la compatibilité avant son utilisation.

Comment les fenêtres nommées peuvent-elles aider avec les données GA4 dégradées ?

Elles permettent de reconstituer les champs source, medium et campagne manquants sur les événements GA4 affectés par un bug, grâce à une attribution basée sur le dernier clic dans une session, via des fonctions analytiques sur une fenêtre nommée.

Quels sont les bénéfices concrets des fenêtres nommées pour les data analysts ?

Une meilleure clarté du code, un gain de temps considérable lors de l’écriture et la maintenance des requêtes complexes, et une réduction significative des erreurs liées à la répétition de code.

A propos de l’auteur

Franck Scandolera, expert data et Analytics Engineer depuis une décennie, accompagne agences, e‑commerçants et collectivités à maîtriser leurs données. Responsable de l’agence webAnalyste et formateur en SQL, BigQuery et GA4, il partage sa passion pour des solutions data automatisées, fiables et orientées business. Avec une expérience terrain bétonnée, Franck allie pédagogie et pratique technique avancée pour rendre la data accessible et efficace.

Franck Scandolera

⭐ Analytics engineer, Data Analyst et Automatisation IA indépendant ⭐

Ref clients : Logis Hôtel, Yelloh Village, BazarChic, Fédération Football Français, Texdecor…

Mon terrain de jeu :

Data Analyst & Analytics engineering : tracking avancé (GTM server, e-commerce, CAPI, RGPD), entrepôt de données (BigQuery, Snowflake, PostgreSQL, ClickHouse), modèles (Airflow, dbt, Dataform), dashboards décisionnels (Looker, Power BI, Metabase, SQL, Python).
Automatisation IA des taches Data, Marketing, RH, compta etc : conception de workflows intelligents robustes (n8n, App Script, scraping) connectés aux API de vos outils et LLM (OpenAI, Mistral, Claude…).
Engineering IA pour créer des applications et agent IA sur mesure : intégration de LLM (OpenAI, Mistral…), RAG, assistants métier, génération de documents complexes, APIs, backends Node.js/Python.