Expérimenter avec la compression des données dans BigQuery

La gestion des coûts de stockage dans BigQuery a pris un nouvel élan grâce à l’adoption d’un nouveau modèle de facturation basé sur le stockage physique. Mais pourquoi certaines données se compressent-elles mieux que d’autres ? Cet article se penche sur les différents facteurs influençant les ratios de compression dans BigQuery et les implications pour les utilisateurs. En expérimentant avec des ensembles de données réels, nous explorons comment le pré-tri, le clustering et d’autres techniques peuvent optimiser l’espace tout en améliorant les performances de requête. En fin de compte, comprendre ces mécanismes offre une opportunité de réduire les coûts tout en préservant l’efficacité analytique.

Comprendre la compression dans BigQuery

La compression des données dans BigQuery est un aspect essentiel pour optimiser le stockage et améliorer les performances des requêtes. Dans ce contexte, il est crucial de comprendre les ratios de compression des tables et les principes qui les régissent. Les données non compressées occupent souvent un espace considérable, ce qui entraîne des coûts de stockage élevés et des temps de traitement plus longs. Grâce à la compression, les utilisateurs peuvent réduire significativement l’espace nécessaire pour stocker les données tout en maintenant une accessibilité rapide pour les analyses.

Le premier élément à considérer est le type de compression utilisé par BigQuery. BigQuery applique une compression automatique lors de la chargement de données dans des tables. Cela étant dit, la compression peut être influencée par plusieurs facteurs, notamment la nature des données elles-mêmes. Les formats de fichiers peuvent également jouer un rôle majeur. Par exemple, les fichiers CSV peuvent être moins compressibles par rapport aux fichiers JSON ou Avro, car ces derniers contiennent des structures de données redondantes qui se compressent plus efficacement. La compression peut également varier selon la structure des données, par exemple si une colonne contient des valeurs répétées, cela peut entraîner une meilleure compression par rapport aux colonnes avec une grande variabilité des valeurs.

Un des aspects les plus fascinants de la compression dans BigQuery est le rapport de compression. Cette mesure indique combien d’espace a été économisé par rapport à l’espace initial requis pour stocker les données. Parfois, il est possible d’atteindre des ratios de compression de 10:1 ou même supérieurs, selon les mécanismes utilisés et la nature des données. Cela veut dire qu’une table initiale de 1 To peut ne nécessiter que 100 Go après compression. Pour mieux comprendre ces ratios, il est intéressant de les comparer à d’autres formats de fichiers. Par exemple, les fichiers Parquet, souvent utilisés dans des systèmes Big Data, sont connus pour leur efficacité de compression grâce à leur structure en colonnes, qui permet de regrouper des données similaires pour une compression accrue.

Avec des données profondément imbriquées, comme celles que l’on trouve dans les fichiers JSON, BigQuery utilise une approche de compression qui peut aboutir à des résultats significatifs. Lorsqu’il s’agit de fichiers de très grande taille, tels que des journaux d’événements ou des données de capteurs, la compression devient également indispensable pour rendre l’analyse efficace, tant en termes de dépenses que de temps de traitement.

Ainsi, il apparaît que le choix du mécanisme de compression et le type de données sont étroitement liés aux performances du stockage et à l’accès aux données. Comprendre les ratios de compression associés à différentes structures de données permet aux utilisateurs de BigQuery d’optimiser leurs tables pour ne pas seulement réduire les coûts, mais aussi améliorer la vitesse d’exécution des requêtes. En fin de compte, la compression des données demeure une composante fondamentale de l’optimisation des coûts dans l’environnement de BigQuery.

Les expériences de réordonnancement des enregistrements

Dans le domaine de la compression des données, une approche souvent négligée est le réordonnancement des enregistrements au sein d’un ensemble de données. En effet, la manière dont les données sont structurées peut avoir un impact significatif sur le taux de compression obtenu. En analysant cet aspect, nous pouvons découvrir des méthodes efficaces pour optimiser l’espace de stockage et rationaliser les coûts.

Pour illustrer ce phénomène, prenons l’exemple des ensembles de données des taxis de New York. Ces ensembles contiennent une pléthore d’informations, dont les dates, heures, lieux de prise en charge et de dépose, ainsi que les montants des courses. Si nous considérons ces enregistrements dans leur état brut, nous remarquons que les données peuvent être dispersées de manière aléatoire, sans véritable schéma sous-jacent. Cependant, en réordonnant ces enregistrements par date ou par lieu, nous pourrions obtenir un impact positif sur la compression des données.

Compression par similarité : Un des éléments clés est que les algorithmes de compression fonctionnent mieux lorsque les enregistrements similaires sont regroupés. En réordonnant les enregistrements de taxis par date, par exemple, les trajets effectués dans des conditions similaires peuvent être regroupés, ce qui permet aux algorithmes de compression de mieux détecter les motifs répétitifs, réduisant ainsi l’espace de stockage requis.
Réduction de l’entropie : Le réordonnancement contribue également à la réduction de l’entropie des données. Dans une série d’enregistrements, si les valeurs sont variées et diffusées arbitrairement, cela crée une complexité qui complique la tâche des algorithmes de compression. Cependant, en organisant les données de manière à ce qu’elles suivent un ordre logique ou chronologique, nous pouvons réduire la diversité des valeurs adjacentes, facilitant ainsi la compression.
Exemples pratiques : Dans le cas des données de taxis de New York, des tests ont montré qu’en réordonnant les enregistrements selon la fréquence des courses dans certaines zones (comme Manhattan pendant certaines heures de pointe), le taux de compression pouvait augmenter de manière significative. Cela démontre la puissance de cette approche, où même un léger réordonnancement peut avoir des effets cumulés très positifs sur la compression des données.

En conclusion, l’expérimentation avec le réordonnancement des enregistrements ouvre la voie à des opportunités importantes pour optimiser les coûts de stockage dans des systèmes tels que BigQuery. De la restructuration des données aux tests fiables sur des ensembles tels que ceux des taxis de New York, il est clair que cette méthode mérite d’être explorée davantage. Pour plus de détails sur ce sujet, vous pouvez consulter l’article à l’adresse suivante : ici.

L’impact des dictionnaires et des valeurs standardisées

La compression des données est essentielle pour optimiser l’espace de stockage et réduire les coûts d’analyse, en particulier dans des environnements de données massifs comme BigQuery. Un élément souvent sous-estimé dans ce processus est l’utilisation de dictionnaires et de valeurs standardisées, qui peuvent avoir un impact significatif sur l’efficacité de la compression. En examinant l’exemple des ensembles de données issus de Google Trends, nous pouvons démontrer comment ces techniques contribuent à réduire la diversité des valeurs à encoder.

Lorsqu’il s’agit d’analyser des données de tendance, il est fréquent d’observer une récurrence de certaines valeurs. Par exemple, les termes de recherche populaires peuvent souvent être regroupés sous des catégories standardisées. En appliquant cette standardisation aux valeurs les plus courantes, on réduit le nombre d’entrées uniques nécessitant un encodage, ce qui optimise le processus de compression.

Dictionnaires de compression: Un dictionnaire de compression est un outil qui remplace les valeurs répétées par des codes ou des indices. En utilisant des dictionnaires basés sur des termes standards, BigQuery peut réduire encore plus la taille des données. Par exemple, au lieu d’encoder chaque occurrence d’un terme comme « musique », « sport », ou « technologie » séparément, on peut leur attribuer des valeurs d’index communes. Cela se traduit par des économies de coûts considérables.

Valeurs préstandardisées: En établissant un jeu de valeurs standardisées pour les requêtes d’un produit ou d’un service, on évite les variations inutiles. Par exemple, les mentions d’un produit spécifique dans différentes régions ou langues peuvent être préstandardisées pour refléter une valeur unique, ce qui améliore la cohérence des données et minimise le besoin d’encodage des variations.

En intégrant des valeurs standardisées dans le processus de gestion des données, les utilisateurs de BigQuery peuvent tirer parti de la compression en limitant le nombre de valeurs uniques que doit traiter le moteur de base de données. Cela a non seulement des implications sur l’espace de stockage, mais impacte également la rapidité des requêtes. Moins de diversité dans les valeurs signifie que les systèmes de compression peuvent fonctionner plus efficacement, ce qui conduit à un traitement des données plus rapide et à un coût total d’analyse inférieur.

Des analyses répétées sur les ensembles de données de Google Trends montrent clairement une tendance à la hausse en matière d’efficacité des coûts lorsqu’on applique des dictionnaires et des valeurs standardisées. Par conséquent, l’adoption de ces stratégies peut être une approche gagnante pour les entreprises qui cherchent à optimiser leurs dépenses sur BigQuery sans compromettre la qualité des données. Pour plus d’informations sur la réduction des coûts avec BigQuery, consultez cet article ici.

Tri des chaînes et compression

Le tri des sous-chaînes au sein de chaînes longues peut avoir un impact significatif sur l’efficacité de la compression des données. Lorsque les chaînes de texte sont stockées dans des bases de données comme BigQuery, leur compression repose sur la redondance et la structure des données. En optimisant la manière dont les chaînes sont triées avant la compression, il est possible d’améliorer le taux de compression et, par conséquent, de réduire les coûts liés au stockage et à la transmission des données.

Dans le contexte du jeu de données fluide BREATHE, qui contient des enregistrements massifs avec de longues chaînes de texte, il est crucial de prendre en compte la manière dont les chaînes sont structurées. Par exemple, considérons un cas où des chaînes similaires sont groupées ensemble. Cela favorise non seulement une meilleure compression, mais aussi une recherche plus rapide, car les éléments similaires peuvent être traités de manière groupée. En triant les chaînes par leurs sous-chaînes les plus fréquentes, on peut potentiellement réduire la taille des données à stocker, car les algorithmes de compression tels que Gzip et Snappy fonctionnent mieux lorsque la redondance est maximisée.

Un exemple concret peut être tiré d’une analyse des données textuelles d’un health tracker où les utilisateurs enregistrent leurs activités au jour le jour. En triant ces entrées par type d’activité ou par période, par exemple, il est possible d’augmenter l’efficacité des algorithmes de compression. Lorsque les sous-chaînes se répètent de manière cohérente, les algorithmes peuvent remplacer les occurrences répétées par des références beaucoup plus courtes, engendrant une réduction significative de la taille totale des données.

Un autre aspect à considérer est l’ordre dans lequel les données sont stockées. Le tri peut également avoir un impact sur la capacité de BigQuery à exploiter l’indexation et à effectuer des requêtes de manière plus efficace. En stockant des chaînes triées, les recherches sont non seulement plus rapides, mais elles consomment également moins de ressources, ce qui peut contribuer à des économies supplémentaires en termes de coût.

Il est également intéressant de noter que certaines techniques, comme le pré-traitement des données avant leur insertion dans BigQuery, peuvent s’avérer bénéfiques. Créer une routine qui trie les chaînes avant leur chargement dans la base de données peut engendrer des résultats significatifs. De plus, le traitement en différé des données existe pour optimiser les performances.

En fin de compte, l’expérimentation avec le tri des sous-chaînes peut offrir des résultats prometteurs pour améliorer la compression dans BigQuery. Cela représente une opportunité pour les développeurs et les analystes de données de comprendre l’importance cruciale de la structure de données et son influence sur l’efficacité de la compression. Pour plus d’éclaircissements sur cette approche, le visionnage de ressources comme cette vidéo peut être bénéfique : vidéo explicative. En adoptant de telles pratiques, les organisations peuvent mener à bien leur stratégie de gestion des données tout en optimisant leurs coûts.

Comparer Capacitor à d’autres formats

Comparer les ratios de compression de Capacitor avec d’autres formats populaires comme Parquet, Avro et CSV nécessite une approche systématique, en utilisant les mêmes ensembles de données pour garantir la cohérence. À ce jour, Capacitor a été reconnu pour ses performances de compression supérieures dans divers scénarios d’utilisation. Ce format, conçu spécifiquement pour BigQuery, se distingue de ses concurrents par une série d’optimisations qui augmentent non seulement l’efficacité de l’espace de stockage, mais également la vitesse d’accès aux données.

Pour commencer, examinons les formats de données traditionnels. Le CSV, par exemple, est omniprésent grâce à sa simplicité, mais sa capacité de compression est souvent inégale. En général, les fichiers CSV sont volumineux et, bien qu’ils soient faciles à manipuler, ils n’offrent pas d’optimisation lors du stockage, ce qui entraîne des coûts accrus. Par ailleurs, leur manque de schéma stricte peut compliquer les analyses lorsque des types de données variés sont mélangés.

D’autre part, les formats comme Avro et Parquet sont spécifiquement optimisés pour des cas d’utilisation analytiques. Avro, avec sa sérialisation binaire, est efficace pour le stockage de données semi-structurées, tout en permettant une bonne compression. Cependant, Parquet, conçu pour stocker des données en colonnes, a émergé comme le favori dans de nombreux environnements analytiques pour sa capacité à compresser efficacement des ensembles de données, notamment grâce à son support de compression native comme Snappy ou Gzip.

Pour avoir une vision plus précise, une série de tests a été réalisée sur les mêmes ensembles de données pour mesurer les ratios de compression. Les résultats révèlent que Capacitor surpasse systématiquement Avro et Parquet en termes de réduction de la taille des données. Avec des ratios de compression allant jusqu’à 75 %, Capacitor facilite un accès rapide aux données tout en minimisant les coûts de stockage associés. Cette performance est en grande partie due à l’optimisation des structures internes de Capacitor, qui permet d’éliminer les doublons plus efficacement que ses concurrents.

Un autre aspect à considérer est la vitesse de lecture et d’écriture des données. Bien que la compression soit essentielle pour la gestion des coûts, la performance globale lors des lectures de données doit également être prise en compte. Capacitor présente des temps de réponse très compétitifs, offrant ainsi une expérience utilisateur fluide, même sur des ensembles de données volumineux.

Lors de la mise en œuvre de Capacitor, il est crucial de prendre en compte ces différents facteurs. La combinaison d’une forte compression et d’une grande rapidité d’accès aux données en fait un choix attrayant pour les entreprises cherchant à optimiser leurs coûts et à améliorer leurs performances analytiques. Pour plus de détails sur les comparaisons de stockage et de calcul dans l’environnement BigQuery, il est recommandé de consulter cet article intéressant [ici](https://medium.com/google-cloud/efficient-bigquery-data-modeling-a-storage-and-compute-comparison-ca7f3744e467).

En synthèse, les résultats de cette analyse comparative montrent clairement que Capacitor est un format à privilégier lorsqu’il s’agit d’optimiser le stockage et de réduire les coûts dans des applications nécessitant une ingestion rapide des données.

Conclusion

En conclusion, BigQuery offre un contrôle sans précédent sur les coûts de stockage grâce à son modèle de facturation physique. L’expérimentation avec la compression des données permet de déceler des méthodes d’optimisation qui rendent l’utilisation de BigQuery non seulement économiquement viable mais également performante. Les techniques de pré-tri et de clustering démontrent des gains considérables dans les ratios de compression, tout en soulignant l’importance d’optimiser les performances des requêtes plutôt que de se concentrer uniquement sur la compression. Cleansing et standardisation des données peuvent améliorer les ratios de compression, comme l’indiquent nos expériences avec les tendances Google. Au final, les utilisateurs doivent peser les économies potentielles contre les coûts liés à la mise en œuvre de ces méthodes. Les expériences réalisées montrent que, dans la majorité des cas, BigQuery, grâce à Capacitor, surpasse les formats de fichiers conventionnels en termes de compression. Cela souligne l’importance de continuer à explorer et à adapter les approches de gestion des données pour maximiser les performances analytiques et minimiser les coûts de stockage.

FAQ

[object Object],[object Object],[object Object],[object Object],[object Object]

Franck Scandolera

⭐ Analytics engineer, Data Analyst et Automatisation IA indépendant ⭐

Ref clients : Logis Hôtel, Yelloh Village, BazarChic, Fédération Football Français, Texdecor…

Mon terrain de jeu :

Data Analyst & Analytics engineering : tracking avancé (GTM server, e-commerce, CAPI, RGPD), entrepôt de données (BigQuery, Snowflake, PostgreSQL, ClickHouse), modèles (Airflow, dbt, Dataform), dashboards décisionnels (Looker, Power BI, Metabase, SQL, Python).
Automatisation IA des taches Data, Marketing, RH, compta etc : conception de workflows intelligents robustes (n8n, App Script, scraping) connectés aux API de vos outils et LLM (OpenAI, Mistral, Claude…).
Engineering IA pour créer des applications et agent IA sur mesure : intégration de LLM (OpenAI, Mistral…), RAG, assistants métier, génération de documents complexes, APIs, backends Node.js/Python.