Big data

BigQuery: cos’è e come funziona

La piattaforma analitica di big data analytics basata su cloud, permette di processare grandi quantità di data set, sfruttando query simili a SQL. Obiettivo: innovare con maggiore efficacia, accelerando il time-to-insight. Ecco come

Pubblicato il 26 Apr 2023

Statistica bayesiana: cos’è e come aiuta il processo decisionale

Google BigQuery è una piattaforma analitica di big data analytics basata su cloud. BigQuery permette di processare grandi quantità di data set in modalità solo lettura usando query simili a SQL, per innovare meglio accelerando il time-to-insight. Ecco cos’è e come funziona. 

Big query: cos'è e come funziona

Cos’è BigQuery

BigQuery è un servizio web di big data analytics basato su cloud di Google dedicato alla misurazione avanzato. Progettato per l’importazione e l’archiviazione di grandi moli di dati, aiuta sia i data scientist che gli sviluppatori.

Un data warehouse aziendale, totalmente gestito, permette la gestione e l’analisi dei dati con funzionalità integrate come machine learning, business intelligence e analisi geospaziale.

Google ha creato BigQuery per analizzare dati, nell’ordine di miliardi di righe, usando sintassi in stile SQL, grazie all’architettura serverless. Consente di offrire risposte alle domande della propria organizzazione senza necessità di gestione di infrastrutture. Fiore all’occhiello è il motore di analisi che, grazie alla scalabilità e distribuito, permette l’esecuzione di query su Petabyte e molto velocemente.

Google Cloud Ready – BigQuery rappresenta un’iniziativa di convalida delle integrazioni dei partner, con lo scopo di aumentare la fiducia dei clienti verso le integrazioni con BigQuery.

Il processo prevede tre fasi:

  • si effettuano test di integrazione dei dati e i risultati si mettono a confronto con i benchmark,
  • si fa collaboration stretta con i partner per risolvere eventuali divari
  • si ottimizza la documentazione riservata ai clienti.

Understanding jobs & the reservation model in BigQuery

Understanding jobs & the reservation model in BigQuery

Guarda questo video su YouTube

Come funziona BigQuery

L’infrastruttura serverless di BigQuery permette di focalizzarsi sui dati invece che sulla gestione delle risorse; esso, infatti, coniuga un data warehouse basato su cloud con strumenti di analisi.

BigQuery presenta i dati in tabelle, righe e colonne. Effettua l’archiviazione dei dati grazie a un formato di archiviazione a colonne messo a punto per le query analitiche, replicandola in automatico in più località per aumentare la disponibilità. BigQuery supporta in maniera completa la semantica delle transazioni del database.

Le analisi descrittive e prescrittive comprendono business intelligence, analisi mirate e geospaziali, e machine learning. L’esecuzione delle query è prevista sui dati archiviati in BigQuery o sui dati in cui si trovano con tabelle esterne o query federate, compresi Cloud Storage, Spanner, Bigtable o fogli Google archiviati su Google Drive.

L’amministrazione prevede una gestione centralizzata delle risorse di calcolo e dei dati. Identity and Access Management (IAM) permette la protezione delle risorse affidandola al modello di accesso presente in Google Cloud. Le best practice per la sicurezza di Google Cloud offrono un approccio solido ma versatile, che spazia alla classica sicurezza del perimetro o una cyber difesa in profondità, più complessa e granulare.

BigQuery esegue azioni, definite job, al fine di caricare, effettuare l’export, l’esecuzione di query o la copia dei dati.

Una volta esplorate le risorse e sviluppate le API, la sintassi DML, DDL e user-defined (UDF) promuove il data management e permette la trasformazione dei dati BigQuery.

I professionisti dei dati possono svolgere query su dati BigQuery utilizzando quelle interattive o batch via sintassi delle query SQL. Funzioni, espressioni e operatori SQL di riferimento permettono così di eseguire query sui dati.

Looker, Looker Studio e Fogli Google consentono di usare gli strumenti per l’analisi e la visualizzazione dei dati BigQuery. L’analisi geospaziale permette invece di analizzare e visualizzare i dati geospaziali tramite i sistemi di informazione geografica.

Big query: cos'è e come funziona

Prestazioni ottimizzate

L’ottimizzazione delle performance delle query prevede:

  • tabelle partizionate, pulendo quelle di grandi dimensioni sulla base di intervalli di tempo o interi;
  • materializzazione visite, dove le visualizzazioni memorizzate nella cache permettono di ottimizzare le query o di offrire risultati permanenti;
  • BI Engine, attraverso il servizio di analisi in memoria rapido di BigQuery.

Compiti

Per usare gli slot assegnati occorre attribuire a una prenotazione uno o più progetti, cartelle o organizzazioni. Ciascun livello nella gerarchia delle risorse ottiene in eredità l’attribuzione dal livello superiore. Se un progetto o una cartella non sono assegnati, l’assegnazione della cartella o dell’organizzazione padre, dunque, viene ereditata.

L’avvio di un job da un progetto assegnato a una prenotazione sfrutta i relativi slot. Se un progetto non è assegnato o ereditato, i job del progetto prevedono i prezzi on demand.

In caso di assenza di un’assegnazione, i progetti sono assegnati a None tramite i prezzi on demand. Il caso più comune prevede l’assegnazione di un’organizzazione alla prenotazione e la disattivazione di progetti o cartelle dalla prenotazione, assegnandoli a None.

Creando un’assegnazione, bisogna specificarne la tipologia:

  • query (per questi compiti, comprese le query SQL, DDL, DML e BigQuery ML);
  • pipeline (per i compiti di caricamento ed estrazione);
  • background (per l’esecuzione dei compiti di gestione dell’indice);
  • ML External (per le query BigQuery ML che usano servizi esterni a BigQuery).

Quanto costa BigQuery

BigQuery permette operazioni e un livello d’uso gratuiti, ma consente di scegliere fra vari piani di impegno: mensile, annuale, impegno di tre anni o slot flessibili di 60 secondi. I prezzi differiscono principalmente per il costo e la durata minima dell’impegno. Le prenotazioni permettono il passaggio dai prezzi on demand ai costi fissi.

Due i modelli di prezzi di calcolo: on demand o basati sulla capacità.

I prezzi on demand permettono di pagare per i dati analizzati dalle query. Il numero di byte elaborati da ciascuna query determinano la capacità di elaborazione delle query fissa per iniziativa e il costo.

I prezzi basati sulla capacità consentono, invece, di pagare per la capacità di elaborazione delle query ad hoc o con scalabilità automatica, misurata in slot, per un certo periodo di tempo. Più query riescono a condividere la medesima capacità slot. Uno slot BigQuery rappresenta una CPU virtuale che BigQuery usa per l’esecuzione di query SQL. BigQuery è in grado di calcolare in automatico quanti slot richiede ogni query. Il loro numero dipende dalla dimensione e dalla complessità della query.

Integrazione con Google Analytics 4

Google Analytics 4, lo strumento più diffuso al mondo per analizzare i dati provenienti da siti web e eCommerce, è maggiormente integrato con Google Ads e misura le interazioni degli utenti sia sul Web che nelle app (come YouTube), consentendo di segmentare il pubblico in maniera sempre più personalizzata e mirata per le campagne di advertising di lead generation ed eCommerce.

Nel primo passaggio, nella console API di Google è possibile creare un progetto e si attiva BigQuery. Senza costi aggiuntivi, si prepara il progetto per BigQuery Export. Una volta completati i primi due step, è possibile abilitare BigQuery Export dalla pagina Amministrazione di Google Analytics, collegando una proprietà Google Analytics 4 a BigQuery.

Dopo aver collegato Analytics e BigQuery, si crea un account di servizio (xy@system.gserviceaccount.com). Bisogna verificare l’aggiunta di un account come membro del progetto e il ruolo di utente BigQuery (roles/bigquery.user).

Big query: cos'è e come funziona

Vantaggi nell’utilizzo di Big query

I benefici riguardano la possibilità di gestire e analizzare i dati con funzionalità integrate come business intelligence, machine learning e analisi geospaziale.

BigQuery è in grado di trarre il massimo dalla versatilità, riuscendo a dividere il Compute Engine, dedicato all’analisi dei dati, rispetto alle scelte di archiviazione.

Inoltre, è possibile effettuare l’archiviazione e analisi dei dati in BigQuery o sfruttare BigQuery per svolgere una valutazione dove si trovano. Le query federate permettono di leggere i dati da sorgenti esterne. Il flusso, invece, assicura il supporto ad aggiornamenti continui dei dati. BigQuery ML e BI Engine sono strumenti in grado di garantire l’analisi e la comprensione dei dati.

La soluzione ha come interfaccia quella della console di Google Cloud e la riga di comando di BigQuery. Sviluppatori e data scientist possono sfruttare le librerie client grazie a una programmazione familiare, tra cui Python, JavaScript, Java e Go, nonché l’API REST e l’API RPC di BigQuery per la trasformazione dei data e data management. I driver ODBC e JDBC permettono di interagire con le applicazioni presenti, a partire da tool e utility di terze parti.

Nel ruolo di data analyst, data scientist, data engineer, amministratore di data warehouse, la documentazione di BigQuery ML agevola la scoperta, l’implementazione e la gestione degli strumenti per i dati per aiutare il processo critico di data-making in ambito enterprise.

Big query: cos'è e come funziona

I benefici delle prenotazioni

Le prenotazioni BigQuery offrono i seguenti vantaggi: prevedibilità, versatilità, possibilità di gestire il carico di lavoro, acquisti centralizzati.

I prezzi, che si basano sulla capacità, sono in grado di mantenere i costi prevedibili e coerenti. Il budget massimo può essere reso noto in anticipo. La fruizione degli impegni relativi agli slot promettono una tariffa scontata per fornire capacità continua ad hoc.

Data analyst e sviluppatori possono scegliere la quantità di capacità da allocare a un carico di lavoro. Oppure BigQuery può scalare in automatico la capacità a seconda dei requisiti del carico di lavoro. L’addebito dei costi per gli slot usati prevede un aumento di almeno 1 secondo.

Ciascun carico di lavoro prevede un insieme di risorse di calcolo BigQuery disponibili per l’uso. Allo stesso tempo, se un carico di lavoro non sfrutta tutti i suoi slot, avviene in automatico la condivisione di quelli inutilizzati tra gli altri carichi di lavoro.

Infine è possibile l’acquisto e l’allocazione di slot per l’intera organizzazione, senza doverne comprare uno per ogni progetto che usa BigQuery.

Valuta la qualità di questo articolo

La tua opinione è importante per noi!

Articoli correlati

Articolo 1 di 3