Big Data Analytics, tutte le prerogative di uno strumento di successo

Dalle “5V” dei Big Data alle diverse tipologie dei dati raccolti e utilizzati, dalle varie fasi del trattamento alle differenze con altre tecnologie affini. Ecco una radiografia del Big Data Analytics

Il termine Big Data, nella sua accezione più pura, si riferisce proprio all’enorme quantità di informazioni che ogni individuo, nel costante utilizzo dei servizi digitali, crea con le sue interazioni e azioni. Ma la vera rivoluzione non consiste solo nel numero di dati che si producono, bensì nella rapidità con la quale gli stessi possono essere elaborati e analizzati dagli attuali algoritmi, per mezzo di avanzate capacità computazionali, al fine di creare dei legami funzionali tra i dati e prevedere in che direzione potrà dirigersi la volontà di classi di individui. L’attività di elaborazione dei dati prende il nome di Big Data Analytics e consente alle società che la adottano di acquisire un vantaggio sul mercato.

Possiamo senza alcun dubbio affermare che, attualmente, fare affidamento a sistemi di Big Data Analytics consente alle aziende di snellire e semplificare la messa in atto di strategie commerciali, organizzative e gestionali efficaci. Tuttavia, il tessuto imprenditoriale nazionale, essendo prevalentemente caratterizzato da Pmi, non agevola l’implementazione di tali sistemi, essendo in primis le infrastrutture di immagazzinamento dei dati ancora tendenzialmente obsolete, nonostante le agevolazioni fornite da Industria 4.0.

Vediamo quali sono le principali peculiarità dello strumento del Big Data.

Indice degli argomenti

Le caratteristiche del Big Data: le “5 V”

Le caratteristiche tipiche di tali gruppi di dati sono essenzialmente tre, definiti anche come le “3V”:

Varietà: i dati acquisiti e analizzati sono del tutto eterogenei, per fonte, formato e contenuto, e per tale ragione maggiormente rispondenti alle mille sfaccettature del mercato reale;
Valore: rappresenta la capacità dei dati, ove correttamente analizzati, di creare valore aggiunto in quanto consentono all’azienda che ne fa correttamente uso di indirizzarne le azioni in linea con le richieste del mercato;
Volume: come già anticipato, rappresenta la sempre maggiore quantità di dati che sono immessi nei sistemi digitali e possono essere, dunque, oggetto di analisi e studio.

Di recente, nuove “V” sono state aggiunte a rappresentazione di ulteriori tratti tipici dei sistemi di Big Data, che permettono di comprenderne al meglio il funzionamento:

Veracità: indica la autenticità dei dati, che a sua volta influisce sul rapporto tra qualità dei dati immagazzinati e accuratezza dell’analisi;
Variabilità: la capacità dei dati raccolti di cambiare il proprio significato e la propria importanza nel corso del tempo, rendendo più complesso il processo di corretta selezione e gestione efficace dei dati.

Tuttavia, affinché si possa correttamente parlare di Big Data occorre che il volume dei dati acquisito e immagazzinato dalle varie fonti sia anche proporzionalmente elaborato: a una enorme quantità di dati e a un rapidissimo flusso di informazioni, dunque, deve parallelamente affiancarsi una altissima velocità di elaborazione degli stessi al secondo. Tale finalità è raggiungibile soltanto attraverso sistemi che alternino alla fase di analisi dei dati, delle fasi di verifica e controllo della qualità e veridicità degli stessi, allo scopo di non alterare la rappresentazione finale fornita dal software utilizzato.

A oggi, i dati prodotti dagli utenti sono talmente elevati da arrivare a creare sistemi di Big Data nell’ordine di misura degli zettabyte (ossia miliardi di terabyte) di dati. Tra questi gruppi di dati rientrano, ad esempio, l’enorme mole di informazioni prodotta da sensori, sistemi interconnessi, dati satellitari, e altro (un esempio classico sono i sistemi IoT – Internet of Things, che per mezzo di una serie di microfoni, sensori e altri dispositivi possono arrivare a produrre talmente tanti dati da fornire una rappresentazione quasi perfetta della realtà nella quale si trovano).

Big Data, un po’ di storia

Si inizia a parlare di Business Intelligence per la prima volta nel 1865: tale strategia di analisi strutturata delle informazioni raccolte sul campo, sebbene estremamente primitiva, consentiva di ottenere un vantaggio sul mercato rispetto ai propri concorrenti.

Nel 1880, uno dei primi sistemi di raccolta, classificazione e organizzazione dei dati è elaborato dall’ufficio di censimento Usa, al fine di agevolare il processo di catalogazione dei dati raccolti (da 10 anni, si passava a un tempo di soli 3 mesi). Tale grezzo sistema di computazione, creato da Herman Hollerith, getta le basi per la fondazione della odierna IBM, da tempo immemore considerata uno dei leader indiscussi nella creazione di software di gestione e analisi dei dati.

Si arriva poi, nel 1965, alla creazione dei primi data center statunitensi, cui fa seguito la nascita del primo modello di gestione relazione dei dati contenuti nei database. Tale modello di gestione, a fondamento della quasi totalità degli attuali algoritmi relazionali, organizzava i dati in modo piuttosto “tradizionale”, ovvero in tabelle i cui dati potevano essere agevolmente individuati e collegati da specifiche chiavi di lettura (come, ad esempio, “Informazioni prodotto”, “Prodotti venduti”).

Con la nascita di Internet, nel 1991, si apre, per tutte le aziende, la possibilità di accedere, a basso costo e con elevata semplicità, a una quantità di dati ben maggiore di quella fino ad allora conosciuta, a livello globale. Da questo momento, la crescita tecnologica è rapida e progressiva e già nel 1999, pochi anni dopo, si usa il termine Big Data e si inizia a parlare di Internet delle cose, di oggetti connessi a internet che possano veicolare e trasmettere miliardi di dati, divenuti poi realtà.

Nell’ultimo decennio, la crescita spropositata del web e dei suoi servizi ha portato il McKinsey Global Institute, istituto di ricerca nel settore dell’economia globale, a fornire la attuale definizione di Big Data: “Un sistema di Big Data si riferisce a dataset la cui taglia/volume è talmente grande che eccede la capacità dei sistemi di database relazionali di catturare, immagazzinare, gestire e analizzare”.

Le diverse tipologie dei dati raccolti e utilizzati

I dati raccolti e utilizzati dagli algoritmi possono essere raggruppati sostanzialmente in tre tipologie:

dati strutturati: dati inseriti manualmente e conservati in database organizzati secondo precisi schemi e tabelle. Un esempio classico sono le informazioni contenute nei codici Html delle pagine web, i quali forniscono una serie di dati inerenti al sito, le pagine facenti parte dello stesso e il loro contenuto, al fine di aiutare i motori di ricerca semantici a veicolare correttamente l’utenza verso un determinato sito sulla base delle richieste degli utenti ed agevolare, così, la navigazione sul web. Sono analizzati per il tramite dei c.d. modelli di gestione relazionali, a loro volta strutturati secondo vincoli e schemi ben precisi.
dati destrutturati: contrariamente ai dati strutturati, consistono tipicamente in file (testi, immagini, video, audio, o altro). Non essendo dati organizzati, la loro analisi risulta più complessa, sebbene non impossibile: tuttavia, essendo maggiormente rappresentativi della realtà, la loro analisi consente di intervenire in modo concreto ed efficace sui processi interni e sui servizi che si forniscono alla clientela. Le aziende che utilizzano tali categorie di dati, necessitano di algoritmi che siano in grado di estrarre valore da informazioni estremamente eterogenee: ciò significa che sarà necessario creare dei sistemi di valutazione dell’importanza del dato analizzato, distinguendo le informazioni rilevanti da quelle irrilevanti. Sono analizzati per il tramite dei c.d. modelli di information retrieval (tradotto letteralmente, recupero delle informazioni);
dati semi-strutturati: consistono in insiemi di dati “misti”, che possiedono caratteristiche proprie sia dei dati strutturati sia di quelli destrutturati. Un esempio è individuabile nel file Xml, privo di vincoli strutturali (come è invece l’Html, nel quale l’inserimento non è libero) ma, allo stesso modo, dotato di sistemi che organizzano le informazioni inserite nello stesso secondo degli schemi prefissati che ne orientano la logica e aumentano l’interoperabilità. Possono essere analizzati sia per il tramite di modelli relazionali, sia attraverso modelli di information retrieval.

Le varie fasi del trattamento dei dati

Il processo di acquisizione, elaborazione, analisi e conservazione dei Big Data è riassumibile fondamentalmente in due macro-fasi:

Big Data Management: si riassume in questa fase tutta l’attività posta in essere dalle aziende per acquisire i dati, memorizzarli nei database e preparare i sistemi informatici all’elaborazione e al recupero degli stessi;
Big Data Analytics: la seconda fase di concreta analisi e acquisizione di informazioni utili dal dataset preliminarmente costituito. Lo scopo finale di tale fase è di utilizzarne le risultanze per costruire dei database strutturati che consentano di porre in essere azioni mirate sulla base della rappresentazione della realtà fornita dall’elaborazione dei dati.

Esistono molteplici strumenti e modelli di analisi e gestione dei dati. Fra questi, è possibile individuare cinque classi di Big Data Analytics:

Analisi descrittiva (descriptive analytics): consente di fornire una descrizione non solo della situazione attuale dei processi aziendali e/o delle aree funzionali esaminati, ma anche della situazione passata, al fine di fornire una rappresentazione, anche grafica, immediata e sintetica degli indicatori fondamentali di business, quali i livelli di performance o le criticità/potenzialità dei processi organizzativi e gestionali dell’azienda. L’interazione con questo tipo di sistemi è immediata e semplificata, per tale motivo risulta di larga diffusione;
Analisi predittiva (predictive analytics): effettua una analisi dei dati mirata per fornire precise risposte a domande previsionali, sulla base di tecniche matematiche che sfruttano i c.d. modelli predittivi, di regressione e di forecasting. Le principali tecniche che consentono di svolgere una analisi predittiva sono il Data Mining e il Machine Learning.
Analisi prescrittiva (prescriptive analytics): associa l’analisi dei dati alla capacità di elaborazione di soluzioni operative/strategiche, combinando metodi di analisi descrittiva a metodi di analisi predittiva. L’efficacia di questi strumenti è vincolata, tuttavia, alla capacità delle organizzazioni di porre le giuste domande e intraprendere le giuste azioni in risposta alle soluzioni fornite dall’algoritmo;
Analisi diagnostica (diagnostic analytics): svolge analisi diagnostiche per comprendere la causa scatenante di determinati eventi e comportamenti, per il tramite di tecniche come Data Discovery e Correlazioni;
Analisi automatizzata (automated analytics): associa all’analisi dei dati la diretta implementazione delle azioni proposte.

Quali differenze con i sistemi di Business Intelligence

Ciò che ha accresciuto la popolarità dei sistemi basati sui Big Data è anche il fatto di aver apportato delle migliorie rispetto ai più tradizionali sistemi di Business intelligence:

la Business intelligence, infatti, utilizza metodi matematici fondati sulla statistica descrittiva con dati ad alta densità d’informazione per effettuare delle misurazioni. Ne deriva una minore capacità del sistema di adattarsi alle esigenze del mercato, rimanendo peraltro contenuto entro dataset limitati, dati puliti e modelli semplici;
le tecnologie fondate sui Big Data, invece, utilizzano metodi matematici basati sulla statistica inferenziale e su concetti di identificazione di sistemi non lineari, per creare dei rapporti e delle connessioni eterogenee all’interno di enormi insiemi di dati, consentendo di utilizzare dataset non correlati tra loro, dati grezzi e modelli predittivi complessi.