Analisi predittiva: cos’è, a cosa serve, come farla e vantaggi

L’analisi predittiva consiste nell’utilizzare dati, algoritmi statistici e tecniche di machine learning per individuare la probabilità di risultati futuri basandosi sui dati storici

Pubblicato il 22 Giu 2021

Fabiano Sileo

consulente Business Intelligence SAP BW e SAP BW4/HANA

Statistica bayesana e data analytics
La Business Intelligence ha vissuto in questi anni una evoluzione che l’ha trasformata da strumento per l’analisi retrospettiva a mezzo per l’analisi sempre più real-time e predittiva. Trasformare la BI in uno strumento predittivo significa arrivare a spiegare non solo come un fenomeno (ad esempio le dinamiche di vendita) si è verificato in passato ma come continua a evolvere e come probabilmente si concretizzerà in futuro. Dai dati disponibili deve essere cioè ricavato un modello del fenomeno che si sta analizzando, non semplicemente uno storico.

Cos’è l’analisi predittiva

Partiamo dalle basi, iniziamo con una definizione.

“L’analisi predittiva è un termine che comprende una varietà di tecniche statistiche della modellazione predittiva, apprendimento automatico e data mining per analizzare fatti storici e attuali e fornire predizioni sul futuro o su eventi sconosciuti.” (Wikipedia).

Da questa definizione possiamo estrarre alcuni elementi importanti:

  • tecniche statistiche per modelli di apprendimento automatico e data mining
  • analizzare dati storici per estrarre predizioni sul futuro

Possiamo quindi dire che:

L’analisi predittiva consiste nell’utilizzare dati, algoritmi statistici e tecniche di machine learning per individuare la probabilità di risultati futuri basandosi sui dati storici. L’obiettivo è andare oltre la comprensione di cosa è successo per arrivare a una migliore valutazione di quello che accadrà in futuro.

In questa frase abbiamo il senso pratico e l’importanza delle analisi predittive. Partiamo dall’obiettivo che è quello di andare oltre le analisi dei dati classiche della Business Intelligence. Qui non solo si vuole conoscere e capire il passato e il presente (grazie a report real time), ma si vuole cercare di anticipare il futuro.

Ovviamente in questo salto ci spostiamo dal campo del noto e del certo al campo del probabile ed è per questo che si utilizzano modelli statistici e probabilistici per determinare cosa verosimilmente potrebbe accadere.

Abbiamo bisogno quindi di strumenti e tecniche diverse da quelle che utilizziamo per studiare il noto (non ci basta più il nostro DWH), e dobbiamo cambiare obiettivo perché non vogliamo più analizzare un fatto provare a estrarre pattern comuni tra dati a cui affidare una probabilità.

Rimane però una costante, l’importanza dei dati, della loro analisi e della capacità di estrarli, aggregarli e manipolarli.

Possiamo dire che ci stiamo spostando a un livello di Business Intelligence più evoluto.

Da analisi descrittiva ad analisi predittiva (e prescrittiva)

L’analisi descrittiva è la fase preliminare della data analysis, e risponde alla domanda “Che cosa è successo?”. L’analisi descrittiva precede l’analisi diagnostica (“Perché è successo?”), che a sua volta è seguita dall’analisi predittiva (“Che cosa potrebbe succedere nel futuro?”) e dall’analisi prescrittiva (una combinazione di analisi descrittiva e analisi predittiva che risponde alla domanda “Come dovremmo reagire a potenziali eventi del futuro?”).

Mentre i modelli di analisi predittiva si basano su dati storici per determinare le probabilità che un determinato evento si realizzi nel futuro, i modelli di analisi descrittiva si basano su dati storici per determinare come una unità specifica risponde a un set di variabili.

La differenza tra l’analisi prescrittiva e l’analisi predittiva

L’analisi prescrittiva è una forma più avanzata e astratta del data analytics, che permette agli users di creare scenari ipotetici e di estrapolare dei risultati basati su delle variabili. Si tratta di una combinazione del processo di analisi descrittiva, che fornisce degli insights su “cosa è successo”, e il processo di analisi predittiva, “che fornisce degli insight su “cosa potrebbe succedere”, e dà la possibilità a chi la utilizza di sapere in anticipo cosa succederà, quando succederà e perché succederà.

L’analisi prescrittiva si basa largamente sul machine learning, con lo scopo di inserire continuamente nuovi dati, analizzarli e comprenderli senza aver bisogno dell’intervento umano, allo stesso tempo migliorando l’accuratezza delle previsioni e suggerendo nuovi modi per sfruttare al meglio un’opportunità futura o per mitigare un rischio.

Storia della BI: dall’OLTP alle analisi predittive

I processi di analisi dei dati hanno subito numerose trasformazioni che evidenziano un processo di continua evoluzione delle tecniche e delle metodologie impiegate. Seguiamo il percorso evolutivo dell’analisi dei dati in azienda, capendo come da semplici query su tabelle relazionali si è passati a sistemi di business intelligence (BI) e come gli strumenti di predictive analytics rappresentino oggi la naturale estensione della BI.

Dall’OLT alla business intelligence

Già a partire dagli anni Sessanta, le tecnologie disponibili consentivano la raccolta dei dati riguardanti i processi aziendali su supporti magnetici quali nastri e dischi.

Anni Settanta

Le analisi che potevano essere svolte erano statiche e limitate a estrazioni dei dati di consuntivo. Le analisi erano svolte su grandezze aggregate: per esempio era possibile conoscere l’ammontare delle vendite dell’ultimo semestre o dell’ultimo anno.

Anni Ottanta

Con l’avvento dei database relazionali e del linguaggio SQL, negli anni Ottanta, l’analisi dei dati assume una certa dinamicità: l’SQL consente di estrarre in maniera semplice i dati, sia in modo aggregato, sia a livello di massimo dettaglio. Le attività di analisi avvengono sulle basi dati operazionali, ovvero quelle su cui è registrata l’attività operativa giornaliera dell’azienda.

Nella migliore delle ipotesi, ciascuno degli applicativi appena descritti, è semplicemente un modulo di un software ERP (Enterprise Resource Planning), acquistato “chiavi in mano”

Purtroppo, nella maggioranza dei casi, accade che non vi sia un’unica applicazione che gestisce le attività del livello operativo. Ci si trova spesso di fronte ad una pletora di software ognuno dei quali è basato su tecnologie differenti (database relazionali, basi dati non relazionali) e su prodotti di vendor diversi. Un altro aspetto da tenere in considerazione riguarda il disegno delle basi dati sottostanti agli applicativi operazionali. Esse sono di tipo OLTP (On Line Transaction Processing), il loro modello dati è fortemente normalizzato per favorire non tanto le letture e l’analisi di grandi quantità di record, quanto le attività transazionali (inserimenti, cancellazioni, modifiche dei dati). La normalizzazione, se da un lato favorisce l’attività transazionale, dall’altro incrementa notevolmente il numero di tabelle utilizzate per contenerli. Per ricostruire un formato tabellare denormalizzato, più adatto a essere letto da un utente finale, occorreranno diverse operazioni di JOIN, che complicano l’attività di estrazione dei dati. Oltre a quanto detto sopra, bisogna considerare che solitamente i sistemi operazionali offrono una limitata profondità storica dei dati

Anni Novanta

L’insieme dei fattori appena descritti rende piuttosto difficoltosa l’analisi dei dati effettuata direttamente sulle fonti operazionali. È per questo motivo che, a partire dagli anni Novanta, si è cominciato a creare database disegnati appositamente per le analisi e ad integrare in essi i dati provenienti dai sistemi operazionali. Nasce così il data warehouse, un database che contiene dati integrati, consistenti e certificati afferenti tutti i processi di business dell’azienda e che costituisce il punto di partenza per le attività analitiche del sistema di Business Intelligence (BI). Attraverso elaborazioni, analisi o aggregazioni dei dati, ne permette la trasformazione in informazioni, la loro conservazione, reperibilità e presentazione in una forma semplice, flessibile ed efficace, tale da costituire un supporto alle decisioni strategiche, tattiche ed operative.

Con l’evoluzione dei sistemi di BI si è passati da analisi effettuate sul data warehouse tramite query SQL a basi dati multidimensionali che fondono dati e metadati, consentendo all’analista di fare a meno di conoscenze tecniche relative ai database e di concentrarsi sulle problematiche di business. La base dati OLAP consiste in una struttura multidimensionale chiamata cubo.

Dalla business intelligence ai sistemi di predictive analytics

La nascita dei sistemi OLAP (On Line Analytical Processing) ha reso semplice la navigazione dei dati attraverso operazioni di drill down o drill-up. Tuttavia, si tratta sempre di una visione storica, che consente soltanto una valutazione a consuntivo di ciò che è accaduto nel passato, oppure di ciò che sta accadendo ora.

Più di recente ha cominciato ad affermarsi la necessità di effettuare analisi previsionali, per anticipare gli eventi e ottenere un vantaggio di business. Tali tecniche di analisi, prendono il nome di data mining, poiché consentono di “scavare” nei dati ed estrarre informazioni, pattern e relazioni non immediatamente identificabili e non note a priori. L’utilizzo delle tecniche di data mining volte all’impiego dei pattern a fini previsionali è chiamato predictive analytics.

Gli strumenti di predictive analytics devono essere inseriti in un processo che presuppone le seguenti fasi:

  1. comprensione del business
  2. utilizzo del modello
  3. test e valutazione del modello
  4. creazione di un modello predittivo
  5. preparazione / pulizia dei dati
  6. comprensione dei dati

Come si noterà, i prime tre punti fanno già parte dell’implementazione di un sistema di business intelligence. Detto in altre parole, la presenza di un sistema di BI, che presuppone la presenza di un data warehouse con dati puliti e certificati, costituisce un’ottima base di partenza per l’implementazione di modelli predittivi.

Le tecniche di predictive analytics rappresentano dunque la naturale evoluzione dei sistemi di business intelligence: da un lato le aziende che hanno già un sistema di BI riescono meglio a comprendere le potenzialità offerte dall’implementazione di tali tecniche; in più vi è la consapevolezza di essere a metà dall’opera, avendo a disposizione una base dati aggiornata, pulita e certificata.

La differenza tra la Business Intelligence e l’analisi predittiva

Obiettivi della BI e delle analisi predittive

La differenza fondamentale tra la business intelligence e l’analisi predittiva risiede nella domanda a cui esse danno risposta: la business intelligence risponde a “Cosa succederà adesso?” e l’analisi predittiva risponde a “Cosa succederà nel futuro?”.

L’obiettivo della business intelligence è identificare dei pattern nei dati storici e attuali per far sì che le aziende possano trarre le proprie conclusioni dall’analisi dei dati.

I software di analisi predittiva, che hanno un ruolo complementare in diversi sistemi di business intelligence, costruiscono dei modelli analitici a livello individuale per ogni diverso business e identificano dei comportamenti e delle tendenze che possono essere utilizzate per prevedere la probabilità che si verifichino particolari eventi futuri. La business intelligence ricerca e identifica dei trend a macro-livello per eliminare problemi e inefficienze.

La Business Intelligence si posiziona perfettamente nel mezzo tra analisi descrittiva e diagnostica in quanto utilizza i dati per capire cosa sia successo e perché. E rimane lo zoccolo duro su cui basare le analisi predittive in quanto si occupa (e continuerà ad occuparsi) dell’estrazione e normalizzazione del dato che poi può esser “dato in pasto” ai modelli predittivi.

analisi predittiva

Le predictive analytics e la BI sono in competizione tra loro?

I due tipi di analisi dati non sono in alcun modo in contrasto tra loro, come in uno scontro tra passato e futuro, ma anzi collaborano e lavorano all’unisono svolgendo ruoli differenti che si intersecano e possono interagire per fornirsi reciprocamente dati e informazioni. Non è assolutamente raro, infatti, che gli strumenti di machine learning estraggano dati dal Data warehouse da elaborare e alla fine dell’elaborazione passino la probabilità calcolata nuovamente al DWH per aggiungere informazioni alle tabelle del data base stesso.

A riprova di questo, si riscontra una tendenza nuovo nel mondo della business intelligence. Molti software di più (come SAP Analytics Cloud, Power BI, Tableau ecc) hanno iniziato a implementare funzionalità di AI per permettere di coniugare analisi di BI e di predictive analytics nello stesso strumento.

Ovviamente si tratta di primi approcci a questo “nuovo mondo” e non mettono, ancora, a disposizione tutte le funzionalità e gli algoritmi di Machine Learning ma è sicuramente un indizio significativo sulla direzione che si sta intraprendendo e soprattutto sulla necessità di rendere compatibili e collaborative le analisi su dati storici e su previsioni future.

Un esempio classico

Un esempio classico di questo interscambio di informazioni potrebbe essere rappresentato da un DWH che raccoglie le informazioni (anagrafiche e transazionali) della base dei clienti tenendo traccia, ad esempio, della durata di vita del cliente, del numero e dell’importo delle transazioni, della situazione creditizia del singolo cliente corredate da tutte le informazioni anagrafiche raccolte dall’organizzazione. Tali dati vengono raccolti e strutturati all’interno di una tabella (per semplificare l’esempio) del DWH.

Con tale data set è possibile ipotizzare di costruire un algoritmo di machine learning (ad esempio, un albero decisionale) per indagare sulle principali motivazioni di churn dei clienti, ossia sui motivi che portano più spesso i clienti ad abbandonare l’azienda.

Questo algoritmo potrebbe essere implementato su un software differente e specifico di ML (come ad esempio Knime, phyton, R, Amazon SageMaker ecc).  Si partirebbe con l’estrazione delle informazioni dal DWH, poi si passerebbe all’elaborazione dell’algoritmo e alla restituzione al DWH della medesima tabellina con l’aggiunta di una colonna, che ad esempio mostri la probabilità % di churn da parte del cliente.

Valuta la qualità di questo articolo

La tua opinione è importante per noi!

Articoli correlati

Articolo 1 di 2