Data mining, perché le aziende oggi non possono farne a meno

Estrarre dati utili da un insieme di dati grezzi, o Big Data, grazie a sistemi di Machine learning, è una attività che può potenziare sensibilmente le campagne di marketing, e non solo

Il Data mining (in italiano estrazione di dati) lo possiamo intendere come un insieme di tecniche e processi atti all’estrazione di un considerevole numero di informazioni da un altrettanto considerevole numero di dati “grezzi”, cosiddetti Big Data. E in un certo senso anche la statistica (statistics) lavora verso questo “obiettivo”. Anche se possono sovrapporsi, sono due tecniche molto diverse che richiedono competenze diverse. La Statistica costituisce la parte centrale del Data Mining, che copre l’intero processo di analisi dei dati (Data analysis). La statistica aiuta a identificare i modelli che aiutano ulteriormente a identificare le differenze tra il rumore casuale e i risultati significativi, fornendo una teoria per la stima delle probabilità delle previsioni e altro ancora. In questo modo, sia il Data mining che la statistica, come tecniche di analisi dei dati, aiutano a migliorare il processo decisionale. Le tecnologie odierne hanno permesso l’estrazione automatica di informazioni nascoste da database, insieme a una confluenza di varie altre “frontiere” o campi – oltre al Machine learning – come la statistica (in esame), l’Intelligenza artificiale, la gestione dei database, il riconoscimento di modelli e la visualizzazione di dati.

Indice degli argomenti

La scienza dell’apprendimento dei dati

Con il Data mining, si applicano vari metodi di statistica, di analisi dei dati e di machine learning per esplorare e analizzare grandi insiemi di dati (Big data), estraendo nuove e utili informazioni che andranno a beneficio del “proprietario” di questi dati. Con l’utilizzo del Data mining, un’organizzazione può scoprire informazioni utili partendo da dati esistenti. Ad esempio, analizzando i post di un social media, un’azienda del settore food potrebbe essere sorpresa dall’apprendere che il suo mercato più grande possa essere quello dei padri single…

Per quanto attiene la statistica, essa si configura come una componente del Data mining che fornisce gli strumenti e le tecniche di analisi per trattare grandi quantità di dati. È la scienza dell’apprendimento dai dati, e comprende tutto: dalla raccolta e organizzazione dei dati, alla loro analisi e presentazione. La statistica si concentra sui modelli probabilistici, in particolare l’inferenza, utilizzando proprio i dati. Mentre gli obiettivi della statistica e del Data mining sono simili, si stima che siano pochi gli statistici in grado di gestire le richieste degli analisti di dati. I due tipi di statistica prevalenti sono quelli descrittivi e quelli inferenziali. Le statistiche descrittive organizzano e riassumono i dati per il campione; mentre la metodologia di utilizzo di questi “riassunti” da interi insiemi di dati è chiamata statistica inferenziale.

Sia il Data mining che la statistica sono legati all’apprendimento dai dati. Si tratta di scoprire e identificare strutture nei dati, con l’intento di trasformare i dati in informazioni. E sebbene gli scopi di entrambe queste tecniche si sovrappongano, entrambe hanno approcci diversi. La statistica riguarda solo la quantificazione dei dati: utilizza strumenti per trovare le proprietà rilevanti dei dati, ed è molto simile alla matematica. In pratica, la statistica fornisce gli strumenti necessari per il Data mining. Il Data mining, dall’altra parte, costruisce modelli per rilevare relazioni nei dati, in particolare da grandi database.

Esempi e applicazioni del Data mining

A oggi, il Data mining è ampiamente utilizzato in quasi tutti i settori industriali. Ad esempio, l’analisi dei dati finanziari è di solito sistematica, poiché i dati sono altamente affidabili. Casi tipici di analisi dei dati finanziari includono la previsione del pagamento dei prestiti, l’analisi della politica di credito dei clienti, la classificazione e il raggruppamento dei clienti per il marketing mirato, l’individuazione del riciclaggio di denaro sporco e di altri reati finanziari.

Il Data mining ha un ruolo più significativo nel settore del commercio al dettaglio, poiché raccoglie dati da varie fonti, come le vendite, la storia degli acquisti dei clienti, il trasporto delle merci, i consumi e i servizi. Nel settore della vendita al dettaglio, aiuta a identificare i comportamenti dei clienti; progettare e costruire datawarehouse sulla base dei vantaggi del Data mining; analisi multidimensionale delle vendite, dei clienti, dei prodotti, del tempo e della zona geografica; efficacia delle campagne di vendita; fidelizzazione dei clienti; raccomandazione dei prodotti e riferimenti incrociati degli articoli.

Nel settore delle telecomunicazioni, il Data mining aiuta a identificare i modelli (di telecomunicazione), a rilevare le attività fraudolente, a migliorare la qualità dei servizi e a fare un uso migliore delle risorse. Il Data mining ha dato anche un contributo significativo all’analisi dei dati biologici come la genomica, la proteomica, la genomica funzionale e la ricerca biomedica. Il Data Mining aiuta nell’analisi mediante l’integrazione semantica di database genomici e proteomici eterogenei e distribuiti, l’analisi di associazioni e percorsi, strumenti di visualizzazione nell’analisi di dati genetici e altro ancora. Il Data mining aiuta anche nell’analisi di grandi quantità di dati provenienti da settori come le geoscienze e l’astronomia.

Altre applicazioni scientifiche che traggono vantaggio dal Data mining sono i modelli climatici, gli ecosistemi, l’ingegneria chimica e la fluidodinamica. Il Data Mining ha trovato enormi applicazioni anche nel rilevamento di intrusioni e minacce che attaccano le risorse di rete, e gioca un ruolo significativo nell’amministrazione della rete. Le aree in cui il Data mining può essere applicato riguardano anche lo sviluppo di algoritmi per il rilevamento delle intrusioni, l’analisi delle associazioni e delle correlazioni, l’aggregazione per aiutare a selezionare e costruire attributi discriminanti, l’analisi dei dati di flusso, il Data mining distribuito e gli strumenti di visualizzazione e di interrogazione.

Una componente essenziale: il Machine learning

Abbiamo prima citato il Machine learning, cerchiamo ora di darne una sintetica definizione.

Pur non essendoci una “definizione univoca” di Machine learning (di seguito anche ML), possiamo affermare che siamo dinanzi a un ramo dell’Intelligenza artificiale (AI) che fornisce a sistemi e macchine (es. robot) la capacità di imparare e migliorare automaticamente dall’esperienza, senza essere esplicitamente programmati in tal senso dall’uomo. Il Machine learning è un interessante campo dell’Intelligenza artificiale dove si indaga sul come gli agenti informatici possono migliorare la loro percezione, cognizione e azione mediante l’esperienza, migliorando al contempo i dati, la conoscenza, l’esperienza e l’interazione. Il Machine learning utilizza una varietà di tecniche per gestire in modo intelligente grandi e complesse quantità di informazioni costruite su fondamenta derivanti da molte discipline, tra cui la statistica, la rappresentazione della conoscenza, la pianificazione e il controllo, i database, l’inferenza causale, i sistemi informatici, la visione artificiale e l’elaborazione del linguaggio naturale. Gli agenti di Intelligenza artificiale, con il loro nucleo di Machine learning, mirano a interagire con gli esseri umani in una varietà di modi, come il fornire stime sui fenomeni, formulare raccomandazioni per talune decisioni, ed essere istruiti e corretti in un dato modo. Il Machine learning può avere un impatto su molte applicazioni che si basano – fondamentalmente – su tutti i tipi di dati, come i dati sanitari, i dati scientifici, i dati finanziari, i dati sulla posizione, i dati meteorologici, i dati energetici.

Data mining, perché le aziende oggi non possono farne a meno

La scienza dell’apprendimento dei dati

Esempi e applicazioni del Data mining

Una componente essenziale: il Machine learning

Articoli correlati

Codice Rss

Codice Rss