Augmented data: cosa sono e a che serve la data augmentation

Gli augmented data arricchiscono il dataset di training delle reti neurali artificiali senza raccogliere nuovi elementi. Come si ottengono, a cosa servono, obiettivi e vantaggi dell’Augmented Data Management

Pubblicato il 17 Mag 2021

Josephine Condemi

giornalista

NoSQL

Cosa sono gli augmented data e la data augmentation

Gli augmented data sono i “dati arricchiti”, derivati dalla data augmentation. Data augmentation significa, letteralmente, “aumento dei dati”. È un insieme di tecniche che ampliano il dataset a disposizione senza effettivamente raccogliere nuovi elementi: la data augmentation applica ai dati già esistenti dei cambiamenti casuali controllati, realizzandone delle copie modificate. Viene utilizzata per l’apprendimento automatico delle reti neurali artificiali, che “imparano” in modo sempre più preciso man mano che aumenta il dataset di training a disposizione.

Il termine “Augmented Analytics” è stato coniato dalla società di ricerca Gartner con la pubblicazione del paper “Augmented Analytics is the Future of Data and Analytics” nel luglio 2017 e definito come un approccio che automatizza gli insight utilizzando l’apprendimento automatico e la comprensione e l’elaborazione di linguaggio naturale.

Tra le diverse tecniche di intelligenza artificiale, che hanno il compito di imitare alcune facoltà umane, troviamo infatti l’apprendimento automatico (o machine learning), basato su algoritmi artificiali, supervisionati o meno, che riconoscono dai dati a disposizione gli schemi ricorrenti, i pattern. Un sottoinsieme del machine learning è il deep learning, l’apprendimento profondo, basato su reti neurali artificiali in grado di analizzare, rappresentare e “comprendere” il linguaggio scritto e parlato (Natural Language Processing).

La data augmentation, che consente la Augmented Analytics, migliora il processo di training delle reti neurali, mettendo a disposizione anche delle piccole e medie imprese l’automazione nel data management.

Come si differenziano i dati arricchiti e a cosa servono

Gli augmented data possono essere o copie leggermente modificate di dati già esistenti o dati sintetici realizzati a partire dal dataset iniziale.

Nel primo caso, sono augmented data, ad esempio, le immagini generate da cambiamenti casuali controllati come rotazioni, capovolgimenti, tagli e ritagli, modifiche del colore, iniezione di rumore.

Nel secondo caso, se il dataset è ancora troppo piccolo, sono augmented data le immagini, i dati “parlati”, i segnali biologici sintetici “nuovi” generati attraverso l’uso di Generative Adversarial Network. Una Rete Generativa Avversaria è una rete neurale artificiale, composta da una parte “generativa” e una parte “discriminativa” che competono tra loro: gli algoritmi di generazione producono dati sintetici che gli algoritmi di discriminazione devono riuscire a distinguere dai dati reali, forniti in apprendimento. Le due parti vengono addestrate alternativamente: quando la parte “discriminativa” non riesce a distinguere più, significa che quella generativa ha imparato ad associare correttamente le “etichette” ai dati, quindi a saperli riconoscere con efficacia e precisione.

Gli augmented data si usano per risolvere il problema dell’overfitting, il sovradattamento del modello statistico al campione di dati osservato, che avviene quando il modello ha troppi parametri rispetto al numero di osservazioni eseguito. Strutturata per riconoscere schemi ricorrenti a partire dai dati proposti, la rete neurale artificiale “impara a memoria” quello che vede, ma non riesce a trovare una regola generalizzata, quindi va in errore facilmente su schemi non ancora visionati.

Diventa quindi necessario ampliare il dataset di addestramento aumentando i dati a disposizione.

augmented data

Quali sono gli obiettivi e i vantaggi dell’augmented data management

L’Augmented Analytics consente di migliorare l’apprendimento delle reti neurali artificiali, quindi di automatizzare le procedure di data management analizzando miliardi di combinazioni di dati e trovandone le correlazioni. L’obiettivo è costruire strumenti di analisi che interagiscano con gli esseri umani attraverso il linguaggio naturale, senza ulteriori mediazioni, e individuino autonomamente i dati più significativi per fornire risposte pertinenti ed esaustive.

L’Augmented Data Management sfrutta l’Augmented Analytics per realizzare processi sempre più intuitivi e allineati rispetto agli obiettivi aziendali: significa trovare dai dati proprio le informazioni che servono a costruire strategie concrete ed efficaci.

Per Oracle Corporation, è possibile distinguere cinque livelli di evoluzione dell’Augmented Analytics, dall’ “Artigiano” all’ “Autonomo”.

Il livello zero, “Artigiano”, prevede che tutte le attività di management, arricchimento e modellazione dei dati siano svolte manualmente, così come tutte le dashboard, le query e i report siano prodotti dal settore IT aziendale.

Il livello uno, “Self-Service”, comincia ad affiancare alle operazioni ancora manuali di data management una user experience più automatizzata, grazie ad un’interrogazione basata sul linguaggio naturale che fornisce visualizzazioni e grafici suggeriti in modo pertinente alla ricerca effettuata.

Nel livello due, “Deeper Insight”, viene impiegato il Machine Learning, gli Augmented Data cominciano ad essere usati nella discovery per semplificare le spiegazioni attraverso fonti consigliate, catalogazioni, forme di navigazione aumentata.

Al livello tre, “Data Foundation”, gli Augmented Data vengono usati in tutte le fasi del processo: i dati vengono arricchiti e corretti autonomamente dagli algoritmi.

Al livello quattro, “Collective Intelligence”, il cloud apprende metriche e KPI aziendali che vengono usati e confrontati con i pattern emergenti dai dati. Il sistema è in grado di suggerire miglioramenti e azioni in tutti gli ambiti aziendali, di prevedere risultati e di sottoporli alla decisione umana.

Il livello cinque, “Autonomo”, è tutto data-driven: le azioni vengono eseguite sulla base di previsioni, approfondimenti e pertinenza agli obiettivi stabiliti a priori.

L’Augmented Analytics porta l’Augmented Data Management ad avere un approccio molto diverso dal data management tradizionale, che richiede il coinvolgimento e il coordinamento di diverse figure aziendali, con costi e tempi da non sottovalutare.

L’Augmented Data Management consente quindi di: automatizzare progressivamente le operazioni di gestione dei dati aziendali; migliorare l’accesso ai dati da parte di chi ha meno competenze tecniche; ottimizzare il tempo dei data scientist, ad oggi impiegato per la maggior parte nella pulizia del dato, per dedicarlo a compiti più strategici.

Arricchire il dataset con le diverse tecniche di Augmentation significa potenziare i metadati dell’organizzazione: l’Augmented Data Quality automatizza il controllo qualità dei dati ed è in grado di risolvere eventuali anomalie sulla base di policy prestabilite.

L’Augmented Data Management viene utilizzato nella realizzazione di piattaforme soprattutto nel marketing: marketing predittivo, con piattaforme che individuano cluster di utenti propensi all’acquisto; posizionamento sui motori di ricerca, con l’analisi dei trend e delle anomalie competitive; customer satisfaction, grazie all’analisi automatica delle richieste vocali sugli smart speaker o l’adattamento automatico delle notizie su un magazine sulla base dei comportamenti precedenti. Non mancano esplorazioni in ambito medicale, con la data augmentation usata per migliorare il riconoscimento delle emozioni nell’elettroencefalografia.

Valuta la qualità di questo articolo

La tua opinione è importante per noi!

Articoli correlati

Articolo 1 di 3