Come governare i dati con strumenti di machine learning

Nel 2019, nella mappa di Gartner “Hype Cycle for Analytics and Business Intelligence”, emergeva già un trend di particolare interesse nella governance dei dati, ovvero nel come governare i dati. Le aspettative su strumenti di Data Catalog sono in una fase discendente e ritenute comunque a uno stato di maturità non consono per la velocità con cui si muove lo sviluppo tecnologico.

https://emtemp.gcom.cloud/ngw/globalassets/en/newsroom/images/graphs/DA-BI-HC.png

L’importanza di mappare le informazioni presenti in azienda, la gestione della loro completezza e qualità, non è di sicuro messa in discussione. Il detto “garbage in, garbage out” è oggi più che mai una verità che va gestita all’interno di contesti dove il data lake sta inglobando sempre più informazioni.

È per questo motivo che bisogna intervenire tempestivamente e superare attività manuali di mappatura delle informazioni che si portino dietro rischio operativi di gestione manuale o tempistiche inefficienti.

In quest’ottica gli algoritmi di machine learning possono aiutare notevolmente la gestione dell’informazione, la comprensione dell’utilizzo del dato e la comprensione del patrimonio informativo veramente di interesse su cui si basano le prese di decisioni aziendali.

Le aziende che hanno compreso l’importanza del dato e ne hanno fatto un asset strategico aziendale diventando vere e proprie data-driven company, devono oggi tenere in considerazione e monitorare alcuni principali aspetti:

Come le diverse funzioni stanno usando il patrimonio informativo a disposizione?
Esiste una omogeneità tra i numeri che i diversi stakeholder interni utilizzano per prendere decisioni?
I report direzionali sono tutti coerenti in termini di perimetro di riferimento e logiche di business gestit?
All’interno dei singoli gruppi di lavoro, come possiamo rendere agile la condivisione di un’informazione attraverso una data literacy sempre aggiornata?

Indice degli argomenti

FAIR: seguire un framework open di riferimento

In una pubblicazione del Marzo 2016, un gruppo di scienziati e ricercatori ha definito dei principi di base per la gestione dei dati scientifici.

In particolar modo, questi principi toccavano 4 principali leve: Findable, Accessible, Interoperable e Reusable.

Tali principi enfatizzano la capacità delle macchine e degli algoritmi esperti di rendere fruibile l’informazione anche all’aumento del volume, della complessità e della velocità di produzione di nuove informazioni. In una comunità scientifica tali principi possono ritenersi la base di un approccio open alla collaborazione.

Tuttavia è difficile pensare che questi principi non debbano essere presenti in contesti di collaborazione aziendale o, pensando al mondo della Open Innovation, nell’ambito della co-innovazione tra realtà complementari che possono fare dello scambio dei dati un asset di valore bidirezionale.

Entriamo nel dettaglio:

Findable – Individuabili: per poter utilizzare i dati è necessario trovarli. Sia metadati che dati dovrebbero essere censiti e individuabili facilmente da computer e persone. In particolar modo i metadati giocano un ruolo fondamentale per la scoperta automatica da parte della macchina e per l’attivazione di un processo human-digital.
Accessible – Accessibili: i dati devono poi essere accessibili agli utenti interessati, conoscendone le modalità di accesso e garantendo allo stesso tempo un rispetto della privacy secondo protocolli di autenticazione e autorizzazione.
Interoperable – Condivisibili: i dati devono poter essere letti e integrati da più stakeholder. La capacità di collegarli a diversi sistemi, abilitarli a più processi aziendali e archiviarli in maniera omogenea permette di fare efficienza.
Reusable – Riutilizzabili: è l’obiettivo finale del framework di riferimento. Ottimizzare il riutilizzo del dato attraverso la gestione di corretta di metadati e sistemi di lettura intelligente dell’informazione.

Questi principi rappresentano un buono schema di partenza per abilitare una governance del dato di valore.

A partire da questi principi, nel 2019 la Global Indigenous Data Alliance (GIDA) ha pubblicato anche dei nuovi principi CARE, complementari al FAIR, e che introducono concetti Open rispetto ad autorità di controllo, etica, responsabilità e beneficio collettivo.

Governare i dati nell’era della data intelligence

A partire dai principi precedentemente descritti sono nati diversi progetti per la condivisione e la gestione dei dati. Tra questi uno di particolare interesse può essere considerato OPAL, una piattaforma che con componenti tecniche basate su algoritmi open, ha l’obiettivo di valorizzare i dati privati a favore del bene comune attraverso il rispetto della privacy e attraverso un approccio sostenibile.

Con un focus di applicazione di questi principi ai contesti aziendali, di seguito sono rappresentati i principali benefici che un approccio flessibile, aperto e di condivisione può portare alle aziende:

Maggiore efficienza operativa in termini di:
- Minor tempo di speso nella data discovery
- Minor tempo di data training sui nuovi colleghi
- Aggiornamento continuo di dati e metadati
Maggiore efficacia per le analisi sui dati:
- Suggerimento all’utente in termini di scelta dell’informazione più giusta all’analisi di interesse
- Rinforzo collaborazione tra colleghi delle singole funzioni aziendali
- Suggerimenti e tips rispetto all’area tematica di analisi
Apprendimento automatico:
- I sistemi di intelligenza artificiale imparano nel tempo dall’analisi del dato classificando l’informazione in modalità automatica
- Data similarity basata su machine learning, ovvero la comprensione di quali contenuti informativi possono considerarsi simili, complementari o ridondanti
Scalabilità di applicazione:
- Approccio insight first su tutte le entità di analisi di interesse
- Possibilità di integrare facilmente qualsiasi nuova fonte dato

Alcune delle funzionalità di maggiore interesse in strumenti di intelligenza artificiale possono essere:

SIB (statistics insight box): moduli per la descrizione del contenuto delle tabelle censite e individuazione delle principali informazioni relative al contenuto informativo, come ad esempio primary e foreign key, tipologia di dati, dimensione della tabella, frequenza di aggiornamento.
QAS (query analysis system): sistema di analisi delle query che analizza automaticamente i comportamenti di frequenza di utilizzo delle tabelle e delle informazioni presenti nei DB da parte degli utenti. Sfrutta algoritmi di machine learning per interpretare il parsing e l’analisi del contenuto delle query storicizzate nei diversi sistemi aziendali. Inoltre, sfrutta una classificazione di dominio e di sotto-insiemi semantici al fine di individuare le aree dati più utili agli utenti finali.
DEE (data enrichment engine): motore per la generazione nel continuo di un patrimonio informativo arricchito che descriva e classifichi tabelle, colonne ed entità dati rispetto alle diverse caratteristiche, come ad esempio: valori di distribuzione, tipologia, dimensione, ulteriori metadati a disposizione, ecc.
SIM (similarity index machine): motore di machine learning che abilita metriche di similarità delle colonne analizzate nei DB aziendali, al fine di individuare elementi simili e utilizzabili nei diversi contesti semantici. La macchina è un mix di integrazione di diverse tecniche statistiche e matematiche come ad esempio l’utilizzo di tecniche non supervisionate e di raccomandation engine (es. Netflix).

Come governare i dati con strumenti di machine learning

FAIR: seguire un framework open di riferimento

Governare i dati nell’era della data intelligence

Articoli correlati

Denodo: più produttività e risparmi relativi a cloud e data lake

Literacy Day e skill gap: alfabetizzazione informatica di professionisti e studenti

Codice Rss

Codice Rss