Data Science, perché la maggioranza dei progetti non arriva in produzione

Le ragioni sono molteplici, ma alla base c’è la superficialità nell’approccio a questo dominio, soprattutto nel contesto italiano. Ciò che sembra semplice nelle news o nelle dimostrazioni di alcuni proof of concept pubblicizzati, in realtà sottende scenari molto complessi

Estrarre valore dai dati è certamente una delle attività più ripaganti, oggi, per le aziende. Farlo in maniera davvero remunerativa, però, non è così semplice come certe notizie vorrebbero far credere. Nell’ultima VB (Venture Beat) Transform conference di San Francisco, tenutasi gli scorsi 10 e 11 luglio, si lamentava che l’87% dei progetti di Data Science non arrivano in produzione.

Le ragioni di questi fallimenti sono molteplici, ma alla base c’è una certa superficialità nell’approcciare questo dominio e ciò, duole dirlo, soprattutto in contesti come quello italiano. La verità è che quello che sembra semplice nelle news o nelle dimostrazioni di alcuni proof of concept pubblicizzati sottende in realtà scenari complessi.

Le complessità dei problemi da risolvere sono caratterizzate dall’intrecciarsi di molti fattori e, per essere affrontate, richiedono innanzitutto un processo di apprendimento condiviso dove team interfunzionali possano sperimentare e sbagliare insieme, ad esempio attraverso approcci di Design Thinking.

A questo proposito è importante sottolineare un aspetto centrale: la presenza radicata nella nostra cultura del tabù del fallimento. Esso porta sempre con se un concetto di colpa e la naturale conseguenza a nascondere gli errori per proteggersi dal giudizio degli altri. Occorrerebbe invece essere molto più pragmatici e considerare i fallimenti per quello che sono: un prodotto naturale della sperimentazione. Una sperimentazione che deve essere certo condotta intelligentemente ma dovrebbe essere soprattutto condivisa (internamente ed esternamente alle organizzazioni) così da fare piena luce sulle incertezze, sui problemi e abilitare la vera innovazione. Spunti interessanti a questo riguardo si possono trovare in studi fatti da Amy C. Admondson (Harvard Business School).

Per chiarire le idee sufficientemente confuse dal clamore associato alle notizie che ci arrivano giornalmente su tematiche quali Big Data, Data Analytics, AI, ML, etc., è utile cercare di capire quali sono gli ambiti coinvolti.

Indice degli argomenti

I Data Scientist, colonne portanti dell’Information Technology

Nel 2012 Thomas H. Davenport e D.J. Patil affermavano sulle colonne dell’Harvard Business Review che il lavoro del Data Scientist era “The Sexiest Job of the 21st century”. Non si tratta solo di un’affermazione eclatante, ci sono degli elementi concreti. I Data Scientist hanno infatti delle qualità rare, e quindi preziose, che ne fanno dei professionisti molto richiesti: sono capaci di trovare ordine nei dati e di estrarre significato e valore nella mole di informazioni non strutturate e in continua crescita (sorgenti online, social network, audio, immagini, video, wearables, smartphones, sensori in-house e in-field, etc.).

Attraverso sofisticate tecniche di analisi, i Data Scientist sono in grado di affrontare una grande varietà di problemi pratici con implicazioni sia nella vita di tutti i giorni che nell’industria (dalla previsione di diffusione di una malattia o del traffico stradale alla previsione di un guasto in una macchina industriale). Con l’analisi dei dati diventa possibile, sia fare previsioni che supportare l’automazione di processi. Le radici di queste tecniche risalgono agli anni Sessanta ma solo recentemente, a partire da metà degli anni 2000, l’aumentata potenza di calcolo e la disponibilità di grandi quantità di dati a costi ragionevoli hanno permesso di ottenere risultati prima non raggiungibili e le aziende hanno cominciato ad appoggiarsi sempre di più sulla statistica, sull’analisi quantitativa dei dati e su modelli predittivi per prendere decisioni di business più efficaci ed incisive.

Queste tecniche sono oggi considerate critiche per qualunque business: recenti sondaggi (Accenture 2019) affermano che più dell’80% dei manager delle organizzazioni ritengono che il proprio business non crescerà senza scalare queste tecnologie e che sarà addrittura a rischio nei prossimi anni se non supportato da esse.

Tutto ciò sta portando a investimenti miliardari in questo mercato. Zion Market Research ha stimato il mercato del Machine Learning, la branca più attiva del Data Science, attorno a 1,58 miliardi di dollari nel 2017 con prospettive di raggiungere approssimativamente 20,83 miliardi di dollari nel 2024.

Con questa evoluzione e con il continuo martellamento mediatico legato al concetto generico di intelligenza artificiale si è diffusa però l’opinione che ormai sia semplice fare previsioni di qualunque tipo: dall’acquisto di beni, alle minacce alla sicurezza, alla probabilità che si sviluppi una certa malattia o relativamente all’efficacia di un certo trattamento medico. Analogamente si dà ormai quasi per scontata la possibilità di automatizzare processi in modo da ottenere consigli personalizzati nelle esperienze di acquisto, selezionare automaticamente i curriculum interessanti per una data ricerca di personale, scegliere la cura migliore per un certo paziente o fornire supporto attraverso un chat bot.

Le competenze necessarie in un processo di Data Science

Un utile strumento di orientamento per la descrizione della Data Science è il Diagramma di Venn proposto nel 2013 da Drew Conway.

The Data Science VENN Diagram – Drew Conway

La prima cosa da sottolineare è che i tre elementi in gioco sono molto diversi tra loro ma tutti necessari e complementari.

Hacking Skills, cioè le capacità di programmazione necessarie pulire e formattare i dati e poterli manipolarle in modo efficace anche nel caso di Big Data. Si parla di “Data Wrangling”.
Mathematic and Statistics, cioè la capacità di utilizzare la matematica e l’analisi statistica per e sviluppare tecniche di estrazione di informazione dai dati.
Substantive Expertise, cioè la competenza di dominio che consente di definire obiettivi, vincoli e trovare nei dati le chiavi di lettura necessarie per la soluzione dei problemi pratici del dominio in analisi.

In un progetto di Data Science nel quale si voglia estrarre valore dai dati a disposizione è quindi necessario mettere insieme tutte queste competenze. La prima considerazione da fare è che queste competenze difficilmente sono appannaggio di una sola persona, quello che gli anglosassoni definirebbero The Unicorn, il Full-Stack Data Scientist. Ciò che serve, come accennato prima, è un approccio interfunzionale realizzabile con un team fatto di persone con competenze diverse e complementari che riescano ad analizzare i dati a disposizione affrontandoli con spirito critico, ponendosi domande sfidanti, scovando eventuali bias sottostanti (una tassonomia dettagliata è brillantemente visualizzata qui) e scongiurando la creazione di modelli predittivi pilotati più dalle capacità di tecniche di hacking che dalle conoscenze di dominio e da una sana inquietudine speculativa.

Un team adeguato non basta però da solo a ridurre i rischi di fallimento di un progetto di Data Science. Altri elementi sono emersi dalle esperienze pratiche di progetti di Data Science.

Prima di tutto chiarire lo scopo del progetto e condividerne gli obiettivi

I progetti di Data Science non devono vivere in modo isolato all’interno dei laboratori delle organizzazioni ma devono essere calati nel contesto del proprio business model, dei processi presenti in azienda e della cultura aziendale. Una profonda conoscenza dei problemi di business che si vogliono affrontare e l’allineamento con tutti gli stakeholders coinvolti è fondamentale e deve precedere qualunque scelta tecnica/tecnologica. Inoltre occorre riconoscere che il passaggio culturale che porta dallo status-quo ad organizzazioni data-driven in cui dati, intelligenza artificiale e l’automazione diventano sempre più pervasivi, richiede un’integrazione all’interno della cultura organizzativa assolutamente non banale. In questo contesto è necessario che il management chiarisca che il fine ultimo è quello di servire il business e che, trattandosi di un gioco di squadra, occorre promuovere e facilitare il passaggio della conoscenza dai Data Scientist al business e viceversa in un contesto di apprendimento continuo e integrato.

Scegliere la tecnologia adatta al problema da risolvere

Occorre saper selezionare l’approccio adeguato al problema da risolvere senza lasciarsi influenzare da fattori esterni (pubblicità, news) o da specifici fornitori. Infatti, a seconda della quantità di dati e dello specifico problema da risolvere, si possono utilizzare approcci differenti che a loro volta corrispondono a competenze e strumenti diversi.

– Tecniche e Tool di Data Mining: per esplorare i dati ed estrarre informazioni significative (cioè studiare la correlazione tra i dati per poter determinare relazioni di causalità).

– Tecniche di Simbolic Reasoning/Heuristic Reasoning: per esplorare problemi di cui si conosce il modello astratto e quindi si possono individuare gli step per la soluzione (si tratta di un approccio datato ma ancora efficace, specialmente quando i dati a disposizione sono limitati).

– Tecniche di Machine Learning: utili per risolvere problemi di cui non si conoscono gli step per arrivare alla soluzione del problema ma si hanno a disposizione grandi moli di dati (Big Data) che possono essere esplorati “massivamente” per identificare pattern (tipici problemi di classificazione) o per effettuare regression analysis (per trovare cioè la relazione tra le variabili dipendenti ed indipendenti del problema). A questo approccio appartengono la maggior parte delle tecniche di cui si parla correntemente quando ci si riferisce, in modo un po’ superficiale e generico, all’Intelligenza Artificiale (AI). Si tratta in realtà di quello che sarebbe meglio definire “Narrow AI” perché consente di risolvere problemi molto specifici e si declina in diverse tecniche quali Artificial Neural Networks, Deep Learning Networks, GAN, etc.

Tenere in considerazione i rischi e i vincoli legati ai dati

I dati sono certamente una grande risorsa per le organizzazioni e per la società in generale ma nei progetti reali occorre considerare anche problemi e vincoli associati ad essi. Creare modelli predittivi sfruttando enormi quantità di dati significa, oggi, dover ottemperare a regole stringenti in merito ad aspetti legati alla sicurezza e alla privacy dei dati (ad esempio la conformità con gli standard ISO 27001 e 27701:2019 per implementare e soddisfare le nuove regole GDPR) e richiede di passare da modelli predittivi “Black Box” (dove è impossibile o molto difficile comprendere la ragione delle predizioni) a sistemi “White Box” (ad esempio l’approccio seguito da alcuni framework di explainable AI come RuleX). Questo aspetto è ben illustrato ad esempio da Cathy O’Neil nel suo speech “Weapons of Math Destruction” dove risulta chiaro come i modelli generati dalle moderne tecniche di Data Science portino con se i pregiudizi (bias) nascosti all’interno dei dati in analisi che devono essere attentamente studiati, valutati e risolti. Inoltre, soprattutto quando le previsioni sono legate a trend generali di mercato o al comportamento degli utenti, non basta più un’analisi quantitativa (Big Data approach) ma occorre coniugare questa con un’analisi qualitativa (Thick Data approach) che può fare la differenza come si è visto ad esempio nel previsioni errate del 2007 di Nokia sulla penetrazione degli smartphones sul mercato. Si parla in questo caso di “Quantification Bias.

Mantenere la centralità del fattore umano

Così come nell’era dell’industrializzazione le macchine hanno sostituito i lavori manuali più pesanti e ripetitivi, adesso con l’approccio “data centric” e l’associata automazione delle funzioni cognitive, è possibile sollevare gli operatori dalle routine ripetitive per le quali le macchine sono più precise ed efficienti. La filosofia vincente in questo caso è quella dell’aumento delle “capacità” dell’uomo che da un lato porta a un miglioramento delle KPI di processo e di business e dall’altro incrementa la motivazione delle persone che vedono aumentate le proprie competenze e si possono dedicare ad attività a più alto valore aggiunto.

In definitiva l’aumento della probabilità di completare con successo progetti di Data Science passa da una trasformazione profonda delle organizzazioni e da un processo di apprendimento continuo che faccia crescere la consapevolezza di tutti e consenta, attraverso piccoli passi, di guadagnare competenza e fiducia negli strumenti e nelle tecniche. Serve cioè una strategia di lungo termine, perché trasformare le organizzazioni, costruire modelli su dati affidabili e che funzionino su larga scala permettendo di avere dei reali ritorni sull’investimento è certamente un percorso complesso ma fa la differenza in un mercato sempre più competitivo.