Big data, come conciliare l’uso minimo di dati con le esigenze degli algoritmi

È stata pubblicata di recente l’indagine conoscitiva sui Big data condotta congiuntamente, sotto tre prospettive diverse e complementari, dall’Autorità per le Garanzie nelle Comunicazioni, dall’Autorità Garante della Concorrenza e del Mercato e dal Garante per la Protezione dei Dati Personali. In essa è evidente quanto susciti ancora attualissima discussione la vexata quaestio atta a riconciliare da un lato il rispetto del criterio di minimizzazione nell’uso dei dati personali, dovendo essere utilizzati solo i dati indispensabili, pertinenti e limitati a quanto necessario per il perseguimento delle finalità per cui sono raccolti e trattati, dall’altro l’esigenza degli algoritmi di utilizzare quanti più dati possibili per identificare relazioni nascoste ma significative (insights). Si tratta di paradossi non troppo distanti dal “gatto di Schroedinger”, ove il GDPR va sì considerato una grande pietra miliare, ma non un traguardo in quanto sarebbe errato considerarlo strumento per la difesa dell’ordine pubblico da parte degli Stati dell’UE: chi fa sul serio analisi del rischio, sa che anzitutto deve capire da chi difendersi, altrimenti non sarebbe in grado di identificare quali siano le contromisure da applicare. Questa componente spesso viene trascurata, ma nessuno potrebbe definire in tempi umanamente ragionevoli un’analisi rischio fatta bene. Senza contare che parlando delle minacce del cyberspazio, non va dimenticato che proprio cyberspazio è un termine coniato nel 1984 da William Gibson, per definire “un’allucinazione vissuta consensualmente ogni giorno da miliardi di operatori legali, in ogni nazione, da bambini a cui vengono insegnati i concetti matematici”, priva di significato semantico. I sistemi di apprendimento automatico hanno bisogno di dati “annotati” da esseri umani (supervised learning) o quantomeno selezionati e preparati (unsupervised learning). Assimilano con questo anche gli errori o i pregiudizi (bias) introdotti anche involontariamente dai progettisti, replicandoli in ogni futura relativa applicazione. Oppure si può incorrere in dataset sbilanciati, che sovrastimano o sottostimano il peso di alcune variabili nella ricostruzione della relazione causa–effetto necessaria per spiegare certi eventi e, soprattutto, per prevederli. A fronte di queste “minacce”, quello che è ragionevole auspicare è una sempre maggior attenzione all’etica delle decisioni instillate da algoritmi automatizzati e alla responsabilità delle implicazioni che da quelle possono derivare. In generale, comunque, investire nella protezione dei dati personali rende, come dichiarano i risultati dell’edizione 2020 del data Privacy Benchmark di Cisco: il ROI della privacy vale il doppio degli investimenti, ovvero il 70% delle aziende che ha sviluppato piani sulla data protection ha ottenuto benefici pari a 2,7 volte. Infine sul consenso si potrebbe aprire un altro vaso di pandora, con discorsi molto interessanti che vanno dal federated Machine Learning, al trusted middleware per portare gli algoritmi ai dati e non viceversa, ai dubbi che ancora si riscontrano circa la reale comprensione da parte del consumatore: sapevate che Amazon Web Services all’art 57.10 delle proprie condizioni di servizio, cita tra le condizioni di inapplicabilità un attacco zombie?

Indice degli argomenti

Dal GDPR al Libro Bianco sull’IA dell’Ue

Il Regolamento Europeo sulla Protezione dei Dati Personali nr. 679/2016, c.d. GDPR, è riuscito anche in questo: l’ultimo pezzo mainstream del rapper Marracash parla di data protection, algoritmi, dati sensibili e degli effetti derivanti dallo scandalo Cambridge Analytica: Oh, algoritmo che sei nei server | Manda il mio pezzo nella Top 10 e il mio video nelle tendenze | Mandami uno spot, ad hoc, non so cosa comprare | Tocca i miei dati sensibili per guidarli a votare Sembra una banalità, ma anche se il messaggio non avrà il tenore di un intervento in materia del Garante Antonello Soro, contribuisce a diffondere una maggiore cultura della privacy. È innegabile: superato l’hype, una IA senza regole desta preoccupazioni. E per questo, sempre all’insegna dell’interdisciplinarietà, filoni di sicuro interesse e attualità coinvolgono l’etica e la spiegabilità degli algoritmi automatizzati, nonché la sfida nell’attribuzione delle responsabilità o delle negligenze qualora si verifichi un errore con relativa valutazione delle implicazioni. Va affermato con forza il principio antropocentrico, secondo cui l’Intelligenza Artificiale deve essere sempre messa al servizio delle persone e non viceversa. Anche ai sensi dell’art.22 del Regolamento Europeo 679/2016, “l’interessato ha il diritto di non essere sottoposto a una decisione basata unicamente sul trattamento automatizzato, compresa la profilazione, che produca effetti giuridici che lo riguardano o che incida in modo analogo significativamente sulla sua persona”. Lo scorso 19 febbraio è stato presentato il Libro Bianco sull’IA da parte dell’Unione Europea, per regolare lo sviluppo e l’utilizzo dell’Intelligenza Artificiale con un set di regole specifiche per la data protection applicata all’IA. È vero infatti che esistono già normative di protezione dei dati, ma occorre capire se sono adeguate anche alle tecnologie di IA, se valutare ad esempio standard più elevati per il riconoscimento facciale per l’utilizzo dei dati, nonché i livelli di rischio nell’utilizzo di app di IA a seconda del settore perché una app di musica e una app che riconosce i tumori hanno livelli di pericolo diversi.

Human rights by design and by default

Poche settimane fa, al PyTorch Dev Conference di San Francisco, Facebook ha rilasciato Captum, una libreria per spiegare le decisioni di reti neurali attraverso il confronto nell’attribuzione dei neuroni ai diversi strati rispetto ai modelli esistenti, oltre a uno strumento di visualizzazione (Insights), fornendo altresì l’implementazione dei cosiddetti gradienti integrati come DeepLift e Conductance. Captum non è che l’ultimo in ordine cronologico strumento rilasciato recentemente per l’interpretazione dell’AI. Un tema decisamente attuale, considerata anche la chiusura delle consultazioni, avvenuta il 24 gennaio scorso, sulle Linee Guida riguardo l’Explainable AI emesse da Alan Turing Institute e ICO, l’Autorità UK di tutela dei dati personali. Sono concetti di salvaguardia dei diritti basilari dell’uomo, all’insegna di un Human rights by design and by default: trasparenza, minimizzazione dati, sistemi di consenso flessibile, analisi rischio sono concetti applicati da sempre alla data protection, anche se è innegabile quanto siano ancora controversi. Il percorso legislativo non è compiuto ed è notorio che la velocità dell’innovazione tecnologica è di più ordini di grandezza diversa da quella normativa. Emblematico l’esempio delle procedure di impact assessment in Olanda che hanno impiegato un anno per valutare la sola introduzione dei pacchetti Microsoft Office nella Pubblica amministrazione Il GDPR ha ampliato i diritti riconosciuti all’interessato con riferimento ai dati che lo riguardano, in un contesto permeato sempre più dal ricorso a nuove tecnologie. Quando il GDPR introduce il diritto delle persone di ottenere una “comprensibile spiegazione della logica coinvolta” nei processi di decisione automatica qualora abbiano “effetti legali” sugli individui stessi, senza tecnologie capaci di esplicitare la logica delle black box questa indicazione rischia di restare dead letter o di rendere fuorilegge molte tecnologie oggi utilizzate. Insomma, c’è un sottile confine tra il rischio di rallentare il progresso che nel campo dell’IA procede a velocità vertiginosamente più elevate di quelle che possano occorrere al legislatore per normare il settore, così come di lasciare immotivatamente nella black box le logiche degli algoritmi decisionali.

Nuove frontiere della Data science

La Data science è un viaggio, un percorso interdisciplinare che, come insegna la metodologia Cross Industry Standard Process for Data Mining (CRISP-DM), muove i primi passi attraverso 3 step iniziali, che non è possibile saltare, nemmeno se si dispone del silver bullet dato dal 58mo, più recente e più performante algoritmo di machine learning: business understanding, data understanding, data preparation. È necessaria la competenza di dominio e, oltre alla raccolta di dati di qualità, la consapevolezza degli stessi e di come trarne valore. E non a caso è ampiamente riconosciuto in letteratura che circa l’80% del tempo di un progetto di data science viene impiegato in tali prime fasi, mentre le successive di data modeling, evaluation e deployment richiedono scienza e tecnica, oltre all’immancabile ricorso al business per la necessaria validazione. È la chiave di volta per le aziende data-driven. Ed è anche una grande sfida di governance per la Pubblica amministrazione e per le società in-house che, in qualità di responsabili al trattamento, gestiscono moli di dati significative, ad esempio in ambito sanitario.

Progetti di successo di collective intelligence, interdisciplinari, devono fondere conoscenza sui dati e data literacy alla competenza universitaria di data science. Per questo, al di là degli strumenti di machine learning, pure fondamentali, per il futuro sarà sempre più necessario aiutare i data scientist a diventare più consapevoli nella lettura e nell’interpretazione dei dati, investendo in generale nell’alfabetizzazione dei dati, anche attraverso algoritmi che stimolino i sistemi di analytics nella feature selection, nell’anomaly detection e nel suggerire nuovi dati significativi da prendere in considerazione nel challenging dei diversi modelli. Da qui anche la possibilità di vedere in azione nuove figure professionali – data custodian, data steward e data evangelist – con il compito di “educare” l’intera organizzazione aziendale al corretto utilizzo dei dati…

Big data, come conciliare l’uso minimo di dati con le esigenze degli algoritmi

Dal GDPR al Libro Bianco sull’IA dell’Ue

Human rights by design and by default

Nuove frontiere della Data science

Articoli correlati

Dati e sostenibilità: le sette sfide chiave dell’Esg reporting

Codice Rss

Codice Rss