Text mining e data mining: le opportunità e i profili di data protection

L’analisi delle causali dei bonifici bancari tramite text mining può assumere un’importanza strategica per gli operatori di mercato. L’importante è, tuttavia, garantire il diritto alla protezione dei dati personali dei clienti in accodo alla vigente normativa in materia di Data protection

In un mondo che produce quotidianamente sempre più dati, l’analisi delle informazioni (Big data) costituisce lo strumento più efficace per le aziende per adeguare le proprie strategie di azione sul mercato investigandone le necessità e le tendenze. Grazie alle tecnologie di intelligenza artificiale, infatti, è possibile estrarre, conservare, analizzare, raggruppare tutte le informazioni e i dati che (spesso anche senza accorgercene) rilasciamo tramite app, smartphone, dispositivi di domotica, ecc. al fine di analizzare e conoscere in via predittiva le nostre preferenze. Tra le più note operazioni di AI impiegate per l’analisi di dati vi sono sicuramente il data mining e il text mining, operazioni che consentono l’individuazione di svariate informazioni tramite processi automatizzati di estrazione di informazioni da database. Il processo è ormai impiegato in tutti i settori: economia e finanza (previsioni sui trend degli indici azionari), scienza, statistica (analisi demografiche) marketing (clusterizzazione della clientela), medicina, industria.

Gli strumenti tecnologici che permettono operazioni di analisi del testo, ad esempio, consentono oggi agli operatori di mercato di studiare la semantica di specifiche operazioni (finanziarie, commerciali, ecc.) al fine di profilare i clienti, così da rivolgere a specifici target di clienti offerte personalizzate e iniziative in linea con i loro interessi. Può assolutamente dirsi, insomma, che i processi decisionali relativi ai Big data hanno la capacità di accrescere notevolmente la produttività delle imprese perché, in sostanza, sono in grado di determinare profitti.

Le tecniche di intelligenza artificiale alla base del data mining o del text mining consentono all’operatore di ottenere delle specifiche evidenze dai dati strutturati o non strutturati. Le predette tecniche, in particolare, permettono di identificare quali soggetti – tra quelli i cui dati sono oggetto di analisi – risultano associati o meno a determinati parametri oggetto d’indagine al fine di creare categorie di interessati legate o meno al tema d’indagine. In tal modo l’operatore ha la possibilità di analizzare i comportamenti e le azioni, i bisogni e le tendenze dei soggetti con i quali interagisce allo scopo di individuare azioni predittive e piani di intervento adeguati ai casi esaminati.

Indice degli argomenti

Cosa sono Data mining e Text mining

In termini generali, il processo di estrazione di informazioni implicite – sconosciute in precedenza e potenzialmente utili – da determinati database è definito Knowledge Discovery in Database (KDD). Mentre con l’espressione Data Warehousing ci si riferisce a un vero e proprio “magazzino” di informazioni e dati estratti da altrettante informazioni. A sua volta, il processo KDD prevede due variabili:

data mining, l’estrazione di informazione da dati strutturati – situati in grandi database – tramite l’applicazione di algoritmi che individuano le connessioni “implicite” tra le informazioni e le rendono conoscibili;
text mining, l’estrazione di informazione da databases testuali non strutturati grazie a specifici software: costituisce, dunque, l’estensione del Data mining ai dati testuali non strutturati.

Il data mining, quindi, rappresenta l’estrazione di informazioni precedentemente sconosciute e potenzialmente utili; nel caso del text mining, invece, le informazioni da estrarre sono chiaramente indicate nel testo.

Text mining: le fasi del processo

Il processo di text mining generalmente si articola in varie fasi. L’azione preventiva consiste nell’individuare l’obiettivo che si vuole raggiungere attraverso il meccanismo di AI.

La prima fase del processo di text mining prevede la raccolta del materiale che sarà oggetto di analisi (information retrieval).

La seconda fase (information extraction) prevede l’estrazione di informazioni dai documenti selezionati in precedenza. L’estrazione avviene attraverso l’indicizzazione, l’analisi linguistica (lessicale e sintattica) del documento (“pulizia dei dati”), l’identificazione e la scelta dei termini, dei lemmi, la definizione delle stop-words, l’integrazione con eventuale meta-informazione che dovranno ricavarsi o escludersi dal testo da lavorare.

Ottenuto in tal modo il database di dati “puliti”, si passa alla successiva fase di information mining: viene applicato un algoritmo di Data Mining a seconda dell’obiettivo che si intende perseguire: un algoritmo di clustering per il raggruppamento tematico, un algoritmo di machine learning per la classificazione automatica, ecc.

Nell’ultima fase, invece, il processo valuta e interpreta i risultati ottenuti.

Le fonti dalle quali è possibile ricavare informazioni da analizzare tramite il Text mining sono molteplici: web data (es. siti web), banche dati online, le e-mail, le mailing list, le newsgroup, ecc.

Text mining: il caso dei bonifici bancari

Uno degli esempi più comuni che negli ultimi anni ha interessato in particolar modo le banche è quello delle operazioni di text mining sui bonifici bancari. Il bonifico, infatti, è un vero e proprio patrimonio informativo in quanto fornisce non solo informazioni sulle entrate e le uscite del singolo cliente. Attraverso la causale del bonifico possiamo sapere se: il cliente sta sostenendo spese per la ristrutturazione di casa, se ha percepito lo stipendio o un trattamento di fine rapporto di lavoro, la sua qualifica professionale, il tipo di consumi che effettua e così via. La conoscenza del cliente per le banche riveste un’importanza fondamentale. Ad esempio: se c’è un bonifico in entrata che evidenzia nella causale spese sostenute per lavori di ristrutturazione di un appartamento, lo strumento tecnologico analizza questo dato. Di conseguenza, la banca potrà dedurre che il cliente avrà bisogno di finanziamenti, proponendogli iniziative in linea con le sue esigenze, realizzando così una strategia di marketing mirata. La banca, allo stesso modo, potrà proporre offerte ad hoc ai clienti che abbiano dei figli o che siano sposati da breve tempo, ecc.

Tuttavia, le operazioni di analisi sui dati non necessariamente sono destinate a condurre campagne di marketing; esse possono anche essere finalizzate a valutare in via predittiva e prevedere la capacità di un mutuatario di assumere e ripagare un debito. Gli algoritmi, ad esempio, possono selezionare automaticamente dei tassi di interesse in base al livello di rischio assegnato al cliente: di conseguenza, i clienti con i più alti punteggi sull’affidabilità creditizia riceveranno tassi di interesse più bassi e viceversa.

Text mining e profili di Data protection

Sono in molti a ritenere che nel mondo sovrastato dal potere indiscusso dei Big data sia difficile riuscire a dominare il traffico dei dati e a tutelare il diritto fondamentale della protezione dei dati personali di ciascun individuo. È pur vero, tuttavia, che negli ultimi anni è aumentata notevole, soprattutto a livello europeo, una certa sensibilità alla Data protection, soprattutto con l’arrivo del Regolamento europeo 2016/679.

Il difficile complesso di fonti normative che oggi disciplina la materia, tanto a livello europeo che a livello nazionale, (Linee Guida EDPS, pareri e raccomandazioni delle Autorità di Controllo nazionali, normative di dettaglio locali) pone oggi limiti stringenti agli operatori di mercato che attingono ai Big Data per accrescere il proprio business.

Basti solo pensare, ad esempio, alle significative limitazioni poste dal GDPR relative al trattamento delle categorie di dati particolari (art. 9) o alla decisiva importanza del consenso per la legittimità di specifiche operazioni di trattamento (es. marketing o la profilazione).

Tornando brevemente all’ipotesi dell’analisi delle causali dei bonifici bancari attraverso le tecniche di AI, generalmente le banche non utilizzano il text mining per individuare e analizzare categorie particolari di dati di cui all’art. 9 GDPR (dati certamente ricavabili dalle causali di bonifico). La banca, infatti, dovrebbe richiedere preventivamente uno specifico consenso a tutti i suoi clienti con tutte le possibili conseguenze del caso.

Più di frequente, invece, le banche decidono di utilizzare il text mining per epurare (neutralization) le categorie particolari di dati così da esser sicuri di poter effettuare analisi sui dati senza richiederne lo specifico consenso (art. 9, comma 2 GDPR). Per le operazioni di analisi sui dati estrapolati e analizzati con strumenti tecnologici sarà solo necessario fondare tale trattamento sulla base di legittimi interessi, a seconda degli obiettivi predeterminati a monte. Per le ulteriori attività di marketing e/o profilazione dovrà in ogni caso essere richiesto il consenso degli interessati.

La soluzione appare indubbiamente più semplice e condivisibile, nonché conforme a quanto evidenziato nelle recentissime Linee Guida 06/2020 dell’EDPS sui rapporti tra la Direttiva PSD2 e il GDPR, la cui consultazione pubblica è terminata lo scorso 16 settembre. Secondo l’impostazione dell’EDPS, infatti, nel contesto oggetto delle predette Linee Guida, le categorie di dati particolari di cui all’art. 9 GDPR possono costituire oggetto di trattamento solo se vi sia il consenso libero ed espresso dell’interessato (l’utente dei servizi di pagamento) o, in alternativa, ragioni di pubblico interesse sostanziale. Ove tale circostanza non sia concretamente raggiungibile, il titolare del trattamento deve poter ricorrere a soluzioni in grado di escludere il trattamento dei particolari (proprio come nel caso dell’operazione di neutralization di cui si è detto).

È doveroso infine ricordare che, qualora la banca decida di legittimare le operazioni di analisi dei dati tramite text mining sull’esistenza di legittimi interessi, la scelta di tale base giuridica dovrà sempre essere opportunamente ponderata sulla base di attente valutazioni condotte dal titolare. La scelta del legittimo interesse quale base giuridica del trattamento, infatti, comporta per il titolare del trattamento l’impegno di effettuare un bilanciamento di interessi (cfr. Autorità Garante, Provv. 22 febbraio 2018) e, quindi, di valutare se il perseguimento di propri interessi possa confliggere con gli interessi del cliente e con le sue aspettative. Inoltre, sarà cura del titolare che decida di effettuare tali azioni sulla base del legittimo interesse, garantire:

la massima trasparenza verso gli interessati, prevedendo espressamente il legittimo interesse nell’informativa privacy;
l’effettuazione di una DPIA, soprattutto in virtù dell’utilizzo di nuove tecnologie o, comunque, strumenti automatizzati;
l’esercizio del diritto di opposizione all’interessato per motivi inerenti alla sua situazione particolare.