Come si diventa Data Scientist: skill, scuole, corsi, master e università per diventare professionisti della Data Science - Big Data 4Innovation
FacebookTwitterLinkedInWhatsApp

Come si diventa Data Scientist: skill, scuole, corsi, master e università per diventare professionisti della Data Science

Per comprendere qual è il percorso formativo – o forse sarebbe più corretto dire i percorsi formativi – da seguire per diventare Data Scientist, è importante in primo luogo comprendere quali sono gli skill e le competenze richieste a chi vuole intraprendere quella che senza dubbio è una delle professioni più ricercate degli ultimi anni.
Già tre anni fa, Udacity, il sito che eroga corsi di formazione online, aveva affrontato il tema partendo proprio dalle competenze e da qualche importante distinguo.

Per maggiori approfondimenti su Big Data, Data Science e sul lavoro dei Data Scientist scarica il white paper

Al lavoro con i data scientist: una guida per cogliere le opportunità dei big data

Chi è il Data Scientist?

Innanzi tutto è importante comprendere cosa si intenda effettivamente con il termine “Data Scientist”.
Perché se il Data Scientist è semplicemente una nuova definizione con la quale si descrivono i Data Analyst, allora le competenze richieste sono in primis la capacità di estrarre dati da database MySQL, gestire tabelle pivot in Excel, produrre visualizzazioni di base, gestire gli Analytics.
Competenze di base – Udacity ironicamente definì questa job description come quella di un data analyst che vive a San Francisco – ma sicuramente indispensabili per poter poi muoversi verso nuove complessità.

Un Data Scientist, ma anche un data engineer, compare anche nelle ricerche di lavoro di quelle aziende che devono fare i conti con una disponibilità crescente di dati e hanno bisogno di qualcuno che le aiuti a sviluppare l’infrastruttura necessaria a gestirli.
Sono aziende che stanno muovendo i loro primi passi in questo ambito e per questo hanno bisogno di qualcuno con qualche competenza di ingegneria software di base per mettere in moto tutto il processo.
Poi ci sono aziende fortemente orientate al dato, per le quali il dato è il prodotto. Sono realtà nelle quali le attività di Data Analysis e Machine Learning risultano piuttosto intense e nelle quali sono necessarie figure con buone competenze matematiche, statistiche o ancora di fisica.
E infine ci sono loro: le aziende che non hanno il dato come prodotto ma che sui dati e sul loro significato progettano e adattano il loro futuro.
Sono realtà crescenti, numericamente parlando, e hanno bisogno sia di Data Scientist con competenze di base, sia di Data Scientist con competenze più mirate, dalla visualizzazione al Machine Learning.

Se questo è il quadro generale, che sempre Udacity ha riassunto in questo schema piuttosto efficace, arriviamo dunque alle competenze.

Le competenze di base di un Data Scientist

Sui fondamentali ci sono pochi distinguo da fare.
Fermo restando che, qualunque sia il compito che il Data Scientist è chiamato a svolgere, qualche base di ingegneria del software non è solo gradita ma necessaria, è palese che a un Data Scientist sia richiesto di sapersela cavare con linguaggi di programmazione statistica come R o Python, e con linguaggi database, come SQL.
Servono poi competenze statistiche, di base e non solo, che aiutino, in primo luogo, a stabilire quali tecniche siano le più idonee agli obiettivi da raggiungere.
Similmente, quando si ha a che fare con grandi quantità di dati e in contesti cosiddetti data-driven, tecniche e metodi di Machine Learning sono importanti: entrano dunque in gioco gli algoritmi k-NN (k-nearest neighbor, per il riconoscimento dei pattern), i classificatori foresta casuale (random forest) o ensemble.
Anche in questo caso, prima ancora che la padronanza dei singoli strumenti, è cruciale saper distinguere quale tecnica meglio si adatti a ciascun contesto.
Non dimentichiamo poi algebra lineare e calcolo multivariata: sono alla base di molte delle competenze sopra descritte e possono diventare utili quando il team che lavora sui dati decide di sviluppare in house le proprie implementazioni.

C’è poi un aspetto da non trascurare: in un mondo ideale i dati sono correttamente identificati, sono completi, sono consistenti. Nel mondo reale, il Data Scientist si trova ad avere a che fare con l’imperfezione dei dati, vale a dire con valori mancanti, con le incongruenze, con le diverse formattazioni. Una su tutte? Il formato data: DD/MM/AA-AA/MM/DD-DDMMAA e potremmo proseguire aggiungendo per lo meno altre quattro o cinque opzioni. Ecco dunque che si comincia a parlare di munging, vale a dire quelle attività che consentono di partire dai cosiddetti raw data, i dati “grezzi” per trasformarli in dati omogenei nel formato, in grado dunque di essere portati nel processo di ingestion e di analytics.

Laddove i dati sono considerati vitali per prendere decisioni di business, non è sufficiente che ci sia qualcuno in grado di svolgere le operazioni di mungling, wrangling, di analisi e di ingestion: visualizzare e comunicare i dati sono attività altrettanto critiche. Visualizzare e comunicare i dati significa descrivere ad altri le tecniche applicate e i risultati ottenuti. Per questo è importante saper utilizzare strumenti di visualizzazione come ggplot o d3.js.

Data Science: una professione multidisciplinare

Data questa premessa, la domanda inevitabile è: come ci si prepara per diventare Data Scientist?

Quella del Data Scientist è una professione multidisciplinare, come evidenziano tutti i diagrammi con i quali da tempo si cerca di “incasellare” questa figura.
Fin dal 2012, ad esempio, Brendan Tierney elaborò questo diagramma di Venn, nel quale le relazioni multidisciplinari emergono in modo evidente, così come appare chiaro che al Data Scientist più che essere “esperto di tutto, maestro di niente”, viene chiesto di diventare “esperto di tutto e maestro di qualcosa”, a indicare la necessità di trovare, all’interno di un team – perché di teamwork sempre si parla, la propria specificità.

Legenda: AI – Artificial Intelligence KDD – Knowledge Discovery and Data Mining

 

In questi anni, le definizioni, e i diagrammi, sono diventati più delineati e nel contempo più precisi.
Così, se due anni fa su Huffington Post Shelly Palmer presentò questo diagramma, tratto da un suo libro,

 

nel 2016 Gartner presentò questo schema  utile, di nuovo, a dimostrare la multidisciplinarietà della materia e soprattutto il fatto che la Data Science si colloca all’intersezione di tre discipline di business e che sarà ben difficile trovare una persona che le padroneggi tutte fin dall’inizio: molto più facile partire con una competenza di base ad esempio in statistica o informatica per poi costruirsi le altre sul campo.

Alla fine, dopo una fase di proliferazione di diagrammi di Venn, sempre più articolati e complessi, tutti sembrano però convergere su un ultimo schema, originalmente attribuito a Wikipedia, che presentiamo qui in calce e che riassume tutte le competenze che concorrono a “fare” un Data Scientist.

I percorsi di formazione, tra Università, MOOC e Bootcamp

In sintesi estrema, tre sono i percorsi più comuni per diventare Data Scientist.
Il primo è quello di seguire un corso universitario ad hoc.
Si parla di lauree specialistiche, da conseguire dopo la laurea triennale in informatica, matematica o statistica, così come di nuovi corsi che non certo a caso proprio negli ultimi due anni hanno cominciato a fiorire anche nel nostro Paese.
Il secondo percorso è quello che passa attraverso i cosiddetti MOOC, i Massive Open Online Courses, vale a dire corsi di formazione a distanza.
Ce ne sono molti e sulla Data Science sono operative realtà ben riconosciute, da Coursera a Udacity, da EdX (nata all’interno del MIT di Boston) a EMMA, nata invece in seno all’Unione Europea.
La terza opzione passa invece dai bootcamp, vale a dire attraverso una esperienza accelerata e tipicamente esperienziale, con connotazioni pratiche e di progetto.

Non esiste una via migliore delle altre: è sempre necessario fare riferimento al contesto e alle necessità. In ogni caso ecco, schematicamente le differenze più evidenti tra i tre percorsi, tralasciando, evidentemente, l’aspetto dei costi che, con un corso universitario o post universitario sono sicuramente più ingenti e che sia nei bootcamp sia nei MOOC possono addirittura essere inesistenti.

Percorso universitario

  • Tipologia di apprendimento
    Teorico, guidato da docenti universitari
  • Titolo di studio
    Laurea
  • Durata
    3+2 / 2 se post laurea
  • Esperienze pratiche
    Stage e progetti proposti dall’università
  • Ideale per
    Giovani e studenti che vogliono iniziare un percorso di studi strutturato, che li impegni a tempo pieno

MOOC

  • Tipologia di apprendimento
    Autoapprendimento, i corsi sono tenuti da docenti universitari
  • Titolo di studio
    Certificato
  • Durata
    da 6 a 12 mesi con un impegno orario nell’ordine di qualche ora alla settimana
  • Esperienze pratiche
    Nessuna, se non progetti sui base volontaria cui si voglia dedicare lo studente
  • Ideale per:
    chi pur avendo già una occupazione decida di rafforzare le proprie competenze in ambiti che potrebbero consentirgli nuove esperienze lavorative

Bootcamp

  • Tipologia di apprendimento
    Esperienziale, guidato da Data Scientist
  • Titolo di studio
    Nessuno
  • Durata
    Qualche mese in base ai progetti da sviluppare
  • Esperienze pratiche
    Lavora direttamente sui progetti
  • Ideale per
    Chi voglia dare un boost alla propria professione, con un approccio che punta direttamente alle esperienze pratiche

Venezia: parte il Master per i Data Scientist del Turismo

Dura un anno, alterna formazione frontale in aula e formazione sul campo in azienda. Conta su quattro aziende sponsor che mettono a disposizione i loro dati e i loro casi reali perché si studenti si confrontino con le sfide vere del settore. E’ il Master in Data Science for Travel, Tourism and Culture, organizzato da Ciset e Università Ca’ Foscari a Venezia. Ne parliamo qui.

Udacity: i corsi e i nanodegree per Data Analyst e Data Scientist

E’ ricco e articolato il portafoglio formativo in Data Science e Data Analysis di Udacity. Parliamo di MOOC, di durata variabile da due settimane a sei mesi. I nanodegrees prevedono certificazioni che non solo attestano la partecipazione al corso, ma anche l’effettivo livello di competenza raggiunto.
Tutte le informazioni si trovano qui.

Questo articolo è in costante aggiornamento. 

Giornalista, da trent’anni segue le tematiche dell’innovazione tecnologica applicata ai modelli e ai processi di business.Negli ultimi anni si è avvicinata al mondo dell’Internet of Things e delle sue declinazioni in un mondo sempre più coniugato in logica smart: smart manufacturing, smart city, smart home, smart health.

FacebookTwitterLinkedInWhatsApp

Commenta per primo

Lascia un commento

L'indirizzo email non sarà pubblicato.


*


FacebookTwitterLinkedInWhatsApp

Utilizzando il sito, accetti l'utilizzo dei cookie da parte nostra. maggiori informazioni

Questo sito utilizza i cookie per fornire la migliore esperienza di navigazione possibile. Continuando a utilizzare questo sito senza modificare le impostazioni dei cookie o cliccando su "Accetta" permetti il loro utilizzo.

Chiudi