RUBRICHE | Girl Geek Dinners

Data scientist: 4 miti da sfatare su uno dei mestieri del secolo

Un data scientist non è un supereroe ma un detective dei numeri, di cui si dicono tante cose, ma che alla fine non sono vere. Non del tutto

Luisa Marotta

Girl Geek Dinner Lazio

“Data scientist”: quante volte vi è capitato di leggere queste due paroline magiche tra le figure più ricercate del momento su LinkedIn o Monster? Tutti, dalle grandi aziende alle società di consulenza, dalle agenzie alle amministrazioni, sono alla spasmodica ricerca di questi scienziati dei dati. Se da tempo vi state chiedendo cosa fanno davvero e a cosa servono i “professionisti più sexy del XXI secolo” siete nel posto giusto! Infatti in questo articolo, che inaugura la rubrica Girl Geek Dinner Lazio per Ninja Marketing, sveleremo questo mistero e sfateremo i 4 principali miti che circondano alcuni hype del momento su data science e big data.

1. Un data scientist non è un super nerd

Un data scientist è una figura a metà fra l’IT ed il business, una figura che mette in connessione due mondi molto diversi che troppo spesso fanno fatica a comprendersi. Un data scientist scrive codice ma non è uno sviluppatore, un data scientist riesce a parlare con il top management calandone la visione di business in obiettivi numerici concreti e sa calare tali richieste sui sistemi ICT.

2. “Nessuno può mettere un data scientist in un angolo”

Data la natura professionale ibrida di un data scientist ad oggi è ancora difficile inquadrarli negli schemi di un’organizzazione tradizionale, inoltre un data scientist sa benissimo che le scoperte più interessanti nascono dalle hidden connections e dunque dall’unione di dati diversi, di conseguenza fatica ad entrare nelle logiche delle faide interne fra dipartimenti per il “possesso dell’informazione”.

Un data scientist crede religiosamente negli open data e per creare vero valore dovrebbe avere accesso ad un data lake in cui confluiscono tutti i dati contenuti nei vari database dipartimentali. Potenzialmente un’organizzazione smart dovrebbe avere data scientist su più tavoli e su multipli progetti da cui possono nascere sinergie incrociando informazioni e dati. Mi fanno tanto sorridere invece quelle società che oggi assumono data scientist presi dalla foga del momento (come se fossero un accessorio alla moda) e poi li tengono lontani dai dati, dai sistemi IT e dalle informazioni strategiche, che li assumono insomma e poi “li tengono in un angolo” perché non sanno bene come sfruttarli o cosa fargli fare.

3. Background rivalry? Meglio puntare sulla diversity!

Qual è il background di studi ottimale che dovrebbe avere un data scientist? Fra le varie scuole di pensiero la corrente prevalente ritiene che i migliori data scientist siano fisici e matematici, preferibilmente con un PhD alle spalle, seguiti in seconda battuta da ingegneri ed economisti (con una preferenza per chi si è specializzato in finanza o in econometria). La realtà però è che non tutti questi specialisti riescano a calarsi perfettamente nelle logiche di business, che invece un data scientist deve essere in grado di comprendere a 360°.

La molteplicità dei processi che un data scientist deve maneggiare di certo non aiuta nel definirne le conoscenze core: dalla scelta dei dati (ed in alcuni casi dalla data entry) alla manipolazione degli stessi, dalla data discovery all’implementazione dei modelli e degli algoritmi, sino alla comunicazione degli insights più rilevanti ai manager. Ecco perché la strategia vincente (che alcune aziende stanno già adottando e che ho avuto modo di appurare anche con la mia esperienza) consiste nel creare un pool di DS con diversi background e diverse skill chiave: da chi “mastica” con scioltezza ogni linguaggio, a chi conosce in profondità le differenze e i punti di forza di ogni modello statistico, da una random forest ad una rete neurale, a chi invece primeggia nella data visualization e nella creazione di dashboard dinamiche. Ovviamente la diversity più efficace è anche diversity di genere.

Big Data Storage Online Technology Database Concept

4. Dai Big Data ai Best Data

Ok, un data scientist deve saper maneggiare grandi, anzi enormi, quantità di dati ma un bravo data scientist deve essere soprattutto in grado di distinguere i dati rilevanti dal noise, dal rumore, che rischia solo di “sporcare” un dataset ed i risultati stessi del modello.

La fase della data discovery è essenziale per il successo di un progetto, mi sentirei di dire che ne è quasi la condicio sine qua non. Per questo motivo un data scientist spende circa il 70% del suo lavoro nella “pulizia” e nella profonda conoscenza dei dati prima di testare ipotesi e cimentarsi con una regressione o con un albero. Quest’opera di pulizia deve essere fatta soprattutto sia tramite l’organizzazione dei raw data, ossia dei dati non strutturati, sia tramite la selezione più appropriata delle variabili, riducendo man mano le dimensioni della nostra matrice di informazioni. A tal proposito vi sono tanti algoritmi che ci vengono in aiuto e non è da sottovalutare neppure lo studio delle correlazioni o la rappresentazione grafica tramite plot diversi delle relazioni fra variabili.

In conclusione

Nella speranza di non avervi annoiato troppo, speriamo di essere riusciti a fare chiarezza e a sfatare alcuni miti dando un panoramica di quelli che sono gli aspetti sicuramente più sfidanti di una professionalità così nuova ed ibrida.

Un data scientist non è un supereroe ma un detective dei numeri, una persona curiosa che ama lasciarsi stupire dalle connessioni più nascoste tra i dati e che crede nel potere delle informazioni per ottimizzare qualsiasi processo. La data science è una scienza che può essere applicata in ogni settore, dal marketing alla mobilità, dalla medicina alla manutenzione di asset, sino alla logistica. Insomma data science is sexy!