Il processo di Data Science: l’esplorazione dei dati

Artificial Intelligence

,

Data Intelligence

Il processo di Data Science: l’esplorazione dei dati

Roberto Verdelli | Ago 02, 2019

L’esplorazione dei dati è la fase più umanocentrica del processo di Data Science e, in quanto tale, è la più semplice da capire ma anche da fraintendere. Dietro numeri inequivocabili e affascinanti grafici colorati, infatti, si nascondono diverse trappole.

Ma partiamo dall’inizio.

Il processo di Data Science: l'esplorazione dei dati

L'esplorazione dei dati (o Data Science per essere umani)

Secondo Wikipedia, l’esplorazione dei dati ha un approccio simile all’analisi iniziale delle informazioni, per cui un analista di dati utilizza l’esplorazione visiva per capire cosa c’è in un dataset e individuare le caratteristiche dei dati.

Vediamo di analizzare meglio questa affermazione.

L’esplorazione dei dati ha un approccio simile all’analisi iniziale delle informazioni: in realtà, è l’analisi iniziale delle informazioni. L’esplorazione viene prima di qualsiasi modello di analisi statistica o di apprendimento automatico. Solo così si può evitare una pericolosa insidia: gli indicatori sintetici, come le medie e le deviazioni standard. Il paradosso di Simpson è un buon esempio di come gli indicatori globali possano rivelarsi superficiali e fuorvianti. Naturalmente si tratta di un esempio accademico, ma qualcosa di simile può accadere anche nel mondo reale, come vedrete tra un minuto.

L’esplorazione dei dati si ha quando un analista utilizza l’esplorazione visiva per capire cosa c’è in un dataset: naturalmente, è più complicato di così. Immagina di leggere una tabella enorme, con migliaia di righe e decine di colonne, piena di numeri. Puoi esaminare visivamente i dati che contiene, senza però ricavarne alcun approfondimento. Questo perché non siamo progettati per elaborare enormi tabelle di numeri, ma per fare del nostro meglio abbiamo bisogno di vedere il mondo in termini di forme, dimensioni e colori. La visualizzazione dei dati consente di fare proprio questo: una volta tradotti in linee, punti e angoli, i numeri sono molto più facili da leggere.  

Sfortunatamente, esiste una seconda insidia: i grafici ingannevoli o mal disegnati. A volte, una visualizzazione errata impedisce ai Data Scientist di cogliere gli approfondimenti giusti o di condividere le informazioni corrette. Una raccolta di ottimi esempi in questo senso è stata pubblicata qualche settimana fa da Sarah Leo per The Economist.

La Data Exploration ha lo scopo di analizzare le caratteristiche dei dati. Per essere più precisi, ha due grandi obiettivi:

  • Evidenziare le caratteristiche delle singole variabili
  • Rilevare modelli e relazioni tra le variabili

Entrambi gli obiettivi sono di fondamentale importanza, in quanto servono a orientare la successiva fase di analisi approfondita. Per dimostrare la veridicità di questa affermazione e rivelare le insidie proprie dell’esplorazione dei dati, un caso di studio può forse essere più utile delle parole.

Un caso di studio: temperatura e carico energetico 

In questo esempio utilizzeremo un dataset pubblico sul carico energetico e la temperatura dell’aria in Grecia. I dati disponibili coprono 4 anni con granularità oraria, ma per semplicità prenderemo in considerazione solo il 2007. Supponiamo di voler sviluppare algoritmi per la previsione dell’energia e di voler capire se la temperatura esercita una qualche influenza positiva.

Dopo un’adeguata elaborazione, i dati appaiono così:Un caso di studio: temperatura e carico energetico

Una prima prova potrebbe essere calcolare la correlazione lineare di Pearson:

Un caso di studio: la correlazione lineare di Pearson
Il risultato è un triste 0,42. Potremmo essere tentati di trascurare la temperatura e andare avanti, ma siamo ben consapevoli dei rischi presentati dagli indicatori di sintesi, perciò decidiamo di effettuare un’adeguata analisi visuale:

Un caso di studio: i grafici ci salvano dal commettere errori

Ora è evidente che esiste una relazione tra i due elementi, ma non è lineare, quindi la correlazione lineare non può individuarla in maniera efficace. Tuttavia, un modello predittivo adeguato può. Il grafico ci ha evitato di trarre una conclusione errata e ci ha dato un ottimo suggerimento per migliorare i nostri modelli. Eppure, nasconde anche qualcosa. Guardando attentamente, si può notare qualcosa di strano nella parte sinistra, come se ci fossero due diversi ammassi di punti. Proviamo a introdurre qualche cambiamento:

Un caso di studio: i grafici in scala cromatica aiutano nella progettazione di modelli efficaci

Il rapporto tra carico energetico e temperatura varia a seconda dell’orario della giornata. Un altro indizio utile per la progettazione di modelli efficaci, che però risultava poco evidente dal primo grafico. È bastato aggiungere l’ora del giorno sotto forma di scala cromatica per farlo emergere.

Conclusioni

Abbiamo dimostrato come, nel mondo reale, l’esplorazione dei dati sia fondamentale per qualsiasi progetto di scienza dei dati. Per quanto possa sembrare facile, in realtà nasconde insidie che possono impedire ai Data Scientist di avere le giuste intuizioni. In particolare, il caso di studio ci ha fornito alcuni suggerimenti:

  • Non trarre conclusioni basate su indicatori sintetici
  • Fare attenzione ai grafici: quelli sbagliati possono ingannare, mentre quelli giusti possono fornire indizi importanti
  • Essere umani: dare retta all’intuito e indagare ogni volta che sembra ci sia qualcosa di strano

New call-to-action

Risorse aggiuntive sul processo di Data Science 

Di seguito riportiamo un indice degli argomenti trattati nel corso di questa serie:

 

Interessato a scoprire di più?

Sei pronto a sviluppare una strategia più scientifica e guidata dai dati per il tuo business? Scopri le nostre soluzioni e i nostri servizi per la data intelligence

Scopri di più 

Iscriviti!