Il processo di Data Science: Definizione del Problema

Artificial Intelligence

,

Data Intelligence

Il processo di Data Science: Definizione del Problema

Manuel Ángel García | mag 22, 2019

Oggi, si parla dovunque di Data Science.

Spesso, per esempio, quando navighiamo su una pagina web, se selezioniamo un prodotto ci vengono consigliati quelli acquistati da altri utenti. O ancora, quante volte ti è capitato di inserire una frase nella barra di ricerca che Google ha completato automaticamente per te? 

Ma sappiamo davvero che cosa siano la Data Science e i Big Data? Ne comprendiamo il significato? E, soprattutto, sappiamo come affrontare un progetto di Machine Learning? 

Nel nostro precedente articolo Data Intelligence: un nuovo approccio alla risoluzione dei problemi e alle strategie di business illustrato alcuni termini chiave e la procedura per introdurre la scienza dei dati in azienda. Da qui in avanti ci occuperemo delle fasi principali del processo di Data Science e di come affrontarne una per una. Questo articolo spiega come impostare le basi per un progetto di Data Science. 

Il processo di data science: definizione del problema

Problemi comuni dei nuovi progetti di Data Science 

I processi aziendali rappresentano oggetti analitici dalla complessità sempre maggiore. Le informazioni da analizzare arrivano da diverse fonti e in diversi formati, che devono essere esaminati il più rapidamente possibile.

Quali sono le sfide da affrontare quando si mette in produzione un progetto di Data Science nella propria azienda? Ogni caso è a sé (e dovrebbe essere trattato come tale), per cui non esiste una risposta univoca a questa domanda, ma è possibile prendere in esame alcuni dei problemi più ricorrenti: 

Innanzitutto la mancanza di profili con adeguata conoscenza e specializzazione. Poi, una struttura organizzativa rigida che abbia già implementato architetture tecnologiche principalmente progettate per i progetti tradizionali di BI; varietà e volumi di dati sono difficili da gestire per buona parte delle aziende, e lo streaming di dati in tempo reale è sempre più richiesto da molti.

Per quanto fin qui si sia parlato di questioni prettamente tecniche, il problema forse più importante da affrontare è la capacità di individuare quale sia il business driver che incide direttamente sugli introiti dell'azienda, aumentando i ricavi e riducendo i costi. Il miglior modo per vendere un progetto di Data Science all'azienda è dimostrare che tipo di problemi aziendali risolverà e quale impatto avrà sui risultati. 

In questo scenario, è chiaro che l'approccio da considerare per i progetti di Data Sience deve essere diverso da quello applicato ai tradizionali progetti di Data Warehousing o di Business Intelligence. 

Dal nostro punto di vista, la cosa più importante nell'affrontare questo genere di progetti è la creatività: ci si trova di fronte a problemi nuovi, che non possono essere risolti tramite approcci tradizionali, quindi bisogna affrontarli con una mentalità libera da pregiudizi

I metodi più comuni utilizzati nei progetti di Advanced Analytics partono da una fase chiamata Problem Statement o Problem Shaping, cioè dal processo di identificazione del problema che si vuole risolvere e dei vantaggi commerciali da ottenere. Insomma,
un approccio molto diverso dai classici progetti di BI, dove il problema aziendale è già noto in anticipo. 

Come si fa? Dobbiamo essere pronti a porci le giuste domande

La regola d'oro per definire l'obiettivo di un progetto è di porre domande “acute” che siano pertinenti, specifiche e non ambigue, e affinarle nel tempo: “come posso aumentare i miei profitti?” non è una buona domanda per una soluzione di machine learning, mentre “che tipo di auto del mio parco macchine si romperà per prima?” o “quanta energia consumerà il mio impianto di produzione nel prossimo trimestre?” sono esempi decisamente migliori.  

Il processo di data science: definizione del problema

Se vogliamo che i dati lavorino per noi, dobbiamo essere in grado di porre le domande giuste. Solo così i dati potranno offrirci ampie prospettive, fare previsioni generalmente accurate e incrementare le nostre conoscenze.

Inoltre, il Problem Shaping è un classico processo “autogenerativo”, simile al brainstorming: domande valide e innovative aiutano il team a generare ulteriori domande intelligenti. In questa fase del progetto il pensiero laterale è una soft skill molto preziosa.  

Un altro aspetto significativo è la capacità di trasmettere i risultati forniti dai dati. Gli esseri umani, per loro stessa natura, hanno pregiudizi che influenzano il modo in cui percepiscono i risultati, per cui bisogna trovare il modo più efficace per “raccontare la
storia” dei dati, passo molto importante per il successo di un progetto.

Ci sono strumenti che possono aiutare a definire il problema?  

La definizione del problema è la fase del processo di Data Science che più di ogni altra dipende dalle soft skill (rispetto alle competenze tecnologiche o hard skill), tuttavia, dal momento che si basa su domande e dati, a volte in grandi quantità, può essere
utile disporre di uno strumento di analisi dei dati... (e, no, l'analisi dei Big Data non può e non deve essere fatta con Excel!)

In questa fase del progetto, un fattore chiave è la collaborazione tra data scientist e utenti business che, in definitiva, sono quelli con le conoscenze più ampie nel settore e sono quindi coloro che apriranno la strada per il successo. Dalla nostra esperienza, questa collaborazione è facilitata da strumenti per la visualizzazione dei dati

I tool di visualizzazione dei dati come Qlik o Tableau in genere sono in grado di accedere direttamente a diversi tipi di fonti di dati strutturati e non, in modo da poter essere applicati sui dati grezzi, e sono estremamente efficaci nell'identificare tendenze, anomalie o dati aberranti nei dati analizzati con un livello di produttività molto superiore rispetto al classico approccio tabulare.  

Come già detto in precedenza, dobbiamo tenere a mente che un progetto di Data Science è prima di tutto un progetto di Business, quindi deve essere sempre orientato al raggiungimento di risultati focalizzati sull'attività e avere una visione globale in linea con la strategia di business.

I progetti di BI tradizionali tendono a essere impostati su obiettivi a lungo termine, tanto che il cliente spesso non ne vede i risultati fino al completamento; questo, in molti casi, produce scarti sia in termini di costi che di portata. I progetti di machine learning, invece, devono avere obiettivi a breve termine e vanno gestiti con un approccio agile: il ricircolo di domande, ipotesi e dati correlati all'interno dell'azienda deve essere continuo, le nuove scoperte devono essere utilizzate per orientare e migliorare le successive serie di progetti e i risultati, anche parziali, vanno condivisi con il personale per mantenerne sempre elevato l'impegno.

Nell'esperienza di Techedge, abbiamo trovato molto efficace l'uso dei Notebook (Jupiter è il più noto ma ne esistono molti altri) come strumento per spiegare agli utenti business cosa stanno facendo i tecnici, quali dati ci comunicano e quali risultati stiamo ottenendo dall'applicazione di modelli e algoritmi, in modo da creare una sorta di “terreno comune” in cui combinare dati tecnici e concetti di business per mantenere il fondamentale allineamento del progetto.

Per concludere, riassumendo l'argomento principale dell'articolo, per individuare al meglio i problemi bisogna essere curiosi, arguti e SEMPRE CREATIVI!

 

Vuoi scoprire di più?

Sei pronto ad implementare una strategia più scientifica e guidata dai dati per le tue attività aziendali? Guarda i nostri servizi e soluzioni per la Data Intelligence. 

Scopri di più 

Iscriviti!