Il Processo di Data Science: La Raccolta dei Dati Grezzi

Artificial Intelligence

,

Data Intelligence

Il Processo di Data Science: La Raccolta dei Dati Grezzi

Stefano Oddone | Lug 24, 2019

Dal momento che i dati costituiscono il fondamento di ogni attività di analisi, dobbiamo investire una buona parte del nostro tempo per comprenderli. In questo post mi concentrerò in particolare su dove trovarli, quali tecniche e strumenti sono più utili e, soprattutto, quali sono le competenze giuste per avere successo in questa fase fondamentale del processo di scienza dei dati.

Tipi e fonti di dati

Gli attributi utilizzabili per classificare i dati sono davvero tanti, ma a mio modesto parere uno dei più rilevanti è «dati interni/esterni». Le aziende tendono a porre molta enfasi sui propri dati interni perché sono subito disponibili, apparentemente a buon mercato e, inoltre, vengono considerati «la verità»: poiché non mi è possibile dilungarmi in questa sede, eviterò di disquisire su questo punto. Ciò detto, vorrei richiamare la tua attenzione sul fatto che la stragrande maggioranza dei dati relativi al business che stai gestendo vengono prodotti al di fuori del tuo firewall: dati di mercato, sulla concorrenza, sui clienti effettivi e potenziali, report degli analisti, blog dei consumatori, forum degli utenti finali, tweet... Se combinati, questi elementi producono inevitabilmente un quadro generale meglio definito, più chiaro e utile di qualsiasi fonte interna.    

Ora, se mi concedi che i dati esterni potrebbero davvero rivelarsi utili per comprendere la tua attività, devi però considerare la differenza tra dati pubblici e privati. Se i dati sono pubblici, tutti i tuoi concorrenti avranno le tue stesse opportunità di sfruttarli per migliorare la propria analisi: quello che può fare la differenza è il modo in cui decidi di usarli. È un po’ come se fornissi a me e a uno chef professionista gli stessi ingredienti e le stesse ricette: posso assicurarti che il risultato finale sarebbe molto diverso, poiché il vantaggio competitivo risiede nella diversa capacità di sfruttare gli stessi ingredienti.

D’altra parte, se sai cose che i tuoi concorrenti non sanno hai un potenziale vantaggio competitivo: dico «potenziale» alla luce di quanto detto sopra, ma in generale «sapere è potere», quindi possiamo supporre che più sai, migliori saranno le decisioni che potrai prendere.  

I dati privati (per es. i diversi comportamenti di acquisto, il monitoraggio della posizione, gli abbonamenti ai servizi...), invece, hanno qualche piccolo effetto collaterale: si deve pagare per averli (visto che non credo di avere hacker tra i miei lettori), sono più complessi da aggiornare e mantenere e la loro disponibilità futura non è sempre certa, perciò potrebbero essere utili per analisi puntuali ma costituire un rischio nell’ottica di una strategia a lungo termine. Ah, quasi dimenticavo: i dati privati tendono a creare problemi a livello di riservatezza, per cui è bene allertare fin da subito il proprio ufficio legale.

Strumenti per la raccolta dati 

La raccolta dei dati è una fase fondamentale di qualsiasi percorso di analisi. Fortunatamente esistono molti strumenti utili per gestire questo compito in maniera efficace, dai tipici strumenti ETL o ELT come Oracle Data Integrator, IBM DataStage o Microsoft DTS, agli strumenti di integrazione dati orientati al cloud come Talend o Azure Data Factory. In Techedge siamo esperti nell’interrogare, filtrare, ripulire, trasformare e memorizzare i dati, per piccoli data mart come per grandi data lake.

Quando si tratta di flussi di dati in tempo reale, però, le cose sono piuttosto diverse, perché non si ha il tempo di trasformarli. A differenza di quanto accade per i flussi di dati batch, i compiti legati alla qualità dei dati possono essere definiti come attività di «riduzione del rumore» e le tecnologie utilizzate sono molto specifiche: per questo tipo di lavoro, Kafka, Azure Event Hubs, AWS Kinesis e Google Cloud Dataflow saranno i tuoi migliori amici.

Se hai bisogno di ricavare i dati da siti web e blog (web scraping), ancora una volta puoi trovare utile ricorrere a strumenti web come Mozenda o Octoparse, mentre se hai esigenze particolari (come l’estrazione di indirizzi e-mail, immagini o numeri di telefono) puoi trovare facilmente strumenti dedicati.  

Ora che ho citato le soluzioni di integrazione dei dati più famose, posso rivelare un piccolo segreto: tutte queste tecnologie sono ottime, utili per aumentare la produttività, l’affidabilità e la tracciabilità... ma per chi avesse fretta (si sa, a volte capita) è bene considerare che un esperto di codifica in «modalità turbo» può essere sorprendentemente veloce ed efficiente nel produrre codici Python, Java o Scala in grado di assimilare senza problemi qualsiasi fonte di dati.

Riassumendo: «Lunga vita alle piattaforme leader di mercato e ai servizi pronti all’uso... nel regno dei Cavalieri del codice»    

Competenze necessarie

Sì, siamo nell’era del Cloud, in cui la maggior parte dei dati non è strutturata e risiede in testi, immagini, video e clickstream (in fondo non è da molto che ordiniamo i fatti in righe e colonne, se si considera che i Sumeri hanno inventato il linguaggio scritto già nel 4000 a.C.), ma per me SQL e Teoria dei database relazionali sono ancora un must, nozioni fondamentali da cui un vero ingegnere dei dati non può prescindere. Puoi investire nelle tecnologie di integrazione dei dati più innovative e accattivanti che vuoi, ma il vecchio, caro linguaggio SQL sarà sempre lì a guardarti con il suo sorriso bonario e rassicurante.

Per saperne di più sull'argomento, non dimenticarti di leggere il nostro primo blog sul Processo di Data Science: definizione del problema

Risorse aggiuntive sul processo di Data Science 

Di seguito riportiamo un indice degli argomenti trattati nel corso di questa serie:

 

Vuoi Saperne di Più?

Sei pronto a sviluppare strategie guidate dai dati per le tue operazioni di business? Scopri i nostri servizi e le nostre soluzioni per la Data Intelligence

Scopri di più 

Iscriviti!