Data Lake, Data Warehouse: cosa sono e come si differenziano?

Data Intelligence

Data Lake, Data Warehouse: cosa sono e come si differenziano?

Massimo Gigliotti | Ago 01, 2019

La continua evoluzione dei sistemi aziendali ha di fatto contribuito, anche attraverso i processi di Digital Transformation, all’introduzione e all’ottimizzazione di nuove tecnologie dedicate alla business analytics.

L’obiettivo principale è governare il cambiamento all’interno di un mercato in continua e repentina crescita, attraverso l’adozione di nuove tecnologie tra cui Big Data, processi di Artificial Intelligence, Machine Learning e gli ormai sempre più richiesti Data Lake aziendali.

Data Lake, Data Warehouse: cosa sono e come si differenziano?

Cosa si intende per Data Lake? 

Il Data Lake e il Data Warehouse, in prima battuta, si assomigliano: entrambi i sistemi sono pensati per abilitare l’archiviazione di una grande mole di dati. Per comprendere meglio quali siano le differenze di un Data Lake rispetto a un Data Warehouse dobbiamo analizzare più attentamente le loro finalità principali.

Il Data Lake è un repository condiviso che permette di acquisire e archiviare grandi quantità di dati da sistemi eterogenei in formato nativo, cioè dati raw strutturati, semi-strutturati e non strutturati. L’acquisizione può avvenire sia da sistemi legacy, come CRM e ERP, che da fonti esterne quali feed, IoT e social data.
Lo scopo del Data Lake pertanto è di rendere disponibile una visione dei dati non necessariamente raffinata a supporto delle attività di Data Discovery, caratteristica che lo rende adatto a utenti esperti.

Al contrario, il Data Warehouse ha l’obiettivo di rendere disponibile, attraverso tool di Business e Big Data Analytics, una visione unica dell’azienda: una visione controllata e certificata attraverso appositi processi di ingestion, che sono volti a memorizzare solo i dati elaborati per uno scopo e/o un processo di business ben preciso.

Uno dei principali punti di forza dei Data Lake è la capacità di immagazzinare qualsiasi tipo di dato. Tale caratteristica è ancora più evidente quando i dati vengono acquisiti con una frequenza oraria e/o giornaliera, tramite strutture ad albero (pensiamo a una struttura del file system in “cartelle” e “sottocartelle” organizzate per anno, mese, giorno e se richiesto ora). Sul Data Lake la storicizzazione e il successivo recupero del dato è ottenibile senza alcun degrado di performance, diversamente da quanto potrebbe accadere invece con i Data Warehouse per una grossa mole di dati.

Differenze principali tra Data Lake e Data Warehouse 

Le caratteristiche peculiari che distinguono un Data Lake da un sistema tradizionale di Data Warehouse sono molteplici, a partire dal tipo di dati acquisiti e dalla struttura degli stessi. Riassumiamo le principali differenze e analizziamo le più importanti.

  DATA LAKE DATA WAREHOUSE
Struttura dei dati  Grezzi (strutturati, semi-strutturati e non strutturati) Strutturati, Elaborati
Finalità dei dati Da Definire, Definita
Nota: È possibile che vi siano dati per i quali la finalità non è stata definita (ad uso futuro)
Definita
Schema On Read On Write
Utenti Data Scientist Business User
Accessibilità Elevata accessibilità e semplicità di aggiornamento Accesso e aggiornamenti più complicati e costosi 
Storage Costi limitati e storage distribuito (potenzialmente espandibile su cloud) Costi e review dei processi di ingestion onerosi


Struttura dei Dati: Raw vs. Elaborati

Come già anticipato una delle principali caratteristiche dei Data Lake è la possibilità di acquisire i raw data (dati delle singole sorgenti in formato nativo) senza preoccuparsi di definire a priori una struttura in fase di acquisizione: i Data Lake memorizzano principalmente dati grezzi non elaborati

Per alimentare un Data Warehouse è invece necessario effettuare un’analisi preventiva allo scopo di ottimizzare l’acquisizione dei dati stessi attraverso i classici processi ETL (Extract, Transform & Load), durante i quali possono essere applicate, oltre alle logiche di trasformazione, processi aggiuntivi di data quality.

Tutti questi dati grezzi presentano tuttavia un rischio: i Data Lake possono diventare dei silos segmentati che, in assenza di un'adeguata politica di data quality, governance e retention, rischiano di vanificare le analisi degli utenti e dei processi collegati. Tale eventualità è più concreta di quanto sembri e deve essere attentamente considerata, sia in fase di set-up che di mantenimento.

Se sei interessato ad approfondire questi argomenti puoi dare un'occhiata ai più recenti articoli sulla raccolta dei dati grezzi e su consigli per la qualità, pulizia e storage dei dati.

Utenti: Data Scientist vs. Business User

Chiariamo subito questo punto: effettuare analisi sul Data Lake non è per tutti.

È un dato di fatto che i principali vendor di tool di Business Intelligence & Analytics  - come Qlik, Microsoft, Oracle e Tableau, per citarne alcuni - stanno lavorando a ritmo serrato per mettere a disposizione sempre più connettori che rendano trasparente la sorgente dati (Data Lake, Database relazionali, Data Warehouse e flussi di streaming).

Nonostante questo, resta il fatto che il Data Lake richiede maggiori competenze e pertanto risulta essere rivolto a un’utenza evoluta.

Al contrario, dashboard e report resi disponibili tramite Data Warehouse e Data Mart possono essere utilizzati da una platea più ampia, che ha come obiettivo primario l’analisi delle informazioni su processi di business e metriche predefinite.

Data Lake e Data Warehouse: vincoli o opportunità? 

In questo breve articolo abbiamo elencato le principali caratteristiche  dei Data Lake e dei Data Warehouse. Arrivati a questo punto vale la pena chiedersi: “Qual è la soluzione più adatta alla mia azienda? Cosa mi conviene scegliere?”

La risposta è: “Non è detto che tu debba scegliere!

Contrariamente a quello che si potrebbe pensare le due tecnologie non sono in competizione tra loro - sono invece complementari. Negli ultimi anni, soprattutto grazie al consolidamento dei servizi in cloud (AWS e Azure in primis), il paradigma legato ai sistemi di reportistica si è continuato a evolvere introducendo nuovi concetti e architetture che fondono le tecnologie legate a Data Lake, Big Data e Data Warehouse. Da questa fusione sono nati i “Modern Data Warehouse” e i “Real Time Data Warehouse”, che prevedono come primo livello di integrazione proprio i Data Lake e i moduli Big Data.

 

Interessato a Scoprire di più?

Sei pronto a estrarre valore dai tuoi dati implementando una strategia data-driven nella tua azienda? Scopri i nostri servizi e le nostre soluzioni per la data intelligence. 

Scopri di più 

Iscriviti!