QUAL É A DIFERENÇA ENTRE DATA LAKE E DATA WAREHOUSE?

Data Intelligence

,

Inteligencia de dados

QUAL É A DIFERENÇA ENTRE DATA LAKE E DATA WAREHOUSE?

Massimo Gigliotti | Mai 29, 2019

A contínua evolução dos sistemas empresariais contribuiu, inclusive através dos processos de Transformação Digital, para a introdução e otimização de novas tecnologias destinadas à análises empresariais.

O principal objetivo é controlar a mudança em um mercado em contínuo e surpreendente crescimento, através da adoção de novas tecnologias, entre elas Big Data, Inteligência Artificial, Aprendizado de Máquina e Data Lakes Empresariais, estes, atualmente, em crescente demanda.

O que é Data Lake?

Data Lake e Data Warehouse são parecidos: ambos os sistemas foram pensados para habilitar o armazenamento de um grande volume de dados. Para compreender melhor as diferenças entre Data Lake e Data Warehouse temos que analisar com maior atenção as suas principais aplicações.

O Data Lake é um repositório compartilhado que permite adquirir e armazenar grandes quantidades de dados provenientes de sistemas heterogêneos em formato original, ou seja, dados brutos estruturados, semiestruturados e não estruturados. A aquisição pode ocorrer tanto de sistemas legados, como CRM e ERP, quanto de fontes externas, como IoT e redes sociais. O objetivo do Data Lake é, portanto, oferecer uma visão dos dados não necessariamente refinada como suporte das atividades de Data Discovery (Descoberta de Dados), característica que o torna adequado aos usuários experientes.

Data Warehouse, ao contrário, tem como objetivo oferecer, através ferramenta de Negócios e Analítica de Big Data, uma visão única da empresa: uma visão controlada e certificada através processos específicos de ingestão, que são destinados a memorizar apenas os dados elaborados para um objetivo e/ou um plano de negócios bem claro.

Uma das principais vantagens do Data Lake é a capacidade de armazenar qualquer tipo de dado. Tal característica é ainda mais evidente quando os dados são adquiridos com frequência horária e/ou diária, através de estruturas em árvores (vamos imaginar a estrutura de arquivos "pastas" e "subpastas" organizadas por ano, mês, dia e, caso seja solicitado, por hora). No Data Lake a historialização e a recuperação subsequente do dado são obtidas sem qualquer degradação de desempenho, ao contrário do que poderia acontecer com o Data Warehouse quando opera com grande volume de dados.

Principais diferenças entre Data Lake e Data Warehouse

As principais características que distinguem um Data Lake de um sistema tradicional de Data Warehouse são inúmeras, partindo do tipo de dados adquiridos e da estrutura dos mesmos. Vamos resumir as principais diferenças e analisar as mais importantes:

  DATA LAKE DATA WAREHOUSE
Structure of the data Raw (structured, semi-structured and non structured) Structured, processed
Purpose of the data To be defined, defined
NB: It is possible that there are data for which the purpose has not been defined yet (for future use) 
Defined
Operating method On Read On Write
Users Data Scientists Business Users
Accessibility High level of accessibility and simple to update Access and updates more complicated and expensive 
Storage Limited costs and distributed storage (potentially expandable on a cloud) Costs and review of the ingestion processes are expensive

 

Estrutura de dados: Raw x Processados

Como dissemos, uma das principais características do Data Lake é a possibilidade de adquirir dados brutos (dados de fontes individuais em formato original) sem a preocupação de definir previamente uma estrutura em fase de aquisição: os Data Lakes memorizam principalmente os dados brutos não elaborados. 

Para alimentar um Data Warehouse, em contrapartida, é necessário efetuar uma análise preventiva com o objetivo de otimizar a aquisição dos mesmos dados através dos clássicos processos ETL (Extrair, Transformar e Carregar), durante os quais podem ser aplicados, além das lógicas de transformação, os processos suplementares de qualidade de dados.

Todos esses dados brutos apresentam um risco: os Data Lakes podem se transformar em silos segmentados que, na ausência de uma política adequada de qualidade, gestão e retenção de dados, correm o risco de anular as análises dos usuários e dos processos a eles ligados.

Tal eventualidade é mais concreta do que parece e deve ser considerada com atenção, tanto na fase de configuração quanto na fase de manutenção.

Usuários: Data Scientist x Usuários de Negócios

Vamos esclarecer logo este ponto: efetuar análise em Data Lake não é para qualquer um.

É fato que os principais fornecedores de ferramentas de Inteligência Empresarial & Analítica - como Qlik,  Microsoft, Oracle e Tableau, para citar alguns - estão trabalhando em ritmo acelerado para colocar à disposição cada vez mais conectores que deem transparência às fontes de dados (Data Lake, Bancos de Dados relacionais,
Data Warehouse e fluxos de streaming).

Apesar disso, permanece o fato que o Data Lake requer maior competência e, portanto, acaba sendo direcionado para usuários avançados. 

Ao contrário, painéis e relatórios oferecidos através do Data Warehouse e do Data Mart (Repositório de Dados) podem ser utilizados por um público mais amplo, que tem como objetivo principal a análise de informações nos processos de negócios e métricas predefinidas.

Data Lake e Data Warehouse: restrições ou oportunidades?

Neste breve artigo, listamos as principais características dos Data Lakes e dos Data Warehouses. A este ponto vale a pena perguntar: “Qual é a solução mais adequada para a minha empresa? O que devo escolher?” 

A resposta é: “Ninguém disse que você tem que escolher!”

Ao contrário do que se possa pensar, as duas tecnologias não estão em competição uma com a outra, mas sim - são complementares. Nos últimos anos, sobretudo graças à consolidação dos serviços em nuvem (AWS e Azure principalmente), o paradigma ligado aos sistemas de informação continuou a evoluir introduzindo novos conceitos e arquiteturas que fundem as tecnologias ligadas ao Data Lake, Big Data e Data Warehouse. Desta fusão nasceram os “Data Warehouses Modernos” e os “Data Warehouses em Tempo Real”, que preveem como primeiro nível de integração exatamente os Data Lakes e os módulos Big Data.

Inscreva-se!