A contínua evolução dos sistemas empresariais contribuiu, inclusive através dos processos de Transformação Digital, para a introdução e otimização de novas tecnologias destinadas à análises empresariais.
O principal objetivo é controlar a mudança em um mercado em contínuo e surpreendente crescimento, através da adoção de novas tecnologias, entre elas Big Data, Inteligência Artificial, Aprendizado de Máquina e Data Lakes Empresariais, estes, atualmente, em crescente demanda.
O que é Data Lake?
Data Lake e Data Warehouse são parecidos: ambos os sistemas foram pensados para habilitar o armazenamento de um grande volume de dados. Para compreender melhor as diferenças entre Data Lake e Data Warehouse temos que analisar com maior atenção as suas principais aplicações.
O Data Lake é um repositório compartilhado que permite adquirir e armazenar grandes quantidades de dados provenientes de sistemas heterogêneos em formato original, ou seja, dados brutos estruturados, semiestruturados e não estruturados. A aquisição pode ocorrer tanto de sistemas legados, como CRM e ERP, quanto de fontes externas, como IoT e redes sociais. O objetivo do Data Lake é, portanto, oferecer uma visão dos dados não necessariamente refinada como suporte das atividades de Data Discovery (Descoberta de Dados), característica que o torna adequado aos usuários experientes.
O Data Warehouse, ao contrário, tem como objetivo oferecer, através ferramenta de Negócios e Analítica de Big Data, uma visão única da empresa: uma visão controlada e certificada através processos específicos de ingestão, que são destinados a memorizar apenas os dados elaborados para um objetivo e/ou um plano de negócios bem claro.
Uma das principais vantagens do Data Lake é a capacidade de armazenar qualquer tipo de dado. Tal característica é ainda mais evidente quando os dados são adquiridos com frequência horária e/ou diária, através de estruturas em árvores (vamos imaginar a estrutura de arquivos "pastas" e "subpastas" organizadas por ano, mês, dia e, caso seja solicitado, por hora). No Data Lake a historialização e a recuperação subsequente do dado são obtidas sem qualquer degradação de desempenho, ao contrário do que poderia acontecer com o Data Warehouse quando opera com grande volume de dados.
Principais diferenças entre Data Lake e Data Warehouse
As principais características que distinguem um Data Lake de um sistema tradicional de Data Warehouse são inúmeras, partindo do tipo de dados adquiridos e da estrutura dos mesmos. Vamos resumir as principais diferenças e analisar as mais importantes:
DATA LAKE | DATA WAREHOUSE | |
Structure of the data | Raw (structured, semi-structured and non structured) | Structured, processed |
Purpose of the data | To be defined, defined NB: It is possible that there are data for which the purpose has not been defined yet (for future use) |
Defined |
Operating method | On Read | On Write |
Users | Data Scientists | Business Users |
Accessibility | High level of accessibility and simple to update | Access and updates more complicated and expensive |
Storage | Limited costs and distributed storage (potentially expandable on a cloud) | Costs and review of the ingestion processes are expensive |
Estrutura de dados: Raw x Processados
Como dissemos, uma das principais características do Data Lake é a possibilidade de adquirir dados brutos (dados de fontes individuais em formato original) sem a preocupação de definir previamente uma estrutura em fase de aquisição: os Data Lakes memorizam principalmente os dados brutos não elaborados.
Para alimentar um Data Warehouse, em contrapartida, é necessário efetuar uma análise preventiva com o objetivo de otimizar a aquisição dos mesmos dados através dos clássicos processos ETL (Extrair, Transformar e Carregar), durante os quais podem ser aplicados, além das lógicas de transformação, os processos suplementares de qualidade de dados.
Todos esses dados brutos apresentam um risco: os Data Lakes podem se transformar em silos segmentados que, na ausência de uma política adequada de qualidade, gestão e retenção de dados, correm o risco de anular as análises dos usuários e dos processos a eles ligados.
Tal eventualidade é mais concreta do que parece e deve ser considerada com atenção, tanto na fase de configuração quanto na fase de manutenção.
Usuários: Data Scientist x Usuários de Negócios
Vamos esclarecer logo este ponto: efetuar análise em Data Lake não é para qualquer um.
É fato que os principais fornecedores de ferramentas de Inteligência Empresarial & Analítica - como Qlik, Microsoft, Oracle e Tableau, para citar alguns - estão trabalhando em ritmo acelerado para colocar à disposição cada vez mais conectores que deem transparência às fontes de dados (Data Lake, Bancos de Dados relacionais,
Data Warehouse e fluxos de streaming).
Apesar disso, permanece o fato que o Data Lake requer maior competência e, portanto, acaba sendo direcionado para usuários avançados.
Ao contrário, painéis e relatórios oferecidos através do Data Warehouse e do Data Mart (Repositório de Dados) podem ser utilizados por um público mais amplo, que tem como objetivo principal a análise de informações nos processos de negócios e métricas predefinidas.
Data Lake e Data Warehouse: restrições ou oportunidades?
Neste breve artigo, listamos as principais características dos Data Lakes e dos Data Warehouses. A este ponto vale a pena perguntar: “Qual é a solução mais adequada para a minha empresa? O que devo escolher?”
A resposta é: “Ninguém disse que você tem que escolher!”
Ao contrário do que se possa pensar, as duas tecnologias não estão em competição uma com a outra, mas sim - são complementares. Nos últimos anos, sobretudo graças à consolidação dos serviços em nuvem (AWS e Azure principalmente), o paradigma ligado aos sistemas de informação continuou a evoluir introduzindo novos conceitos e arquiteturas que fundem as tecnologias ligadas ao Data Lake, Big Data e Data Warehouse. Desta fusão nasceram os “Data Warehouses Modernos” e os “Data Warehouses em Tempo Real”, que preveem como primeiro nível de integração exatamente os Data Lakes e os módulos Big Data.