"Em 2019 o Gartner publicou o artigo "Data Modeling to Support End Data Architectures" onde é mencionado que a complexidade da arquitetura de dados requer um projeto de dados hábil, pois cada elemento de dados deve ser modelado e cada um pode requerer uma modelagem diferente".
Hoje em dia é mais comum ouvir conceitos como análise, transformação digital, negócios inteligentes, decisões orientadas por dados, entre outros, mas para que todos esses conceitos se tornem realidade, é necessário acumular grandes quantidades de dados, mas mais do que isso, é necessário ter a capacidade de usá-los e para conseguir isso é necessário modelá-los.
Agora que vivemos na era do Big Data, o conceito do Modelo de Dados torna-se um pouco obscuro, porque há muita informação online insistindo que agora a única coisa a fazer é usar data lake, onde você pode armazenar praticamente qualquer elemento digital para ser usado ou analisado rapidamente por dezenas de serviços e obter "insights" quase instantaneamente.
Isso é parcialmente verdade, mas não muda o fato de que os elementos ali armazenados sem uma finalidade e modelos conceituais, lógicos e físicos são praticamente inúteis. Em outras palavras, o conceito de modelagem de dados é mais válido do que nunca, como Chris Bradley, um dos principais colaboradores do DMBOK, mencionou durante anos em várias publicações.
O que é um modelo de dados?
Ao contrário do que ainda é ensinado em muitas universidades e mencionado superficialmente em muitos artigos na Internet, a modelagem de dados não é o design e a descrição gráfica de um banco de dados relacional. Um modelo de dados é a descrição de uma empresa, claro, não é uma descrição com palavras como à primeira vista você poderia pensar, é uma descrição com entidades e relacionamentos, a modelagem de dados é frequentemente interpretada como modelos de banco de dados, mas na realidade no nível corporativo as entidades e relacionamentos estão imersos em todos os níveis da organização, os dados são produzidos e utilizados em todos os níveis da empresa, portanto os modelos de dados não são exceção.
Quando falamos de modelagem de dados, devemos ter claro que as organizações precisam agora gerenciar seus dados como ativos, de forma semelhante à forma como administraram pessoas, lugares ou coisas até hoje. Tais ativos precisam ser criados, lidos, atualizados, excluídos e/ou arquivados, porém, temos agora um desafio adicional e que é o de pensar não apenas em como os dados devem ser modelados, mas também em como modelar metadados.
Que modelos de dados devem ser criados?
Modelo corporativo
Para entender estes conceitos, vamos usar um exemplo. Quando um arquiteto imagina um novo complexo habitacional ele não está pensando nos planos detalhados de cada uma das unidades, na realidade, ele está imaginando um conceito para as pessoas que poderiam viver lá. Da mesma forma, quando pensamos em modelagem de dados devemos pensar no conceito do negócio, o que ele representa, o que o diferencia, literalmente é como uma visão aérea - a Wikipedia compara a uma visão de um helicóptero ou também poderia ser representado como uma pirâmide, um modelo corporativo é normalmente gerado pela alta administração da organização e pelos principais usuários do negócio.
Modelo conceitual
Continuando com o exemplo da arquitetura, o modelo conceitual contém detalhes mais específicos tais como, características do local, centros comerciais, a altura das torres se forem planas, como as diferentes áreas estariam conectadas, entre outras coisas.
Falando em dados, embora ainda seja uma visão de alto nível, já podemos identificar entidades e as relações entre elas, de fato, pode conter a direcionalidade do fluxo de dados, mas, acima de tudo, é um modelo que permite compreender aos usuários-chave a perspectiva centrada em dados da organização, permite entender como a empresa precisa utilizar os dados, este modelo deve permitir a redefinição ou o refinamento dos processos.
Este modelo carece de conceitos técnicos e não deve estar ligado a uma tecnologia particular, embora normalmente seja construído a partir da perspectiva de usuários comerciais e arquitetos de dados.
Modelo lógico
Quanto ao modelo lógico, falando novamente de arquitetura, aqui há muito mais detalhes porque os atributos estão incluídos, por exemplo, o tamanho dos apartamentos e quartos, o número de vagas por unidade, varanda, distribuição da cozinha, entre outros. Com relação aos dados, este é o momento de incluir os atributos dos dados dentro de cada uma das entidades, o tipo de relacionamento e as restrições entre elas, mesmo aqui é possível detalhar subtipos das entidades e até mesmo níveis de acesso aos dados.
Neste modelo novamente, a participação continua sendo dos usuários empresariais e arquitetos de dados, mas o nível de detalhe deve permitir uma passagem fácil para o próximo nível de modelagem, mesmo que continue havendo uma separação dos componentes puramente técnicos, embora o tipo de tecnologia que melhor se adapta à necessidade já esteja começando a ser considerado.
Modelo físico
Este modelo já inclui um nível absoluto de detalhes, por exemplo, ao falar do complexo habitacional que mencionamos, será possível descobrir como será a rede elétrica, a rede de água, quantas luzes por sala, a localização exata de cada uma delas e todos os detalhes que farão com que o conceito visualizado no modelo corporativo se torne realidade.
Quando se trabalha com dados, o primeiro objetivo é um ambiente puramente tecnológico, aqui as características específicas de cada um dos elementos de dados são tecnicamente estabelecidas, tamanhos, tipo de dados, restrições e até mesmo tipo de armazenamento (embora este último seja uma combinação de arquitetura e modelagem de dados), e finalmente, dependendo do tipo de software utilizado, até mesmo os metadados poderiam ser modelados.
3 dicas estratégicas a considerar para a modelagem de dados
- Todos os tipos de implantação tecnológica dentro de uma empresa têm o objetivo de utilizar, gerar, gerenciar ou armazenar dados, que têm uma finalidade específica que não poderia ser cumprida se eles não tivessem sido modelados de acordo com as necessidades.
- A virtualização da adoção de estratégias centradas em dados dentro da organização é facilitada se houver modelos de dados, pois cada tipo de modelo usa uma linguagem de acordo com cada tipo de usuário.
- As transformações corporativas não são realizadas se os usuários não sentirem que entenderam seu papel durante e após a transição, o que se torna mais um obstáculo para as iniciativas. Os modelos de dados mostram entidades, relacionamentos, fluxos, papéis e melhor ainda, fazem com que os usuários tenham empatia com a linguagem utilizada e lhes permitem compreender graficamente desde o geral até o particular as razões da iniciativa e seu papel dentro dela.
Em conclusão, é importante lembrar que a modelagem de dados em um projeto ou iniciativa de dados não deve começar pelo modelo físico ou lógico, mas, no mínimo, deve começar pelo modelo conceitual.
Os modelos se tornam uma ferramenta para transmitir aos principais usuários em seu idioma e com conceitos comerciais os objetivos, relevância e importância dos dados para a organização em iniciativas centradas em dados.
Cada tipo de modelo tem públicos diferentes e, portanto, contém elementos diferentes, mas cada nível complementa o próximo, o que permite uma compreensão clara do papel dos dados a nível corporativo.
Gostou deste conteúdo?
Confira também o nosso ebook Data Driven Mindset e veja como desenvolver uma cultura orientada a dados para tomar decisões mais assertivas, previsões mais confiáveis ereduzir custos.
Fontes:
https://video.dataversity.net/video/session-2-data-modeling/
Foundational Data Modeling, Rick Sherman, in Business Intelligence Guidebook, 2015
Data Modeling for the Business: A Handbook for Aligning the Business with IT using High-Level Data Models, Chris Bradley, Donna Burbank, and Steve Hoberman
Imagenes tomadas del Webinar Data Modeling, Christopher Bradley, The 2021 Data Architecture Online event. https://dataarchitectureonline.com/