PROCESSO DE CIÊNCIA DE DADOS: EXPLORAÇÃO DE DADOS

Inteligencia Artificial

,

Inteligencia de dados

PROCESSO DE CIÊNCIA DE DADOS: EXPLORAÇÃO DE DADOS

Roberto Verdelli | Jun 10, 2019

A exploração de dados é a etapa mais "humana" do processo de Ciência de dados e, por ser uma etapa simples de entender, pode ser a mais fácil de ser mal compreendida. Por trás dos números e gráficos coloridos se escondem muitas armadilhas.

Mas vamos começar do início...

blog-di-data-exploration

Exploração de dados - também conhecida como Ciência de dados para Humanos

De acordo com a Wikipédia, a Exploração de dados é uma abordagem semelhante à análise de dados inicial, através da qual um analista de dados usa a exploração visual para entender o que contém em um conjunto de dados e quais são as suas características.

Vamos nos aprofundar nessa definição.

A exploração de dados é uma abordagem semelhante à análise de dados inicial... Mas na verdade, ela é a análise de dados inicial, ou seja, a etapa que vem antes de qualquer análise estatística e modelo de aprendizado de máquina. Isso é fundamental para evitar alguns perigos como indicadores de síntese (média e desvio padrão). O paradoxo de Simpson é um exemplo conhecido que mostra como indicadores globais podem ser superficiais e mal interpretados. Evidentemente este é um exemplo acadêmico, mas é semelhante ao que acontece no mundo real, como você verá em seguida.

A Exploração de dados acontece quando um analista de dados usa exploração visual para entender o
que contém um conjunto de dados... Sem dúvida, é muito mais complexo do que isso. Imagine ler uma imensa
tabela, com milhares de linhas, dezenas de colunas e cheia de números. Você está explorando visualmente os dados, mas não é capaz de fazer qualquer prognóstico. Isso acontece porque nós não somos qualificados para analisar uma imensa tabela de números. Nós somos ótimos em ler o mundo em termos de formas, dimensões e cores. E é isso que a Visualização de dados permite; após serem traduzidos em linhas, pontos e ângulos, os números são muito mais fáceis de serem lidos.

Infelizmente, esbarramos em um perigo: gráficos mal planejados ou enganosos. Algumas vezes, a visualização errada impede que os cientistas de dados façam um prognóstico correto ou compartilhem a informação correta. Um grande número de ótimos exemplos foi publicada algumas semanas atrás por Sarah Leo, no The Economist.

A Exploração de dados visa investigar as principais características dos dados. Para ser mais preciso, ela tem dois
objetivos principais:

  • Destacar traços de variáveis individuais
  • Revelar padrões e relações entre variáveis

Ambos os objetivos são de fundamental importância, pois guiam a outra etapa chamada de Análise Detalhada. Mais do que as palavras, um estudo de caso pode ajudar a provar essa afirmação mostrando as armadilhas da Exploração de dados.

Estudo de caso: temperatura e consumo energético

Neste caso, usaremos um conjunto de dados públicos de consumo de energia grego e a respectiva temperatura do ar. Os dados disponíveis são de 4 anos, e com uma granularidade horária. Para simplificar, vamos considerar somente o ano de 2007.

Vamos supor que desejamos desenvolver algoritmos de previsão de consumo de energia e estamos interessados em entender se a variável de temperatura pode ser benéfica ou não.

Após um pré-processamento, os dados possuem esse aspecto:

blogDI-1

Nossa primeira tentativa é computar a correlação linear de Pearson:

blogDI-2

E assim obtemos um insignificante 0,42. Nesse caso ficamos tentados a ignorar a temperatura e seguir em frente, mas estamos plenamente conscientes do perigo escondido no indicador de síntese. Então, executamos uma
análise visual adequada:

Blog-DI-DataExplorationGraph1

Agora podemos ver que existe uma relação clara, mas não linear. Portanto, a correlação linear não pode ser efetiva em destacar um padrão. MAS, um modelo preventivo adequado pode. O gráfico nos salvou de tirar uma conclusão totalmente errada e nos deu uma ótima dica para aperfeiçoar nossos modelos. No entanto, o mesmo gráfico está escondendo algo. Se você olhar com atenção, vai notar algo estranho no lado esquerdo, exatamente como se existissem duas nuvens de pontos diferentes. 

Vamos redesenhar um pouco o gráfico:

Blog-DI-DataExplorationGraph2

A relação entre o consumo de energia e a temperatura muda com a hora do dia. Essa é outra pista útil para criar modelos efetivos, mas estava escondida atrás de um gráfico ineficaz. Apenas adicionando a hora do dia na forma de escala de cores foi possível evidenciar um padrão. 

Conclusão

Acabamos de mostrar como, no mundo real, a Exploração de dados é vital para qualquer projeto de Ciência de dados.

Por mais que pareça fácil, ela esconde muitas armadilhas que podem impedir que os Cientistas de dados cheguem a análises corretas. Em particular, este estudo de caso nos forneceu algumas dicas:

  • Não tire conclusões baseadas em indicadores de síntese
  • Cuide de seus gráficos: o errado pode enganá-lo, enquanto o certo pode oferecer grandes dicas
  • Seja humano: escute sua intuição e investigue toda vez que notar algo estranho

Interessado em saber mais?

Você está pronto para começar a utilizar seus dados de maneira mais "científica" e focada em uma estratégia focada em dados para suas operações de negócios? Veja nossos serviços e soluções para Inteligência de Dados.

VEJA AQUI

Inscreva-se!