A exploração de dados é a etapa mais "humana" do processo de Ciência de dados e, por ser uma etapa simples de entender, pode ser a mais fácil de ser mal compreendida. Por trás dos números e gráficos coloridos se escondem muitas armadilhas.
Mas vamos começar do início...
Exploração de dados - também conhecida como Ciência de dados para Humanos
De acordo com a Wikipédia, a Exploração de dados é uma abordagem semelhante à análise de dados inicial, através da qual um analista de dados usa a exploração visual para entender o que contém em um conjunto de dados e quais são as suas características.
Vamos nos aprofundar nessa definição.
A exploração de dados é uma abordagem semelhante à análise de dados inicial... Mas na verdade, ela é a análise de dados inicial, ou seja, a etapa que vem antes de qualquer análise estatística e modelo de aprendizado de máquina. Isso é fundamental para evitar alguns perigos como indicadores de síntese (média e desvio padrão). O paradoxo de Simpson é um exemplo conhecido que mostra como indicadores globais podem ser superficiais e mal interpretados. Evidentemente este é um exemplo acadêmico, mas é semelhante ao que acontece no mundo real, como você verá em seguida.
A Exploração de dados acontece quando um analista de dados usa exploração visual para entender o
que contém um conjunto de dados... Sem dúvida, é muito mais complexo do que isso. Imagine ler uma imensa
tabela, com milhares de linhas, dezenas de colunas e cheia de números. Você está explorando visualmente os dados, mas não é capaz de fazer qualquer prognóstico. Isso acontece porque nós não somos qualificados para analisar uma imensa tabela de números. Nós somos ótimos em ler o mundo em termos de formas, dimensões e cores. E é isso que a Visualização de dados permite; após serem traduzidos em linhas, pontos e ângulos, os números são muito mais fáceis de serem lidos.
Infelizmente, esbarramos em um perigo: gráficos mal planejados ou enganosos. Algumas vezes, a visualização errada impede que os cientistas de dados façam um prognóstico correto ou compartilhem a informação correta. Um grande número de ótimos exemplos foi publicada algumas semanas atrás por Sarah Leo, no The Economist.
A Exploração de dados visa investigar as principais características dos dados. Para ser mais preciso, ela tem dois
objetivos principais:
- Destacar traços de variáveis individuais
- Revelar padrões e relações entre variáveis
Ambos os objetivos são de fundamental importância, pois guiam a outra etapa chamada de Análise Detalhada. Mais do que as palavras, um estudo de caso pode ajudar a provar essa afirmação mostrando as armadilhas da Exploração de dados.
Estudo de caso: temperatura e consumo energético
Neste caso, usaremos um conjunto de dados públicos de consumo de energia grego e a respectiva temperatura do ar. Os dados disponíveis são de 4 anos, e com uma granularidade horária. Para simplificar, vamos considerar somente o ano de 2007.
Vamos supor que desejamos desenvolver algoritmos de previsão de consumo de energia e estamos interessados em entender se a variável de temperatura pode ser benéfica ou não.
Após um pré-processamento, os dados possuem esse aspecto:
Nossa primeira tentativa é computar a correlação linear de Pearson:
E assim obtemos um insignificante 0,42. Nesse caso ficamos tentados a ignorar a temperatura e seguir em frente, mas estamos plenamente conscientes do perigo escondido no indicador de síntese. Então, executamos uma
análise visual adequada:
Agora podemos ver que existe uma relação clara, mas não linear. Portanto, a correlação linear não pode ser efetiva em destacar um padrão. MAS, um modelo preventivo adequado pode. O gráfico nos salvou de tirar uma conclusão totalmente errada e nos deu uma ótima dica para aperfeiçoar nossos modelos. No entanto, o mesmo gráfico está escondendo algo. Se você olhar com atenção, vai notar algo estranho no lado esquerdo, exatamente como se existissem duas nuvens de pontos diferentes.
Vamos redesenhar um pouco o gráfico:
A relação entre o consumo de energia e a temperatura muda com a hora do dia. Essa é outra pista útil para criar modelos efetivos, mas estava escondida atrás de um gráfico ineficaz. Apenas adicionando a hora do dia na forma de escala de cores foi possível evidenciar um padrão.
Conclusão
Acabamos de mostrar como, no mundo real, a Exploração de dados é vital para qualquer projeto de Ciência de dados.
Por mais que pareça fácil, ela esconde muitas armadilhas que podem impedir que os Cientistas de dados cheguem a análises corretas. Em particular, este estudo de caso nos forneceu algumas dicas:
- Não tire conclusões baseadas em indicadores de síntese
- Cuide de seus gráficos: o errado pode enganá-lo, enquanto o certo pode oferecer grandes dicas
- Seja humano: escute sua intuição e investigue toda vez que notar algo estranho
Para saber mais sobre esse tópico, não se esqueça de ler nossos artigos anteriores:
- DATA SCIENCE OU CIÊNCIA DE DADOS: UMA ABORDAGEM PARA A RESOLUÇÃO DE PROBLEMAS E ESTRATÉGIA EMPRESARIAL
- DATA SCIENCE: DEFININDO O STATEMENT DO PROBLEMA
- DATA SCIENCE: COLETA DE DADOS BRUTOS (RAW DATA)
- DATA SCIENCE: QUALIDADE, LIMPEZA E ARMAZENAMENTO DE DADOS
Confira o que está por vir:
Até o próximo artigo!
Interessado em saber mais?Você está pronto para começar a utilizar seus dados de maneira mais "científica" e focada em uma estratégia focada em dados para suas operações de negócios? Veja nossos serviços e soluções para Inteligência de Dados. |