O PROCESSO DE CIÊNCIA DE DADOS: COLETA DE DADOS BRUTOS (RAW DATA)

Inteligencia Artificial

,

Inteligencia de dados

O PROCESSO DE CIÊNCIA DE DADOS: COLETA DE DADOS BRUTOS (RAW DATA)

Stefano Oddone | Mai 06, 2019

Como os dados são a base de toda atividade de análise, precisamos investir uma boa parte do nosso tempo para entendê-los. Nesta publicação, vou focar especificamente em onde encontrá-los, quais as técnicas e ferramentas mais úteis para a coleta e, o mais importante, quais as competências necessárias para ser bem-sucedido nessa etapa fundamental do Processo de Ciência de Dados.

Blog-DI-RawDataCollection

Tipos e Fontes de Dados

Existem muitos atributos que podem ser utilizados na classificação dos dados, mas na minha modesta opinião um dos mais relevantes é o interno/externo. As empresas tendem a dar muita ênfase em seus dados internos porque eles estão disponíveis, aparentemente custam pouco e, além disso, são considerados “a verdade”. Tendo a missão de manter esta publicação concisa, vou evitar voltar a esta última passagem. Dito isto, gostaria de chamar a atenção para
o fato que a vasta maioria dos dados sobre a empresa que você está administrando é  produzida fora do seu firewall: dados de mercado, de concorrentes, de clientes e de prospectos, relatórios de analistas, blogs de consumidores, fórum de usuários, tweets - tudo isso, usado em conjunto, produz inevitavelmente um retrato mais nítido, claro e útil de
todo o cenário, de uma forma que nenhuma fonte interna poderia produzir.

Então, se você concordar comigo que os dados externos podem ser úteis para entender o seu próprio negócio, você deve levar em conta as diferenças entre dados públicos e privados. Se os dados são públicos, todos os seus concorrentes terão a mesma oportunidade que você tem de fazer uso dos mesmos para aperfeiçoar a análise; o que fará a diferença é como você decide fazer uso deles. Se você fornecer para mim e para o Masterchef exatamente os
mesmos ingredientes e receitas, eu posso garantir que o resultado final será muito diferente, pois a vantagem competitiva encontra-se claramente na discrepante habilidade de tirar proveito dos mesmos ingredientes.

Por outro lado, se você possui informações que seus competidores ignoram, isto é uma potencial vantagem competitiva - Eu disse potencial com respeito ao que acabei de afirmar anteriormente - mas, em geral, “conhecimento é poder”, então podemos assumir que quanto mais você sabe, melhor você decide.

Dados privados (comportamentos de compras pessoais, rastreamento de localização, assinaturas de serviços, etc) apresentam alguns efeitos colaterais: você tem que pagar por eles (eu excluo a presença de hackers na minha comunidade de leitores). Esses dados exigem maior complexidade para serem atualizados e mantidos e sua disponibilidade futura não é sempre garantida, por isso, eles podem ser úteis em análise pontual, mas poderia ser arriscado inseri-los em uma estratégia de dados de longo prazo. Ah, eu ia me esquecendo, dados privados tendem a esbarrar em leis sobre privacidade, então - atenção - mantenha seu Departamento Jurídico alinhado desde o início.

Ferramentas de Coleta de Dados

A coleta de dados é uma etapa fundamental na jornada de Análise de Dados. Por sorte, existem muitas ferramentas úteis para gerenciar essa tarefa com eficácia, que vão desde o ETL habitual ou ferramentas de ELT, como o Integrador de Dados da Oracle (Oracle Data Integrator), o DataStage da IBM, o DTS da Microsoft, até ferramentas de integração
de dados orientadas à Nuvem, como a Talend ou a Fábrica de Dados do Azure (Azure Data Factory). Na Techedge, somos capacitados e muito experientes em consulta, filtragem, limpeza, transformação e, finalmente, armazenamento de dados - tanto para pequenos repositórios de dados (data marts) quanto para grande volume de dados (data lakes).

Quando tratamos de fluxos de dados em tempo real, as coisas são bem diferentes - não há tempo para transformá-las. Diferentemente dos fluxos de dados em lotes, as tarefas de qualidade de dados são melhor descritas como atividades de “redução de ruído” e as tecnologias usadas são muito específicas: Kafka, Hubs de Eventos do Azure, Amazon
Kinesis (AWS) e o Google Cloud Dataflow são seus melhores amigos para realizar esse tipo de trabalho.

Caso você precise buscar dados de sites e blogs (web scraping), novamente achará conveniente a utilização de ferramentas web, como o Mozenda ou o Octoparse, e se tiver necessidades específicas (como extração de endereços de e-mail, de imagem ou de número de telefone) será fácil encontrar ferramentas adequadas para tais tarefas.

Tendo mencionado as soluções de integração de dados mais bem-sucedidas, posso revelar um pequeno segredo: todas essas tecnologias são ótimas, muito úteis para aumentar a produtividade, confiabilidade e rastreabilidade... mas se deseja utilizá-las em "bate-pronto" (e, algumas vezes, isso acontece), é importante lembrar que um mestre de programação experiente (code master), no modo “Diabo da Tasmânia”, pode ser surpreendentemente veloz e eficiente em produzir códigos em Python, Java ou Scala que podem consumir tranquilamente suas fontes de dados, ou qualquer fonte.

Resumindo: “Vida longa para as plataformas líderes de mercado e serviços prontos para uso... no reino dos Cavaleiros da Programação”

Competências necessárias

Sim, estamos na era da Nuvem, onde a maioria dos dados não são estruturados e se encontram em texto, imagens, vídeos e fluxos de navegação (um período comparativamente curto em que ordenamos os fatos dentro de linhas e colunas, considerando que os Sumérios são conhecidos por inventar a linguagem escrita no ano 4000 a.C.) mas, para mim, a SQL e a Teoria de Bancos de Dados Relacionais ainda são imprescindíveis - trata-se de um  conhecimento fundamental que todo Engenheiro de Dados precisa ter.

Você pode investir nas tecnologias de integração de dados mais inovadoras e deslumbrantes, porém será a velha e sábia SQL (Linguagem de Consulta Estruturada) que estará presente, olhando para você com um sorriso bem-humorado e reconfortante. 

Para saber mais sobre esse tópico, não se esqueça de ler nosso artigo anterior chamado:  PROCESSO DE CIÊNCIA DE DADOS: DEFININDO O STATEMENT DO PROBLEMA

Interessado em aprender mais?

Você está pronto para começar a utilizar uma estratégia baseada em dados em suas operações de negócios? Veja nossos serviços e soluções para Inteligência de Dados.

VEJA AQUI

Inscreva-se!