PROCESSO DE CIÊNCIA DE DADOS: DEFININDO O STATEMENT DO PROBLEMA

Inteligencia Artificial

,

Data Intelligence

PROCESSO DE CIÊNCIA DE DADOS: DEFININDO O STATEMENT DO PROBLEMA

Manuel Ángel García | abr 23, 2019

 

Hoje, a Ciência de Dados está em quase toda parte.

Quando entramos em uma página web e selecionamos um certo produto, com frequência, recebemos recomendações de artigos que foram adquiridos por outros usuários. Ou, quantas vezes você inseriu uma pesquisa no Google e ele terminou a frase para você?

Mas, o que é Ciência de Dados e Big Data? Entendemos o que isso significa? E, muito além disso, sabemos como lidar com um projeto de Aprendizado de Máquina?

Em nossa publicação anterior sobre Ciência de Dados: uma nova abordagem para a resolução de problemas e estratégia empresarial explicamos os principais termos e processos para o início da ciência de dados nas empresas. Agora, iremos detalhar os principais problemas do processo da Ciência de Dados e como abordar cada fase.

Nesta publicação vamos explicar como preparar e iniciar um projeto de Ciência de Dados.

data-science-problema

Desafios Comuns em Projetos de Ciência de Dados

Processos empresariais possuem diversos objetos analíticos com complexidade contínua de crescimento. A informação a ser analisada provém de diferentes fontes de dados e possui diferentes formatos que requerem análises imediatas.

Quais desafios enfrentamos quando iniciamos um projeto de Ciência de Dados em nossas empresas? Não existe uma resposta definitiva, pois cada caso é único (e deve ser tratado como tal) - mas podemos destacar alguns dos mais comuns:

  • Falta de conhecimento e perfis especializados.
  • As empresas possuem arquiteturas organizacionais e tecnológicas criadas principalmente para projetos tradicionais de BI.
  • Volume: O volume dos maiores bancos de dados comerciais pode alcançar potencialmente muitos petabytes: o armazenamento padrão, em geral, não está preparado para isso.
  • Variedade: Big Data não é a soma de conjuntos de dados não relacionados. Big Data é um enorme conjunto alinhado com os dados de referência existentes.
  • Novos dados chegam mais rápido do que podemos utilizá-los, portanto devem ser armazenados com igual velocidade. Estima-se que cerca de 90% de todos os dados do mundo tenham sido gerados no período de 2011-2012.
  • As tecnologias de IA (Inteligência Artificial) incluem processamento de imagens, visão artificial, aprendizado de máquina, reconhecimento de fala e processamento de linguagem natural que são técnicas extremamente potentes - se pudermos explorá-las.
  • Bancos de dados NoSQL: Diferentemente dos bancos de dados SQL relacionais que usam tabelas estruturadas para armazenar múltiplos atributos relacionados, os bancos de dados NoSQL armazenam objetos de dados binários (por exemplo, documentos com múltiplos atributos juntamente com chaves associadas). Ser qualificado nesse tipo de tecnologia requer conhecimento específico.

Esses desafios são principalmente técnicos, mas provavelmente o desafio mais importante a ser enfrentado é a habilidade em identificar qual é o impulsionador dos negócios que impacta diretamente na declaração de rendimento da empresa, aumentando a receita e reduzindo os custos. A maneira mais eficaz de vender um projeto de Ciência de Dados para uma empresa é demonstrando os tipos de problemas financeiros que ele irá solucionar e qual será o impacto nos resultados dessa empresa.

Neste cenário, fica claro que a abordagem que devemos considerar nos projetos de Ciência de Dados não pode ser a mesma a que estamos habituados nos projetos tradicionais de Armazenamento de Dados ou Inteligência Empresarial.

Do nosso ponto de vista, o mais importante quando abordamos esse tipo de projeto é ser criativo. Enfrentamos problemas que não podem ser resolvidos com abordagens tradicionais, portanto devemos encarar esses projetos de maneira distinta.

As mais importantes metodologias usadas para projetos de Analítica Avançada iniciam com uma etapa denominada Enunciado do Problema ou Formulação do Problema. Este é um processo de identificação do problema que queremos solucionar e dos benefícios financeiros que queremos obter. Isso é relativamente diferente dos clássicos projetos de BI em que os problemas empresariais são previamente conhecidos.

Como fazer isso? Devemos fazer muitas perguntas e, o mais importante: as perguntas corretas.

A Regra de Ouro para definir a meta de um projeto é formular e lapidar questões “precisas” que sejam relevantes, específicas e claras: “Como posso aumentar meu lucro?” não é uma boa questão em qualquer solução de aprendizado de máquina; “Que tipo de carro da minha frota irá falhar primeiro?” ou “Quanta energia minha unidade de produção irá consumir no próximo trimestre?” são fortes exemplos de questões precisas.

inteligencia-de-dados

Se queremos que os dados trabalhem para nós, devemos ser capazes de fazer as perguntas certas. Uma vez formuladas, os dados podem fornecer grandes perspectivas, boas previsões e revelar muito conhecimento.

Além disso, a formulação do problema é um típico processo “autogerador”; semelhante ao brainstorming, e as perguntas boas e inovadoras levam a equipe a produzir mais perguntas inteligentes. O pensamento lateral é uma valiosa competência nessa fase do projeto.

Outro aspecto significativo é a capacidade de transmitir os resultados fornecidos pelos dados. Naturalmente, as pessoas têm opiniões tendenciosas que afetam a forma como percebem os resultados. Ou seja, nós temos que encontrar a maneira mais eficaz de “contar a história” sobre os dados; esta é uma etapa altamente relevante para o sucesso de um projeto.

Existem ferramentas que podem ajudar na definição do Enunciado do Problema?

O enunciado do problema no processo da Ciência de Dados é a etapa que mais depende das competências transversais (ao contrário das competências tecnológicas ou técnicas), embora seja baseada em questões e dados, algumas vezes muitos dados, é importante ter algumas ferramentas de análise de dados... (desculpe, mas a análise de big data - grandes volumes de dados - não pode e nem deve ser feita com o Excel!)

Um fator chave nessa fase do projeto é a colaboração entre o cientista de dados e os usuários empresariais que, ao final do dia, são os que possuem o conhecimento do negócio e, portanto, irão traçar o caminho para o sucesso. Na nossa experiência, essa colaboração é amplamente facilitada pelas ferramentas de visualização de dados.

Ferramentas de visualização de dados como Qlik, Tableau ou Oracle Business Analytics geralmente têm recursos para acessar diretamente diversos tipos de fontes de dados estruturados e não estruturados, de modo que possam ser aplicados sobre dados brutos e são extremamente eficazes na identificação de tendências, anomalias e discrepâncias em dados analisados com um nível de produtividade não comparável a uma abordagem tabular clássica.

Como dissemos anteriormente, devemos ter em mente que um projeto de Ciência de Dados é definitivamente um projeto Empresarial, por isso deve estar sempre orientado a alcançar resultados de negócios e ter uma visão global alinhada com a estratégia empresarial.

Os projetos tradicionais de BI eram geralmente definidos com objetivos de longo prazo de modo que o cliente muitas vezes não via resultados até sua conclusão total; em muitos casos, isso produziu desvios tanto em termos de custos quanto em termos de escopo.

Os projetos de Aprendizado de Máquina devem definir objetivos de curto prazo e devem ser gerenciados de maneira rápida; o loop (ou ciclo) entre questões empresariais, hipóteses e evidência de dados deve ser contínuo e novas descobertas, mesmo que parciais, devem ser usadas para direcionar e aperfeiçoar as ondas e resultados subsequentes do projeto e precisam ser compartilhadas para que o alto nível de comprometimento dos empresários seja mantido.

Na experiência da Techedge, achamos muito eficaz a utilização de Notebooks (Jupiter é usualmente o mais conhecido, mas muitos outros estão disponíveis) como ferramenta para explicar aos empresários o que a equipe técnica está fazendo, o que os dados estão nos informando e quais resultados estamos obtendo aplicando modelos e algoritmos - essencialmente criando um tipo de lugar comum onde podemos misturar informações técnicas e conceitos empresariais a fim de manter um alinhamento vital para o projeto.

Para concluir e resumir o tópico principal da publicação, para uma boa etapa de formulação do problema você precisa ser curioso, perspicaz e SEMPRE CRIATIVO!

dados

Inscreva-se!