A ciência de dados utilizada para aproveitar os métodos, processos, algoritmos e sistemas científicos para automatizar ou, ao menos, direcionar as decisões empresariais, é um aspecto fundamental dos negócios atuais.
As novas capacidades dessa "inteligência de dados" desencadeadas pelo surgimento da computação em nuvem e da inteligência artificial fazem dela uma das áreas mais promissoras da transformação digital.
Antes de explicarmos a ciência de dados e como abordar a introdução dessa disciplina em seus negócios, veremos seus aspectos fundamentais.
O papel do Aprendizado de Máquina e da Inteligência Artificial na Ciência de Dados
Quando tratamos de computar grandes volumes de dados e tentar obter novos significados a partir desses dados, a inteligência artificial (IA) ocupa um lugar central nas conversas atuais, com atenção especial a um ramo da IA denominada “aprendizado de máquina”.
Segundo a Wikipédia, a Inteligência Artificial pode ser definida como a teoria e o desenvolvimento de sistemas computacionais capazes de executar tarefas que normalmente requerem inteligência humana, como percepção visual, reconhecimento de fala, tomada de decisão e tradução entre idiomas. Os casos de uso da Inteligência Artificial são numerosos e continuam a crescer exponencialmente graças às constantes inovações na fronteira técnica.
Aprendizado de Máquina refere-se aos algoritmos de autoaprendizagem que empregam, principalmente, estatísticas para conceber modelos a partir de grandes quantidades de dados, os quais incluem: números, palavras, imagens, cliques, etc. Se estes dados podem ser armazenados digitalmente, também podem ser incorporados em um algoritmo de aprendizado automático.
A aplicação da inteligência artificial e, em particular, do aprendizado de máquina à inteligência de negócios (business intelligence) tradicional ou não tradicional (dados não estruturados) pode permitir que as empresas revelem tendências inexploradas em seus negócios e criem estratégias novas e eficazes para aumentar a lucratividade, reduzir custos e praticamente qualquer outro objetivo que pretendam alcançar.
Como exemplo, consulte nosso blog sobre aplicativos de aprendizado de máquina em recursos humanos.
O processo da Ciência de Dados
Amplamente popularizada nos últimos anos, existem muitas definições, diagramas e metodologias para explicar o processo da ciência de dados. Sendo uma pessoa visual, prefiro me concentrar em um gráfico para explicar esse processo de múltiplas facetas:
Créditos para AJ Goldstein (Perfil do LinkedIn e mais detalhes disponíveis em @ajgoldstein.com)
Há alguns pontos importantes nessa imagem que você deve ter em mente ao dirigir-se à sua nova equipe de ciência de dados.
#1 - Não busque o conjunto completo de competências necessárias em uma única pessoa, o aprendizado de máquina e a inteligência artificial é uma atividade coletiva.
Sim, a cada século temos alguns grandes talentos que estão claramente bem acima da média (por exemplo, Pelé e Maradona no futebol, Coppi e Merckx no ciclismo, Phelps e Lochte na natação, etc.), mas mesmo estes campeões universais não seriam capazes de serem tão multifuncionais a ponto de conseguirem sucesso em qualquer função e especialidade (Phelps não teria ganho 28 medalhas olímpicas se tivesse decidido jogar polo aquático). Eles podem ter vencido alguma partida ou uma corrida sozinhos, mas precisam de uma equipe, dentro ou fora do campo para ganhar um campeonato... e estamos falando dos melhores dos melhores.
#2 - Não trate as implementações de análise avançada como um projeto de business intelligence “clássico”, já que gerar um novo valor requer novas maneiras de pensar e abordar o desafio.
Mesmo que pareça óbvio, vale a pena sublinhar. Ao passar de soluções analíticas “baseadas em regras” para soluções “baseadas em dados”, os antigos paradigmas já não são mais eficazes. Por exemplo, a clássica fase de “coleta de requisitos empresariais” deve ser substituída por uma atividade altamente interativa e consultiva de modelagem de problemas.
Na Techedge, temos uma metodologia para impulsionar com êxito as implementações de aprendizado de máquina. Segue abaixo um resumo dos principais elementos:
- Quando tratamos a possibilidade de dados com quantidades potencialmente enormes, uma abordagem rigorosa é fundamental. Propomos o “CRISP-DM”, que pode ser traduzido como um processo padrão interindustrial para mineração de dados. A metodologia é, como o nome indica, interindustrial e flexível, permitindo que seja aplicada a casos de uso díspares
- Além da metodologia, adicionamos nossa experiência: Oferecemos modelos pré-definidos e entregáveis para cada fase do processo de ciência de dados a fim de aumentar a produtividade e o alinhamento com os usuários corporativos
- Se você não está totalmente certo de que o aprendizado de máquina pode ser uma solução viável para o seu caso, a Techedge pode fazer uma avaliação bem definida, concebida para ajudar seus tomadores de decisões no esclarecimento do cenário, identificação da disponibilidade dos dados e possíveis resultados.
Nos próximos posts sobre este tópico, abordaremos cada uma das seis etapas da ciência de dados resumidas anteriormente por Goldstein, aprofundando naquilo que é necessário para conseguir sucesso em cada uma delas.
Confira o que está por vir:
- DATA SCIENCE: DEFININDO O STATEMENT DO PROBLEMA
- DATA SCIENCE: COLETA DE DADOS BRUTOS (RAW DATA)
- DATA SCIENCE: QUALIDADE, LIMPEZA E ARMAZENAMENTO DE DADOS
- DATA SCIENCE: EXPLORAÇÃO DE DADOS
- DATA SCIENCE: MACHINE LEARNING EM AÇÃO
- DATA SCIENCE: 5 DIAS PARA UMA NARRATIVA DE DADOS EFICIENTE
Até o próximo artigo!