TEXT MINING: COMO AS MÁQUINAS NOS ENTENDEM?

Text Mining

,

PNL

TEXT MINING: COMO AS MÁQUINAS NOS ENTENDEM?

Manuel Torres | Jul 27, 2020

Em uma sociedade da informação como a nossa, ter sistemas que possam interagir conosco, aprender com a informação e nos ajudar a entender a vasta quantidade de dados disponível é a chave para o sucesso.

A linguagem é a nossa principal forma de comunicação e nós a usamos para interagir uns com os outros, para aprender, para expressar nossos desejos, sentimentos, ordens e ideias.

A MINERAÇÃO DE TEXTO E O PROCESSAMENTO DE LINGUAGEM NATURAL (PNL)

O processamento de linguagem natural, conhecido pela sigla PNL, é a área de Inteligência Artificial que lida com a interação entre os sistemas computacionais e a linguagem humana. Assistentes inteligentes, chatbots, tradutores automáticos... há muitas novas tecnologias construídas sobre Inteligência Artificial que usam o Processamento de Linguagem Natural como base.

De acordo com o relatório BI Trend Monitor 2016 do Business Application Research Center (BARC), as informações não estruturadas representam cerca de 90% dos dados totais de uma empresa. Com esta constatação, um dos principais desafios para as organizações é incluir a gestão e o processamento de dados entre suas prioridades mais urgentes.

data-growth

O PNL é especializado no processamento, transcrição, compreensão e geração da linguagem humana. Há vários campos na PNL que abordam diferentes áreas do processamento da linguagem humana como a fala, compreensão da linguagem e geração de linguagem e que utilizam diferentes técnicas e diferentes abordagens. Juntos, eles são usados para dar aos sistemas automatizados a capacidade de se comunicar naturalmente com os interlocutores humanos, seja para compreender comandos, para processar o conteúdo do texto, ou para gerar mensagens que sejam mais amigáveis e compreensíveis.

O QUE É TEXT MINING?

Uma das abordagens é o uso de técnicas de Text Mining, ou mineração de dados, que ajudam a entender, classificar e analisar textos

A extração de todo o potencial dessas fontes de dados pode ser uma tarefa complicada devido a múltiplos fatores:

  • Grandes volumes de dados e formatos inconsistentes;
  • Múltiplas fontes e idiomas;
  • Erros ortográficos, jargão e abreviações;
  • Alta subjetividade na interpretação e no contexto.

O termo análise de texto (ou mineração de texto) descreve um conjunto de técnicas linguísticas, estatísticas e de aprendizado de máquina que modelam e estruturam o conteúdo das fontes de dados para permitir análises, buscas ou pesquisas.

EXISTEM TRÊS TÉCNICAS PRINCIPAIS DE TEXT MINING: 

  1. Extração de entidades: através desta técnica são identificados os diferentes elementos lógicos e entidades. O resultado é a lista de todos os termos (ponderados) que aparecem no texto a ser analisado.
  2. Extração de informações: tenta identificar as relações básicas dos termos previamente extraídos. Tais como as funções que cada uma delas representa dentro do conjunto global do texto.
  3. Análise relacional: permite determinar as relações entre os diferentes termos com múltiplas conexões. Este tipo de técnica ajuda a compreender o conteúdo de um texto e sua categorização.

O uso de técnicas de Text Mining permite resolver múltiplos problemas comuns em empresas:

  • Análise de documentos legais: identificação dos diferentes elementos de um contrato, identificação de datas de expiração, detecção de termos abusivos, etc.
  • Categorização das caixas postais de reclamações e incidentes: a identificação do conteúdo de cada caixa postal pode ser redirecionada para o departamento encarregado de seu tratamento, ajudando não só a reduzir custos, mas também a eliminar possíveis subjetividades no momento de seu tratamento pelos diferentes componentes humanos das equipes encarregadas.
  • Análise dos resultados de campanhas de marketing por meio de análise sentimental.

OUTRAS ABORDAGENS PARA O USO DE INTERFACES DE USUÁRIOS CONVERSACIONAIS:

  • Chatbots e assistentes inteligentes

Há, no mundo, mais de 4 bilhões de usuários de plataformas de mensagens, e 6 das 10 aplicações mais utilizadas são aplicações de envio de mensagens. Todos nós usamos essas aplicações - diariamente - e nos acostumamos a trabalhar com eles de maneira muito natural.

Os Chatbots nos permitem ampliar esta forma de comunicação e usá-la como interface do usuário para sistemas de computador. Estas interfaces permitem estabelecer um diálogo (em linguagem natural) entre usuários e sistemas, permitindo interfaces mais flexíveis e mais ricas. São considerados como uma extensão da experiência do usuário, permitindo o acesso a usuários ou clientes através de mais canais. A comunicação pode ser feita por voz (convertida em texto usando sistemas de Machine Learning) ou diretamente por texto. Uma vez no formato texto, os Chatbots executam diferentes tarefas de processamento de linguagem:

PROCESS
  • Embeddings:

Fornecem uma maneira de usar uma representação numérica, eficiente e densa, na qual palavras semelhantes têm uma codificação semelhante (estão próximas umas das outras) do ponto de vista dos modelos de PNL. A representação é gerada por modelos de Deep Learning que analisam um grande corpus textual e produzem uma representação vetorial de cada palavra que preserva a relação dessa palavra com o resto do vocabulário.

  • Reconhecimento de entidades:

Técnica comum nos processos de Text Mining (como mencionado acima) que permite a extração de uma seqüência de elementos dentro do texto (pessoas, organizações, locais, marcas registradas, etc.).

  • Detecção de intenção:

A detecção de intenção é uma técnica de processamento de linguagem que permite determinar qual é a finalidade de cada sentença e assim agrupar sentenças que têm a mesma finalidade para extrair a intenção do orador. No chatbot, as intenções são combinadas com comandos a serem executados que correspondem às funcionalidades que você deseja fornecer através de seu uso.

  • Análise sentimental:

A análise dos sentimentos ou a mineração de opinião é o processo criado para determinar o tom emocional por trás de uma série de palavras. É usado para tentar compreender as atitudes, opiniões e emoções expressas.

  • Processamento de ações:

Uma vez identificados os termos, intenções e tom do pedido, o chatbot é responsável por identificar as ações a serem realizadas e, finalmente, a resposta que deve ser entregue ao interlocutor.

No desenvolvimento de um chatbot é essencial pensar na regra 80/20: 80% do tempo deve ser dedicado à criação e manutenção de conteúdos e 20% deve ser gasto em tarefas de inteligência artificial (IA) e aprendizagem de máquinas (ML). O importante deve ser sempre a funcionalidade que expomos, não o desenvolvimento da IA. É por isso que o papel do "proprietário do produto" é fundamental para fornecer o conteúdo certo para o "chatbot".

Portanto, devemos observar que as aplicações de PNL permitem a integração de todo o poder comunicativo da fala humana com as capacidades de processamento dos sistemas de computador.

Co-autor: Manuel Ángel García Sánchez

 

Inscreva-se!