Toma mejores decisiones con la minería de textos

text-mining

En el mundo actual, donde el “conocimiento” es el oro del siglo XXI, en general, no lo estamos extrayendo de la principal fuente que tenemos. Actualmente, se calcula que la información almacenada en texto no estructurado representa más del 80%.

Ya en los años 80 se comenzaron a llevar a cabo estos procesos de extracción, pero la falta de potencia del hardware y de fuentes digitales hacía necesario un gran esfuerzo humano y se cometían demasiados errores.

Cada día vamos acumulando información sin darnos cuenta de su importancia. Ejemplos claros pueden ser correos electrónicos, comentarios en redes sociales, contratos, documentos en general, facturas, libros digitales, páginas web, bases de datos, etc.

Sería impensable intentar organizar, revisar o extraer información de una forma manual. Con la llegada de la era de la digitalización y los avances tecnológicos ha sido el momento de empezar a extraer esta información tan valiosa.

Viendo todo lo anterior, el Text Mining, o minería de textos, consiste en el análisis de texto en su lenguaje natural con el fin de identificar patrones, tendencias de uso, estructura semántica y, finalmente, la inserción del conocimiento en una infraestructura de inteligencia de negocios.

Cuando hablamos de lenguaje natural también tenemos que tener en cuenta el contexto donde se utilizan esos patrones que buscamos, ya que un término puede tener distintos significados o ser relevante o no. Este es otro punto donde el factor humano nos puede llevar a cometer errores.

No sólo se consigue obtener conocimiento de la información no estructurada, también se consigue preparar y enriquecer los datos para su uso posterior en otras aplicaciones, como por ejemplo, visualizar los resultados en un informe de forma interactiva o utilizar esos resultados como entrada para un modelo predictivo.

Beneficios del Text Mining

  • Puede contribuir de una forma muy relevante a la toma de decisiones tácticas y estratégicas, ya que podemos obtener información del estado de nuestra empresa antes de que lleguen los números.
  • Podemos ajustarnos a las necesidades de un cliente y ofrecerle los productos o servicios que necesite.
  • Podemos analizar largas colecciones de texto en muy poco tiempo y de una forma recurrente.
  • Los resultados obtenidos son muy fáciles de entender ya que se basan en información textual.

 

New call-to-action

 

Casos de uso

Mantenimiento de bases de datos con información relevante

El departamento jurídico gestiona manualmente una base de datos con información extraída de los contratos firmados con terceros. Si tenemos en cuenta los miles de contratos “estándar” que se crean, podemos ver la necesidad de automatizar estos procesos y, a través de herramientas de Text Mining, obtener y actualizar la base de datos existente.

Obtención de información sobre ayudas y subvenciones de documentos públicos

Analizar todas las ayudas y subvenciones publicadas, clasificarlas y crear una ficha con la información requerida.

Creación de un dashboard con la evolución de las reclamaciones por departamentos

A partir del contenido de los correos electrónicos recibidos, en el departamento de reclamaciones se generan distintos niveles de clasificación: por departamento, sección, producto, etc. A partir de esta clasificación se generan tablas con información estructurada, que son explotadas por herramientas de BI.

Sentimientos en redes sociales

Analizar el sentimiento de los clientes en las redes sociales sobre el funcionamiento general de la empresa y sobre sus productos.

Estandarización de productos

Creación de identificadores únicos de productos según sus características, material, grosor, recubrimiento, fabricante, etc.

Seguridad

Los servicios de seguridad y policía de todo el mundo utilizan diariamente herramientas de Text Mining & Analysis para analizar los millones de nuevas páginas que se crean.

Ciencia

Diariamente se publican nuevos documentos que para los investigadores pueden ser muy relevantes, pero su seguimiento puede ser muy complicado, por no decir imposible. Gracias a la minería de datos pueden obtener este conocimiento de una forma sencilla.

Cómo sería un proyecto de minería de textos

La primera parte sería la recopilación de todas las fuentes que vayamos a utilizar. En este punto sí que hay diferencias en las aplicaciones: dependiendo de la que usemos, deberemos hacer un proceso de carga en otra herramienta o el mismo sistema puede conectarse directamente.

Una vez que tenemos las fuentes, se realiza la tokenización, es decir, se divide el texto en sus partes más pequeñas y se crean agrupaciones semánticas de los términos. Para ayudar en este proceso se pueden crear listas de palabras excluyentes o incluyentes, para que el proceso las descarte o busque realmente sólo un número determinado de palabras.

El siguiente paso sería crear las reglas de negocio. Se dividen en dos:

  • Reglas de extracción de conocimiento. Mediante sencillas reglas booleanas o expresiones regulares (REGEX) extraemos el texto que buscamos. Por ejemplo, si cogemos una escritura pública, podríamos obtener el nombre y apellidos y NIF del notario, intervinientes, fecha de firma, etc.
  • Reglas de categorización. Podemos clasificar los documentos por palabras clave. Siguiendo el ejemplo anterior por provincia, etc., es decir, buscaremos palabras clave ya definidas, como Madrid o Barcelona, para conseguir su clasificación dentro de una provincia.

Por último, una vez que tenemos todo el conocimiento estructurado, podemos analizarlo con herramientas de análisis y gráficos.

Juan Martos

Juan Martos

Juan cuenta con una experiencia en el mundo de la informática de más de 25 años. Su principal ocupación ha sido la gestión y desarrollo de proyectos, tanto como consultor como jefe de equipo.

En los últimos años ha trabajado, en la mayoría de los proyectos, con productos SAP como Data Services, IDT, Dashboard Design, Lumira o QlikView Desktop.

FOLLOW-ME