Qlik y R en la analítica predictiva

qlik-r

Hace más de dos milenios, cuando Julio César entraba en Roma, victorioso, lo hacía sobre un carro tirado por caballos. Mil ochocientos años después, Napoleón Bonaparte entraba en París, también victorioso, y lo seguía haciendo en un mismo carro tirado por caballos.

En ese tiempo, el sistema de transporte terrestre no había cambiado en Europa, y por ende en el mundo. Nada hacía imaginar, mucho menos predecir, la irrupción del ferrocarril muy pocos años después.

Predecir

En ciertos escenarios saber predecir de forma sistemática puede marcar la diferencia; para desarrollar modelos capaces de predecir comportamientos o tendencias es necesario disponer de un conjunto de datos, lo suficientemente amplio, para detectar patrones desde donde enunciar reglas capaces de anticipar las predicciones.

» Conjunto de datos: su estructura y cantidad están más que relacionadas con las predicciones a obtener; con el tipo y la calidad de la predicción: la confianza.

» Predicciones: corren por cuenta del Machine Learning o Aprendizaje Automático; un conjunto de algoritmos estadísticos que aportan a los ordenadores la habilidad de aprender a predecir.

Antes de detallar los tipos de aprendizaje automático, definamos los términos “etiqueta”, “atributo” y “modelo”:

  • Etiqueta es aquello que se pretende predecir; representa la variable dependiente en, por ejemplo, la regresión lineal simple; el precio de las acciones de una compañía es una buena Etiqueta.
  • Atributo es lo que está relacionado con la Etiqueta, lo que la condiciona tanto como para predecir su valor: con un margen de error asumible y según el algoritmo estadístico pertinente, representa a la variable independiente en, también, la regresión lineal simple; el beneficio de una compañía es un buen candidato en la predicción del precio de sus acciones.
  • Modelo es lo que define la relación entre atributos y etiquetas; lo que dice qué atributo se emplea para predecir el valor de qué determinada etiqueta; en singular y en plural.

Una representación gráfica de todo lo referido hasta ahora:

qlik-r-datos

» Conjunto de datos: 13 puntos en el plano.

» Etiquetas: 13 valores (eje Y) comprendidos entre 0 y 25 unidades.

» Atributos: 13 valores (eje X) comprendidos entre 0 y 125 unidades.

» Modelo: criterio por el que se han seleccionado las 13 parejas de valores, y no otras.

» Algoritmo: regresión lineal que establece, en el ejemplo, la ecuación de la recta “y = mx + b”, pintada en color azul, que mejor representa el conjunto de datos.

Supervisar y no supervisar

El Aprendizaje Automático SUPERVISADO, técnica predictiva de gran impacto, dispone de:

  • Conjunto de Entrenamiento: atributos y etiquetas que, mediante el algoritmo al uso, definen el patrón de relación entre unos y otras; en el ejemplo anterior dicho patrón es la línea recta que mejor representa a los 13 valores que constituyen el conjunto de entrenamiento.
  • Conjunto de Prueba: para validar lo bien que predice el patrón deducido por el conjunto de entrenamiento se dispone, ahora, de un nuevo conjunto de datos denominado de prueba; en el ejemplo los cinco atributos comprendidos entre 125 y 175 unidades y sus correspondientes cinco etiquetas entre 27 y 35 unidades…

qlik-r-datos-2

...observando que las etiquetas de los cuatro últimos atributos, entre 150 y 175 unidades, se alinean con gran precisión sobre la línea recta.

Dando por bueno lo aportado por el conjunto de prueba, a partir de ahora las etiquetas de cualesquiera atributos conocidos se pueden predecir; basta con buscar las intersecciones de los atributos con la prolongación de la línea recta patrón para recuperar, sobre el eje Y, los valores de las etiquetas correspondientes. El ordenador ha aprendido. Casos de aplicación:

  • Árboles de Decisión: formados por una colección de reglas basadas en variables, donde el resultado obtenido es fácil de entender; sencillo de representar visualmente.
  • Redes Neuronales: especialmente útiles en las series temporales predictivas y el reconocimiento de tendencias; reconocimiento facial y evolución de los precios de las acciones.

Si el conjunto de prueba no diera por bueno al algoritmo surgido del conjunto de entrenamiento, se debería proceder a “aumentar el número de datos en el conjunto de entrenamiento” y/o “modificar el algoritmo que define el tipo de patrón” antes de volver a probar.

En el Aprendizaje Automático NO SUPERVISADO no hay un conjunto de entrenamiento; se emplea cuando existe algún grado de redundancia en los atributos, por ejemplo:

  • Segmentación de mercados: se dispone de un elevado número de clientes y se desea dividirlos en diferentes segmentos de mercado.
  • Composición de la cesta de la compra: de las transacciones de compra de los clientes, se busca la lista de productos que se compran "juntos".

R & Qlik Sense Desktop

  • R es un lenguaje de programación de código abierto, disponible como software libre bajo las condiciones de la licencia GNU-GPL, indicado para el análisis estadístico. R emplea “paquetes”, que se cargan con comandos en una consola para, entre otros, proporcionar funcionalidades de modelado lineal y no lineal, clasificación o agrupamiento.

Aunque la comunidad de usuarios de R es uno de sus principales valores, responsable de la constante incorporación de nuevos paquetes -código R empaquetado-, la curva de aprendizaje de R es muy pronunciada y, respecto al tratamiento de modelos predictivos, requiere de programadores expertos; un software para desarrolladores.

Ejemplo de presentación del entorno de trabajo de RStudio, de desarrollo integrado para R:

RStudio

  • Qlik Sense Desktop es una aplicación analítica de datos que se presenta como una de las soluciones de BI más completas y potentes del mercado; combinando cualquier número de fuentes de datos, es versátil e intuitiva aportando un interface de usuario "drag and drop”; un software para usuarios finales; seguidamente, el menú general que incorpora la extensión “Advanced-analytics-toolbox”, que trabaja en colaboración con R, para el análisis predictivo:

qlik

  • R & Qlik Sense desktop: R aporta el esfuerzo estadístico, mediante su librería de paquetes y Qlik Sense Desktop lo entrega al usuario final, mediante su interface.

Desde el conjunto de analíticas predictivas de la extensión “Advanced-analytics-toolbox” sobre Qlik Sense Desktop, se presentan tres ejemplos de esta colaboración:

SIMPLE LINEAR REGRESSION ANALYSIS: Line chart with linear regression line

qlik1


CLUSTERING: k-means clustering

qlik2


TIME SERIES ANALYSIS: Decomposing time series

qlik3

 

¿Listo para atrapar datos?

Explora nuestros casos de éxito y nuestras soluciones para saber cómo podemos ayudarte a  identificar, recopilar, transformar y aprovechar tus datos.

New call-to-action

Pedro Ricardo García

Pedro Ricardo García

Pedro Ricardo es Consultor Business Intelligence en Techedge España. Con más de 20 años de experiencia, entre sus labores se encuentran el análisis, desarrollo e implantación de soluciones de Business Intelligence. Sus especialidades más destacadas son Business Objects sobre SQL Server, Oracle y SAP.

FOLLOW-ME