El proceso de Data Science: Definir el planteamiento de un problema

Big Data

,

Data Governance

,

Analítica y EPM

,

Pensamiento de liderazgo

,

Data Intelligence

El proceso de Data Science: Definir el planteamiento de un problema

Manuel Ángel García | abr 05, 2019

Hoy, el Data Science está en casi todas partes.

Es muy frecuente que entremos en una página web y, al seleccionar un producto determinado, se nos recomienden productos que han comprado otros usuarios. O también, ¿cuántas veces has iniciado una búsqueda en Google y el buscador ha terminado la frase por ti?

Pero, ¿sabemos de verdad qué es el Data Science y el Big Data (datos masivos)? ¿Entendemos lo que significa? Y sobre todo: ¿sabemos cómo encarar un proyecto de aprendizaje automático?

En nuestro anterior blog sobre Data Science, 'Un nuevo enfoque para la resolución de problemas y la estrategia de negocio', presentamos los conceptos clave y el proceso para lanzar el Data Science en los negocios. En esta ocasión describiremos conceptos clave del proceso de Data Science y cómo abordar cada fase. En este artículo explicaremos cómo preparar el escenario para un proyecto de Data Science.

 

Desafíos comunes de los proyectos nuevos de Data Science

Los procesos de negocios representan objetos analíticos de una complejidad cada vez mayor. La información a analizar procede de diferentes fuentes de datos y en diferentes formatos que requieren un análisis lo más rápido posible.

¿Cuáles son los retos a los que nos enfrentamos cuando ponemos en marcha un proyecto de Data Science en nuestras empresas? No existe una respuesta concreta, pues cada caso es diferente (y debe tratarse como tal), pero podemos destacar algunos de los retos más comunes:

Falta de conocimientos y de perfiles especializados, ya existen organizaciones y arquitecturas tecnológicas diseñadas sobre todo para proyectos de BI tradicionales, los volúmenes de datos y la variedad no son los que las empresas utilizan para administrar, la transmisión de datos en tiempo real es un tema de marca para muchos.

Todos estos retos son principalmente técnicos, pero probablemente el más importante a abordar es la capacidad de identificar cuál es el factor impulsor del negocio que impacta directamente en la cuenta de resultados, aumentando los ingresos y reduciendo los costos. La forma más efectiva de vender un proyecto de ciencia de los datos a la empresa es demostrarle qué tipo de problemas resolverá y cuál será el impacto en los resultados de la empresa.

En este escenario, está claro que el enfoque que debemos considerar en los proyectos de ciencia de los datos no puede ser el mismo al que estamos acostumbrados en los proyectos tradicionales de almacenamiento de datos o de inteligencia de negocios.

Desde nuestro punto de vista, lo más importante al abordar este tipo de proyecto es ser imaginativo. Afrontamos problemas nuevos que no se pueden resolver desde planteamientos tradicionales, por lo tanto, debemos abordar estos proyectos con una mentalidad libre de prejuicios.

Las metodologías más habituales utilizadas para los proyectos de análisis avanzados comienzan con un paso llamado planteamiento o definición del problema. Se trata de un proceso de identificar el problema que queremos resolver y las ventajas empresariales que queremos obtener. Esto es muy diferente de los proyectos clásicos de inteligencia de negocios donde el problema es bien conocido de antemano.

¿Cómo hacerlo? Debemos ser capaces de hacernos un montón de preguntas, y sobre todo, de conseguir que las preguntas sean las adecuadas.

La regla de oro para definir el objetivo de un proyecto es plantear y refinar preguntas significativas: que sean relevantes, específicas e inequívocas; «¿Cómo puedo aumentar mis beneficios?» no es una buena pregunta para ninguna solución de aprendizaje automático, «¿Qué tipo de coche de mi flota fallará el primero?» o «¿Cuánta energía consumirá mi planta de producción en el próximo trimestre?» son ejemplos mejores de preguntas significativas.

New call-to-action

Si queremos que los datos trabajen para nosotros, debemos ser capaces de hacer las preguntas adecuadas. Una vez formulados, los datos pueden darnos excelentes perspectivas, buenas predicciones y revelar gran cantidad de conocimientos.

Además, la definición de problemas es un proceso «autogenerativo» típico, similar al brainstorming: las buenas preguntas innovadoras llevan fácilmente al equipo a generar preguntas inteligentes adicionales, el pensamiento lateral es una valiosa habilidad blanda en esta fase del proyecto.

Otro aspecto significativo es la capacidad de transmitir los resultados de los datos. Las personas tienen de forma natural opiniones sesgadas que afectan a la forma en que perciben los resultados. Nuestro objetivo es encontrar la forma más efectiva de «contar la historia» sobre los datos; este es un paso muy relevante para el éxito de un proyecto.

¿Existen herramientas que puedan ayudar a definir el planteamiento del problema?

El planteamiento del problema es un paso en el proceso de la ciencia de los datos que depende más de las habilidades blandas que de las habilidades tecnológicas o duras. Sin embargo, al estar basado en preguntas y datos, a veces muchos datos, resulta de utilidad tener alguna herramienta de análisis de datos... (lo sentimos, ¡el análisis de datos masivos no puede ni debe hacerse con Excel!)

En esta fase del proyecto, un factor clave es la colaboración entre los científicos de datos y los usuarios del negocio que, a fin de cuentas, son los que tienen el mayor conocimiento del negocio y son, por tanto, los que van a marcar el camino hacia el éxito. En nuestra experiencia, las herramientas de visualización de datos facilitan en gran medida esta colaboración.

Las herramientas de visualización de datos como Qlik o Tableau suelen tener capacidades para acceder directamente a varios tipos de fuentes de datos estructurados y no estructurados, por lo que se pueden aplicar sobre los datos sin procesar y son extremadamente eficaces para identificar tendencias, anomalías y valores atípicos en los datos analizados con un nivel de productividad que no se puede comparar con un enfoque tabular clásico.

Como dijimos anteriormente, no debemos olvidar que un proyecto de ciencia de los datos es en definitiva un proyecto de negocios, por lo que siempre debe estar orientado a lograr resultados enfocados en el negocio y tener una visión global en línea con la estrategia de negocio.

Los proyectos de inteligencia de negocios tradicionales se centraban normalmente en objetivos a largo plazo, de modo que el cliente no veía los resultados hasta la finalización total; esto, en muchos casos, producía desviaciones, tanto en términos de coste como de alcance. Los proyectos de aprendizaje automático deben marcarse objetivos a corto plazo y deben gestionarse con un enfoque ágil, debe haber un bucle continuo entre preguntas de negocio, hipótesis y evidencias de datos, deben utilizarse nuevos hallazgos para impulsar y mejorar las siguientes oleadas de los productos y los resultados, incluso cuando sean parciales, deben ser compartidos con el personal ejecutivo para mantener su compromiso siempre a un alto nivel.

En la experiencia de Techedge encontramos muy efectivo el uso de Notebooks (Jupiter es el más conocido pero hay muchos otros disponibles) como una herramienta para explicar a los usuarios de negocios lo que están haciendo los técnicos, qué nos están diciendo los datos y qué resultados estamos obteniendo aplicando modelos y algoritmos - básicamente creando una especie de «terreno común» donde podemos mezclar información técnica y conceptos de negocios con el fin de mantener una sincronización esencial para el proyecto.

Para concluir y resumir el tema principal del artículo: para realizar un buen planteamiento del problema, es necesario ser curioso, agudo y ¡SIEMPRE CREATIVO! 

 

Consigue una verdadera transformación digital

Desde Techedge, debido a nuestra amplia experiencia, nos ofrecemos a ser tu partner en este proceso clave de una adecuada transformación digital. 

¡Quiero saber más!

¡Suscríbete!