El proceso de Data Science: Recogida de datos no procesados

Big Data

,

Data Governance

,

Analítica y EPM

,

Pensamiento de liderazgo

,

Data Intelligence

El proceso de Data Science: Recogida de datos no procesados

Stefano Oddone | May 22, 2019

Dado que los datos constituyen la piedra angular de cualquier actividad de análisis, es necesario que dediquemos bastante tiempo a entenderlos. En este artículo me centraré concretamente en dónde encontrarlos, qué técnicas y herramientas resultan más útiles y, lo que es más importante, qué destrezas se requieren para superar con éxito esta fase del proceso de Data Science.

 

Tipos de datos y fuentes de datos

Aunque hay numerosas características que podrían utilizarse para clasificar los datos, en mi humilde opinión, una de las más relevantes es la distinción entre internos y externos. Las empresas suelen dar una gran importancia a sus datos internos, porque los tienen al alcance, son aparentemente baratos y, además, se considera que son «verdaderos». Dado que me gustaría que este artículo no se extendiera mucho, no hablaré de esta última afirmación. Dicho esto, me gustaría destacar el hecho de que la inmensa mayoría de los datos sobre la empresa que diriges se producen más allá de tu cortafuegos: datos sobre el mercado, sobre los competidores, sobre los clientes, sobre clientes potenciales, informes de análisis, blogs de consumidores, foros de usuarios y tuits. Todos ellos, si se utilizan conjuntamente, nos proporcionan inevitablemente una imagen más nítida, clara y útil de la situación general que cualquier fuente interna que podamos usar.   

Una vez que admites que los datos externos pueden resultar útiles para entender tu propia empresa, tienes que tener en cuenta la diferencia entre datos públicos y privados. Si se trata de datos públicos, todos tus competidores tendrán las mismas oportunidades que tú de utilizarlos para mejorar sus análisis. Por este motivo, el uso que hagas de los datos es lo que marca la diferencia. Si nos dan los mismos ingredientes y las mismas recetas a mí y a un chef profesional, os aseguro que el resultado final será muy diferente: la ventaja competitiva radica obviamente en la habilidad para aprovechar los mismos ingredientes.

Por otro lado, si sabes algo que tu competidor ignora, tienes una ventaja competitiva potencial (digo «potencial» en el sentido de lo que acabo de escribir unas líneas más arriba). Pero, en general, «el conocimiento es poder», por lo que podemos dar por sentado que cuanto más sepamos, mejores decisiones tomaremos. 

Los datos privados (como el comportamiento de compra individual, la geolocalización, la suscripción a servicios, etc.) tienen pequeños inconvenientes: hay que pagarlos (doy por sentado que entre mis lectores no hay ningún hacker); son más difíciles de actualizar y mantener, y su disponibilidad en el futuro no siempre es segura, por lo que podrían ser útiles para un análisis puntual pero sería arriesgado utilizarlos en una estrategia a largo plazo. Ah, casi me olvido: los datos privados suelen presentar problemas relacionados con la privacidad, por lo que conviene trabajar codo con codo con el departamento jurídico desde el principio.

 

New call-to-action

Herramientas para la recogida de datos

La recogida de datos es un paso fundamental en cualquier proceso de análisis de datos. Por suerte, hay muchas herramientas útiles que permiten llevar a cabo de manera eficiente esta tarea: desde herramientas tradicionales ETL o ELT como Oracle Data Integrator, IBM DataStage o Microsoft DTS, a herramientas de integración de datos en la nube como Talend o Azure Data Factory. En Techedge tenemos gran experiencia en la búsqueda, el filtrado, la limpieza, la transformación y el almacenamiento final de los datos, tanto con datos de mercados pequeños, como con enormes lagos de datos.

Cuando se trata de un flujo de datos en tiempo real, las cosas son muy distintas, ya que no hay tiempo para transformarlos. Al contrario de lo que ocurre con los flujos de lotes de datos, las tareas de calidad de datos intentan más bien reducir el ruido, y las tecnologías utilizadas son muy específicas: Kafka, Azure Event Hubs, AWS Kinesis o Google Cloud Dataflow son tus mejores aliados a la hora de hacer este trabajo.

Si necesitas extraer datos de sitios web y blogs (webscraping), puedes volver a recurrir a herramientas web como Mozenda u Octoparse. Y si tienes necesidades muy concretas (como extraer direcciones de correo electrónico, imágenes o números de teléfono), no te resultará difícil encontrar herramientas específicas que te ayuden a hacerlo. 

Ahora que ya os he dicho cuáles son las mejores soluciones de integración de datos, os contaré un secretillo: todas esas tecnologías son geniales, resultan muy útiles para aumentar la productividad, la fiabilidad y la trazabilidad… Pero si resulta que tienes prisa (ya sabemos que a veces pasa), ten en cuenta que un experto en código que trabaje tan rápido como el demonio de Tasmania puede generar de forma sorprendentemente rápida y eficiente código Python, Java o Scala que pueda digerir fácilmente tus fuentes de datos, cualquiera de ellas.

En resumen: «Larga vida a las principales plataformas del mercado y a los servicios listos para usar… en el reino de los Caballeros de la Orden del Código».   

Destrezas necesarias

Es una realidad: estamos en la era de la nube, en la que la mayoría de los datos están desestructurados y se encuentran dentro de texto, imágenes, vídeos o datos de seguimiento de clics (hace relativamente poco tiempo que ordenamos la información en filas y columnas, si tenemos en cuenta que los sumerios inventaron la escritura 4000 años antes de Cristo). En mi opinión, el lenguaje de consulta estructurado (SQL) y la teoría de bases de datos relacionales son los conocimientos básicos que todo ingeniero de datos debería tener. Puedes invertir en las tecnologías de integración de datos más innovadoras y modernas. Al final, quien seguirá resolviendo tus problemas con una sonrisa, como diciendo «bah, esto está chupado», será nuestro sabio y viejo amigo SQL.

 

Consigue una verdadera transformación digital

Desde Techedge, debido a nuestra amplia experiencia, nos ofrecemos a ser tu partner en este proceso clave de una adecuada transformación digital. 

¡Quiero saber más!

¡Suscríbete!