BLOG

La evolución de la Analítica de Datos en el tiempo

Analítica de Datos  Blogs

Con humanos e inteligencia artificial co-existiendo, co-creando y complementándose unos a otros, la próxima oleada de avances en el análisis de datos sin duda podría conseguir la ansiada toma de decisiones óptimas, lo que resultaría en importantes ventajas competitivas.

Estos avances han sido producto de diversos acontecimientos, avances e hitos a lo largo de la historia. Te invitamos a conocer con nosotros cómo ha evolucionado la Analítica de Datos en el tiempo.

 

¿Cuáles fueron las primeras aplicaciones de la analítica de datos?

Mucho antes del advenimiento de la tecnología de la información, la civilización humana ya había aprovechado los datos en la antigüedad y la época medieval para tomar mejores decisiones.  Ejemplos van desde la época de la biblioteca de Alejandría y la construcción de las pirámides en el antiguo Egipto, el análisis de estadísticas militares de los romanos, el estudio de la peste bubónica por John Graunt a fines del siglo XVII y la invención de la máquina tabuladora Hollerith para el trabajo del censo en el siglo XIX.

 

¿Cómo se concretaron la primera y la segunda ola de análisis de datos?

En las décadas previas al año 2000 vimos grandes avances en las computadoras, capacidades de almacenamiento de datos, aplicaciones empresariales y sistemas de procesamiento de transacciones.

Durante la primera ola de análisis de datos vimos una evolución desde la recopilación y el análisis de datos fuera de línea hasta la gestión de bases de datos relacionales (RDBMS), el almacenamiento de datos y la inteligencia empresarial resultante.  Junto a ello apareció la minería de datos y el concepto de ETL (Extract, Transform, Load) para analizar y descubrir inferencias y patrones en los conjuntos de datos.

El enfoque estaba cambiando de forma lenta pero segura desde la recopilación de datos al almacenamiento y análisis de estos. Los tableros de control estaban facilitando que los ejecutivos que no eran de TI entendieran los análisis y las perspectivas.

El comienzo de la década del 2000 y la popularidad de Internet fueron algunos de los principales factores detrás de la segunda ola de análisis de datos. Las empresas de tecnología y los CIO se dieron cuenta de los desafíos inherentes de RDBMS, especialmente considerando los volúmenes, la velocidad y la variedad de datos no estructurados, allanando así el camino para el surgimiento de bases de datos no relacionales NoSQL junto con el procesamiento analítico en línea (OLAP) y otras tecnologías.

A mediados de la década del 2000 se produjo el revuelo de Big Data desde que John Mashey acuñó y popularizó el término. Varios frameworks y proyectos de código abierto como Apache Hadoop con GFS y MapReduce, Cloudera, Spark, Cassandra y otros abordaron el problema del procesamiento de datos estructurados y no estructurados desde una variedad de fuentes digitales.

Para el personal que no es de TI, especialmente los líderes empresariales y la alta dirección, las visualizaciones gráficas con desgloses marcaron el comienzo de la evolución con respecto a los paneles básicos de la generación anterior.

Una investigación de McKinsey del 2012 predijo la enorme ventaja competitiva que generaría el Big Data, especialmente al proporcionar información detallada sobre el comportamiento de los clientes, el desarrollo de productos, la competencia y la cadena de suministro, lo que impactaría la innovación, la productividad y los ingresos. Por lo tanto, esta fase marcó el comienzo de análisis robustos de datos no estructurados además del análisis predictivo de la primera fase.

 

¿Cuáles fueron los factores que gobernaron la siguiente ola de análisis de datos?

La próxima ola de análisis de datos fue de la mano con el surgimiento de la nube. El visionario Hype Cycle de Gartner del 2008 predijo la enorme contribución de la nube a la optimización y transformación digital. La adopción inicial de la nube fue un conjunto de aplicaciones de software como servicio (SaaS) y luego pasó a aplicaciones SaaS funcionales especializadas, infraestructura como servicio (IaaS) y plataforma como servicio (PaaS).

En la década del 2010, junto con la nube, la implosión de la movilidad, las redes 3G y 4G, el comercio electrónico, los chatbots, los asistentes virtuales y las redes sociales aceleraron la transformación digital por un lado y convergieron en muchos flujos de datos de todas estas fuentes diversas. Las organizaciones aprovechaban el procesamiento de transacciones en línea (OLTP) junto con OLAP para administrar grandes volúmenes de datos y análisis resultantes, además de la aparición de los lagos de datos o data lakes.

A mediados de la década del 2010, las organizaciones y las empresas de tecnología comenzaron a pensar en nuevas formas en que podrían usar de manera más proactiva estos conocimientos, no solo para predecir tendencias, sino también para sugerir nuevas ofertas al cliente en función de sus patrones anteriores y otras variables.

De esa forma obtendrían las ventajas de ser el primero en actuar, y mejorando la satisfacción y la permanencia del cliente. Así nació un campo: el de la ciencia de datos acuñado por Jeff Hammerbacher y DJ Patil, quienes fusionaron algoritmos, estadísticas, metodologías científicas, procesos de dominio y métodos multidisciplinarios relacionados para comprender y analizar ocurrencias con datos.

La importancia de los datos y el análisis había crecido tanto que se decía que los datos eran el nuevo petróleo o el oro. Un artículo de McKinsey de 2016 menciona un potencial de automatización del trabajo del 80 % de las actividades que combinan aprendizaje automático con análisis. Más aún, una investigación realizada por el Foro Económico Mundial en 2019 destacó que las principales industrias que realizaban inversiones en Big Data y análisis en ese momento eran los servicios financieros, los servicios profesionales, las TI y las telecomunicaciones, los medios y el entretenimiento.

En esta fase ha habido un gran cambio en la forma en que los datos están disponibles, alojados, almacenados, ingeridos y estructurados desde las perspectivas funcional, de arquitectura y de seguridad.

Por lo tanto, el próximo reto es que los CIO, CDO y los equipos de liderazgo comiencen a involucrarse en la etapa inicial de la estrategia y las capacidades de datos e información, y los alineen con la estrategia y los objetivos comerciales de la organización.

 

¿Cuál fue el efecto de la pandemia?

Incluso antes de la pandemia, ya existía una creciente preocupación de que, a pesar de todo el ruido los rendimientos de los proyectos de Big Data, se habían quedado cortos, especialmente considerando el impacto de las inversiones y resultados comerciales tangibles.

El inicio de la pandemia causó una mella significativa en las capacidades predictivas de los macrodatos, especialmente debido a la irrelevancia y obsolescencia de las condiciones previas a la pandemia, así como a los desafíos mismos para predecir la propagación del COVID-19.

Los CIO comenzaron a buscar información en conjuntos de datos pequeños y fusionándolos a través de fuentes de datos diversas y dispares, así como dentro de organizaciones individuales, funciones comerciales o incluso individuos. Estos conocimientos han sido más específicos y han eliminado el tiempo, el esfuerzo y el costo de los grandes datos y los modelos asociados de aprendizaje automático (ML).

De hecho, a mediados de 2021 Gartner predijo que casi dos tercios de las empresas del mundo migrarán desde Big Data a este nuevo enfoque de datos pequeños y amplios en los próximos 4-5 años.

Además del enorme crecimiento de la movilidad y el comercio electrónico, los bloqueos generados por la pandemia, las restricciones de viajes, el distanciamiento social y otros factores han provocado un aumento masivo en la adopción de Internet de las cosas (IoT), lo que agrega aún más complejidad a las fuentes de datos.

Este enfoque de datos pequeños y amplios, además de los datos de IoT, también incluye texto, imágenes, audiovisuales, voz, comercio electrónico, redes sociales y otros conjuntos de datos.

Las estructuras de datos también han aumentado y complementado los lagos y datawarehouses (DW). Una estructura de datos prepara datos confiables, validados y relevantes para el DW y el lago y, al revés, ambos brindan inteligencia operativa e información sobre la estructura.

 

¿Qué pasó con el crecimiento de los datos durante la pandemia? ¿Cuáles son algunos de los casos de uso de la analítica de la nueva era?

El crecimiento del volumen y la variedad de datos se ha acelerado enormemente en la pandemia. En comparación con la población mundial de menos de 8 mil millones en 2021, la cantidad correspondiente de dispositivos móviles y dispositivos IoT es de 15 y 22 mil millones, respectivamente.

Según una investigación de Statista, la cantidad total de datos en todo el mundo aumentó de 9 zettabytes (1 zettabyte = 1 billón de gigabytes) en 2013 a más de 27 zettabytes en 2021, y la predicción es que aumentará a más de 180 zettabytes en 2025.

La Web 3.0 y el metaverso junto con 5G y edge computing contribuirán con su parte a este crecimiento junto con el aumento complementario de la computación en la nube descentralizada y distribuida.

La era de la pandemia ha sido testigo del auge del análisis cognitivo, que implica la aplicación de inteligencia similar a la humana a ciertos procesos y tareas, y fusiona el aprendizaje profundo, las redes neuronales, el procesamiento del lenguaje natural además de los algoritmos habituales de IA y ML.

Por ejemplo, los fabricantes de automóviles están utilizando Big Data, análisis y ciencia de datos para campañas dirigidas de marketing, promoción y fidelización de clientes; y las instituciones financieras también están aprovechando el análisis cognitivo para identificar, mitigar y abordar los delitos financieros y las transacciones fraudulentas; entre otros casos.

 

¿Cuáles son los factores no tecnológicos del éxito de las iniciativas de datos y análisis?

Al igual que con otras tecnologías, no se puede dejar de destacar la relevancia del liderazgo, la comunicación y las habilidades. De hecho, hay estudios que atribuyen a estos factores la razón del fracaso del 85 % en los proyectos de Big Data.

Además, los CIOs y los líderes deben considerar detenidamente la combinación de sistemas en la nube, híbridos y locales, junto con los aspectos relacionados con la arquitectura de datos, la calidad, la limpieza, el almacenamiento, la integración, las estructuras, los lagos y los DW, la integración, la inteligencia artificial y el aprendizaje automático, junto con los marcos de gobernanza.

También son fundamentales para el éxito de estas iniciativas: todos los aspectos de privacidad y compliance, mantenerse al tanto de las tendencias regulatorias y de la industria, la calidad y disponibilidad del talento y el equipo de trabajo, la gestión del cambio, la cultura organizacional y la mejora de la alfabetización de datos dentro de los equipos de liderazgo. Tampoco hay que olvidar la relevancia de priorizar procesos en función del riesgo y la complejidad, automatizando así los de menor importancia y centrándose más en las decisiones de mayor riesgo, valor y criticidad.

 

¿Cuál es el papel del análisis de datos más allá de la empresa? ¿Qué depara el futuro?

Es indudable que en la actualidad las organizaciones gubernamentales y empresas privadas, dado el crecimiento y la adopción de la Web 3.0 con la irrupción del metaverso, deben tener en cuenta las iniciativas de análisis de datos.

De hecho, los análisis y las ciencias de datos se utilizan en una gran cantidad de iniciativas socioeconómicas y políticas, como la gestión del desplazamiento y la rehabilitación de refugiados, el cambio climático, la mitigación del desperdicio de alimentos, la mejora de la eficacia de los programas de ayuda, y muchas otros iniciativas. Por lo que es prácticamente seguro que después de este desarrollo explosivo, seguiremos escuchando aún más sobre la Analítica de Datos.