El término Big Data se ha difundido desde la década de 1990. Fue pensado para reflejar la explosión de datos, estructurados y no estructurados, con la cual las organizaciones se están saturando. Se enfrentan a problemas que incluyen el volumen de datos y la necesidad de capturar, almacenar y recuperar, analizar y actuar sobre esa información.
Las tecnologías y técnicas como MapReduce, Hadoop, Spark, Kafka, NoSQL y más han evolucionado para ayudar a las empresas a controlar sus datos en constante expansión.Entonces, ¿a dónde va todo desde aquí? ¿Qué informará Big Data 2.0?
No tan rápido, dicen varios expertos en datos. No todos están tan lejos en el viaje de Big Data como podría pensar.Para las empresas pequeñas y medianas que no cuentan con abundantes recursos de TI y científicos de datos que les permitan aprovechar las tecnologías de Big Data, se trata de algo que han leído pero que no han podido implementar.
«Hadoop es demasiado complejo para las organizaciones que no pueden pagar grandes departamentos de TI», dijo Tony Baer, analista investigador de Ovum. “Los próximos 2,000 o 3,000 adoptantes de Hadoop no tendrán el mismo perfil que los primeros 3,000, quienes tienden a tener departamentos de TI más sofisticados. [Los nuevos adoptantes están] todavía tratando de averiguar el caso de uso. Se dan cuenta de que necesitan hacer algo, pero muchos de ellos son como ciervos atrapados en los faros «.
Amit Sharma, CEO del proveedor de controladores de datos CData, se hizo eco de ese sentimiento. «El término Big Data en sí es resbaladizo», dijo. «Existen muchas definiciones buenas, pero el término se está extendiendo a cosas que no son Big Data». Lo que Big Data simplemente hace, explicó Sharma, es ayudar a resolver los problemas de escala. Pero donde están los verdaderos desafíos, «Big Data es una solución que busca un problema».
Uno de los principios básicos de Big Data fue el uso de bases de datos NoSQL, ya que SQL se consideraba demasiado rígido para tratar con datos no estructurados. Ahora, con el tiempo de mirar hacia atrás, algunos expertos dicen que eso podría no ser necesario. «No hay razón para que los problemas de Big Data deban ser diferentes a los problemas en el mundo de SQL», dijo Sharma de CData.
SQL sigue siendo relevante en Big Data
Big Data comenzó en Google. Como Monte Zweben, CEO del proveedor de la plataforma de datos Splice Machine, dice: “Publicaron un artículo de MapReduce y surgió la versión de código abierto, llamada Hadoop, y todos saltaron. Es revolucionario porque fundamentalmente permitió al programador Java promedio, y luego a otros lenguajes de programación, usar muchas computadoras, servidores y GPU para atacar los problemas de Big Data. Y esto fue revolucionario. Pero a medida que pasaba el tiempo, surgían nuevos inventos en los que la gente tenía que hacerlo de manera más efectiva: Spark era un invento que surgió del mundo analítico. Spark fue un avance sobre el MapReduce original. Surgieron tiendas de valor clave, como Cassandra y HBase, que le permiten hacer el servicio de aplicaciones. Así que tuvo innovaciones en analítica, tuvo innovaciones para poder servir aplicaciones operativas, tuvo innovaciones de transmisión emergentes como Kafka. Pero una cosa es cierta en todas estas cosas … la programación de bajo nivel que fue necesaria para hacer que estas cosas funcionen ya no es aceptable «.
“Para que sea realmente aceptable para el Global 2000 [las empresas], tiene que ser en una abstracción o lenguaje superior, y eso creemos que es SQL, el lenguaje de datos estándar. Usted ve muchos, muchos proyectos que ahora ponen capas SQL encima de estos computajes. Somos uno de esos evangelistas de SQL, pero no somos los únicos.Incluso Spark tiene su propio dialecto SQL ”.
Zweben continuó explicando que las organizaciones atribuyeron el problema de escalabilidad de las bases de datos relacionales al lenguaje SQL, porque el SQL era muy robusto y completo. “Le permite unir tablas y hacer transacciones, y estas son operaciones de datos muy complicadas. Pero la gente pensó que estas bases de datos eran demasiado lentas y no se adaptan a mi problema de Big Data, así que permítame ir a estas arquitecturas NoSQL en la pila de Hadoop «, dijo. “Pero el problema era que tiraron al bebé con el agua del baño. No fue SQL lo que estaba roto; Fue la arquitectura subyacente que soporta el SQL. Y esa fue nuestra misión en la vida en Splice Machine … fue “mantener el SQL; arreglar la arquitectura «.
Adam Famularo, CEO de la empresa de modelado de arquitectura Erwin, dijo que el modelado «se convertirá en el corazón y el alma de su arquitectura de datos, su estructura de datos, sus elementos de datos …»
Famularo dijo que todo comienza con los procesos de negocios, que luego deben ajustarse a la arquitectura de datos. “Deje que la empresa lidere la arquitectura de datos, que luego necesita modelos de datos para modelar el esquema, luego su gobierno y su enfoque para gobernar esos datos. Y ahí es donde regresa el negocio, para poder ayudar a definir qué es la infraestructura empresarial, el diccionario empresarial, directamente al diccionario de datos. Comienza con el negocio y termina con el negocio, y en medio hay una gran cantidad de estructuras de datos que deben implementarse y luego ser monitoreadas y administradas en toda la empresa, generalmente por el [director de datos] y la organización CDO. .
El director de tecnología de MongoDB, Eliot Horowitz, señaló que una vez que se escriben los datos, los equipos no quieren cambiarlos ni reestructurarlos. «Todos siempre desean tener una arquitectura de datos perfecta y nunca la van a tener». Realmente no puede existir, en mi opinión ”, dijo. «Lo que realmente importa es si puede permitir que las personas colaboren en la información, compartir los datos de manera significativa y al mismo tiempo que mantiene controles de seguridad y privacidad increíblemente altos.
«La forma en que creo que esto va a ir», agregó, «es que vas a tener datos, tendrás alguna base de datos con cosas en ella, y configurarás reglas para que diferentes personas puedan ver cosas diferentes, pero luego puede consultar esos datos sin tener que copiarlos o moverlos, y simplemente puede decidir con quién quiere compartir diferentes cosas. Si está en el cuidado de la salud, puede compartir ciertas cosas con agentes de seguros o compañías de seguros, o ciertos datos agregados con investigadores, sin tener que darles una copia de los datos y sin tener que escribir un montón de lógica realmente compleja. Es un tipo de modelo bastante diferente, más como un modelo federado. El truco es lograr que la seguridad y la privacidad se hagan correctamente «.
¿A dónde vamos desde aquí?
Aprendizaje automático. Canalizaciones de datos.Implementaciones multi-nube. Contenedores
Todos estos desempeñarán un papel más importante en la forma en que las organizaciones analizan, clasifican y entregan datos a las aplicaciones.
“Aprovechar el análisis de Big Data y aprovechar el aprendizaje automático y la inteligencia artificial es sin duda muy importante para la mayoría de las organizaciones, y existen beneficios tangibles. «Creo que, básicamente, las organizaciones necesitarán mucha más orientación, por lo que verán analíticas más guiadas y espero que las implementaciones vayan hacia tendencias hacia implementaciones administradas en la nube: servicios administrados básicos», dijo Baer de Ovum.
Hay una advertencia, sin embargo, con los servicios gestionados, advirtió Baer. «Muchas organizaciones, a medida que ingresan a la nube y comienzan a usar servicios administrados, tendrán que tomar la decisión de qué tan dependiente voy a ser en este único proveedor de la nube y dónde me aislo para tener cierta libertad. ¿de acción? ¿Y obtengo mis servicios administrados de un tercero para que sea transparente? ¿Me abstraerá de Amazon, así que si decido que quiero correr a otro lado puedo? En cierto modo, es casi como una decisión de arquitectura empresarial … ¿dónde tengo algo de aislamiento entre nosotros y el proveedor de la nube? ¿O vamos a toda la pila de Amazon? «Es un problema para los que duermen … no va a aparecer de repente en los titulares el próximo año, pero creo que muchas organizaciones van a comenzar a ver estas cosas».
Como Manish Gupta, CMO en Redis Labs, señaló, la complejidad en el espacio de datos solo está creciendo. «Ya no es una piscina de datos, sino un océano», dijo. El manejo de datos en tiempo real debe ser un elemento fundamental para cualquier estrategia de datos, dijo. Se requerirá que los bots manejen el flujo de datos, y las organizaciones tendrán que decidir cuántos datos pueden o deben analizarse.Gupta cree que «se etiquetará el 15 por ciento de los datos, y se analizará alrededor de una quinta parte de eso».
También dijo que el ciclo de vida de las tecnologías se acortará. “Hadoop se convirtió en la corriente principal en los últimos dos años, y sin embargo, ahora algunas empresas se saltan Hadoop por completo y van directamente a Spark. Y con Apache Kafka, quizás no necesite una tecnología de transmisión por separado «.
Para las inversiones en tecnología que las organizaciones están haciendo hoy, Gupta dijo que pueden esperar obtener cinco años de esto. «Las estructuras organizativas deben ser más ágiles debido a la falta de tecnología».
Las herramientas de aprendizaje automático han avanzado mucho, señaló Eric Schrock, director de tecnología de Delphix. Otras herramientas están avanzando con la misma rapidez. De hecho, dijo, «la gente ya ni siquiera necesariamente quiere meter sus datos en un lago de datos de Hadoop. Solo quieren ejecutar Spark o TensorFlow o lo que sea directamente en las fuentes de datos y hacer lo que sea necesario sin tener el paso intermedio del lago de datos.La calidad de su análisis, la velocidad de su ciencia de datos y la calidad de su aprendizaje automático dependen en gran medida de su capacidad para introducir datos en él.Algunos de esos datos provienen de feeds de Twitter y registros de eventos y otras cosas, y si sus datos se atascan en estas grandes bases de datos relacionales, todavía tiene el mismo problema «.
Datos para la prueba
Los datos similares a la producción generan pruebas de mayor calidad, independientemente de dónde se encuentre en el ciclo de vida del desarrollo del software. Si usted es un desarrollador que realiza pruebas manuales, si está haciendo un control de calidad que verifica una solución, si está realizando pruebas de regresión, si realiza pruebas del sistema, cuanto más se parezcan sus datos a producción, mejor será la calidad de sus pruebas. ser.
Eric Schrock, director de tecnología de Delphix, dio el siguiente ejemplo: «Supongamos que está usando datos obsoletos, entonces los datos pueden haber cambiado en producción desde que se ejecutaron, y algo que podría haber funcionado con los datos de hace dos semanas o dos. hace meses, es posible que no funcione cuando realmente lo enrolle a producción con los datos actuales «.
Schrock agregó que los escenarios comunes son clientes que usan bases de datos compartidas. «Tal vez tienen cuatro equipos que comparten una base de datos, y en uno de ellos, un desarrollador en realidad corrompe la base de datos, deja caer una tabla o hace algo horrible». Ahora otros tres equipos que no tienen nada que ver con ese desarrollador no pueden hacer el trabajo. Lo que estaban usando ahora está roto. Así que es bastante común que dev-test tenga un entorno de lectura y escritura aislado. Pero eso es desafiante y refrescante que es difícil. Hacer una copia de una base de datos de 50 TB no es rápido, usando herramientas tradicionales «.
Procesamiento predictivo en línea: OLPP
El procesamiento predictivo en línea, según lo define el CEO de Splice Machine, Monte Zweben, es esencialmente la combinación del procesamiento de transacciones en línea y el procesamiento analítico en línea.
Zweben explicó: “Primero toman su aplicación antigua y la ponen en una plataforma OLPP y simplemente funciona porque es SQL. Luego le agregan un poco de analítica predictiva, y ahora, de repente, esta aplicación antigua y robusta de SQL tiene un componente que podría estar utilizando el aprendizaje automático y que mejora con el tiempo. Vemos OLPP, porque es SQL, como la rampa de acceso a AI incluso para las aplicaciones SQL más antiguas que existen.
“Obtiene una base de datos SQL a la que puede conectarse con API estándar como JDBC y ODBC, tiene disponible una libreta Apache Zeppelin y obtiene bibliotecas de aprendizaje automático en proceso para que pueda implementar capacidades predictivas y también transmita , totalmente integrado, por lo que puede ingerir grandes lotes de datos que pueden ser descargas de inventario en una aplicación de la cadena de suministro de un sistema ERP, pero también puede recibir la ingesta de transmisiones en tiempo real como transacciones de una fracción de segundo de los terminales POS en tiendas minoristas. Todos estos tipos de cosas ahora son capaces dentro de este sistema de administración de base de datos relacional que es bueno para las transacciones y para potenciar una aplicación y hacer que el análisis predictivo sea viable.
OLPP le brinda un sistema de administración de base de datos relacional que es capaz de cargar cargas de trabajo OLTP, como potenciar sitios de comercio y aplicaciones móviles, a una escala de petabyte, puede obtener petabytes de datos y buscar un solo registro en literalmente milisegundos. También recibe el procesamiento OLAP, por lo que si tiene petabytes de datos transaccionales, usted es una compañía de tarjetas de crédito y tiene petabytes de datos de transacciones en una base de datos, y obtiene un centro de llamadas que necesita buscar un solo registro. Eso es OLTP. Averigüe la transacción promedio por código postal para la frecuencia de la transacción y el tamaño de la transacción … debe agregar todos los datos en un gran conjunto de datos, y eso es el procesamiento OLAP.También obtienes aprendizaje automático, streaming y el portátil «.
¿Cuál es la diferencia entre la gestión de datos y la gobernanza de datos?
El gobierno de los datos es un subconjunto de la gestión de datos. El CEO de Erwin, Adam Famularo, dijo que cree que “la gobernabilidad de los datos es la base fundamental de la estrategia de datos y el enfoque de datos para una empresa.A medida que las personas comienzan a comprar soluciones basadas en el gobierno de datos, literalmente van a diseñar su empresa en torno a la solución de gobierno de datos. Es casi como la solución ERP para las finanzas; La gobernanza de los datos sería para los datos. Es realmente el corazón y el alma lo que une a todos. Ahora está definiendo cuáles son los roles de las personas que van a tocar sus datos.Quiénes son las personas que van a actualizar las estructuras de datos y todo se basa en la gestión de sus datos basada en roles. Ese es el gran cambio. La gestión de datos es el juego holístico, por lo que todo cae bajo eso.Podría ser MDM, lagos de datos … todos los proveedores de tecnología aterrizan en la gestión de datos de alguna forma o forma «.