Ocho puntos clave en el desarrollo actual del big data
Han pasado 11 años desde que comencé a trabajar en 2008. Trabajando con datos en todo momento, desarrollé el núcleo del marco de big data subyacente (Hadoop, Pig, Tez, Spark, Livy) y también desarrollé las aplicaciones de capa superior de big data (escribiendo MapReduce Job para ETL, usando Hive para Ad hocquery y Tableau para la visualización de datos Hoy me gustaría aprovechar esta oportunidad para hablarles sobre la situación actual y el futuro del big data tal como lo entiendo.
Primero que nada, hablemos de él. qué es big data (durante más de 10 años), pero nunca ha habido una definición precisa (tal vez no sea necesaria). Los ingenieros de datos entenderán más los big data desde una perspectiva técnica y de sistemas, mientras que los analistas de datos entenderán los big data desde una perspectiva. Desde una perspectiva técnica, los ingenieros de datos y los analistas de datos deben tener diferentes conocimientos sobre big data. Esta es mi comprensión de big data, que no es una sola tecnología o producto, sino que está relacionado con todos los datos. Al analizar big data, lo consideraré desde dos dimensiones, una es la dimensión del flujo de datos (el eje horizontal de la figura siguiente) y la otra es la dimensión de la pila de tecnología (el eje vertical de la figura siguiente). )
De hecho, nunca me gusta hablar de "big data". Prefiero decir "datos" porque la esencia del big data son "datos", no "grandes" porque los medios siempre se han centrado. sobre la "grandeza" de los grandes datos ", a veces a menudo nos damos cuenta de que la esencia de los grandes datos son los "datos", no "grandes" es solo lo que ves, la esencia siguen siendo los datos en sí.
Después de aclarar el significado de big data, hablemos de dónde se encuentra actualmente big data desde una perspectiva histórica, cada nueva tecnología pasará por la siguiente curva de madurez tecnológica. > Cuando sale una nueva tecnología, la gente estará muy entusiasmada. A menudo creen que esta tecnología traerá grandes cambios a la humanidad y sus expectativas son demasiado altas, por lo que esta tecnología se popularizará a una velocidad muy rápida al principio. , y luego la gente comenzará a alcanzar un pico. Después de darse cuenta de que esta nueva tecnología no es tan revolucionaria como se esperaba, serán demasiado pesimistas y luego pasarán por una etapa de burbuja. Después de un cierto período de silencio, la gente comenzará. volver a la racionalidad, enfrentar el valor de esta tecnología y luego comenzar a aplicarla correctamente. Desde entonces, esta tecnología ha comenzado a avanzar de manera constante (por cierto, cuando miré esta imagen, también pensé en. una imagen de las opiniones de un hombre sobre el matrimonio. Puede agregarla).
1. Desde la perspectiva de la historia del big data, el big data ha pasado por dos etapas importantes. El pico de las altas expectativas y el fondo de la burbuja. Como podemos ver en Googletrend, la curva de big data lo confirma. Los big data comenzaron a aparecer en la visión de la gente alrededor de 2009, alcanzaron su punto máximo alrededor de 2015 y luego avanzaron lentamente hacia el canal descendente. (Por supuesto, esta curva no se ajustará completamente a la curva de madurez tecnológica anterior, como la curva tecnológica hacia abajo del canal puede aumentar el volumen de búsqueda para discutir esta tecnología)
A continuación, quiero hablar sobre mi juicio sobre la tendencia futura de big data.
2. La escala de los datos seguirá expandiéndose y el big data seguirá floreciendo.
Como se mencionó anteriormente, el big data ha superado el pico de las altas expectativas y el fondo de la burbuja, y ahora se está desarrollando de manera constante. Hay dos razones principales para hacer este juicio:
La escala de datos ascendentes seguirá creciendo, especialmente debido al desarrollo y la madurez de la tecnología IoT y la popularidad de la tecnología 5G en el futuro. En el futuro previsible, la escala de datos seguirá creciendo rápidamente, que es la fuerza impulsora básica para el desarrollo sostenido y estable de big data. Todavía hay mucho espacio para el desarrollo en la industria de datos downstream y todavía hay mucho valor de datos que aún no hemos explorado. Aunque la inteligencia artificial y la cadena de bloques han asumido la posición de big data, tal vez big data no sea el protagonista en el futuro, pero big data definitivamente no es un trabajo secundario y big data seguirá desempeñando un papel básico importante. Se puede decir que mientras existan datos, los big data nunca quedarán obsoletos. Creo que a lo largo de la vida de la mayoría de las personas seremos testigos del continuo desarrollo ascendente del big data.
3. La demanda de datos en tiempo real será cada vez más destacada.
El mayor desafío que enfrentaba el big data antes era la gran escala de datos (por eso todos lo llaman "big data"). Después de años de arduo trabajo y práctica en la industria, los problemas a gran escala se han resuelto básicamente. En los próximos años, el mayor desafío será la velocidad, es decir, el tiempo real.
El tiempo real de big data no se refiere al tiempo real de simplemente transmitir o procesar datos, sino al tiempo real de un extremo a otro. Cualquier paso lento afectará el rendimiento en tiempo real de todo el sistema de big data. Por lo tanto, la naturaleza en tiempo real de big data incluye los siguientes aspectos:
Adquisición y transmisión rápida de datos, cálculo y procesamiento rápidos de datos, visualización de datos en tiempo real, aprendizaje automático en línea y real- Actualización temporal de modelos de aprendizaje automático. En la actualidad, los motores informáticos de procesamiento de flujo representados por Kafka y Flink han brindado un sólido soporte técnico para la computación en tiempo real. Se cree que en el futuro surgirán más productos excelentes en términos de datos visuales en tiempo real y aprendizaje automático en línea. Cuando se mejore la naturaleza en tiempo real de los big data, se generarán datos más valiosos en el extremo del consumidor de datos, formando así un circuito cerrado de datos más eficiente y promoviendo el desarrollo saludable de todo el flujo de datos.
4. La migración de la infraestructura de big data a la nube es imparable.
En la actualidad, la migración de la infraestructura de TI a la nube ya no es un tema que todos deban debatir. Esta es la tendencia general. Por supuesto, la nube de la que hablo aquí no solo se refiere a la nube pública, sino que también incluye la nube privada y la nube híbrida. Dado que cada empresa tiene diferentes atributos comerciales y diferentes requisitos de seguridad de los datos, es imposible implementar todas las instalaciones de big data en la nube pública, y migrar a la nube es una opción destinada en el futuro. Actualmente, los principales proveedores de nube ofrecen una variedad de productos de big data para satisfacer diversas necesidades de los usuarios, incluidos EMR basados en plataforma (PAAS), productos de visualización de datos orientados a servicios (SAAS), etc. La nubosidad de la infraestructura de big data también ha tenido el correspondiente impacto en las tecnologías y productos de big data. Los marcos y productos en el campo de big data serán más nativos de la nube.
Separación de informática y almacenamiento. Sabemos que cada nube pública tiene su propio almacenamiento distribuido correspondiente, como el S3 de AWS. S3 puede reemplazar al conocido HDFS en algunas situaciones y el costo es menor. El almacenamiento físico para S3 no está en EC2. Para EC2, S3 es el almacenamiento remoto. Entonces, si desea desarrollar y aplicar aplicaciones de big data en AWS y sus datos están en S3, entonces, naturalmente, utiliza la separación entre informática y almacenamiento. Adoptar contenedores e integrarlos con Kubernate es la tendencia general. Sabemos que Kubernate es básicamente el estándar para la programación de recursos de contenedores en entornos de nube. Más flexible. Mayor integración con otros productos y servicios en la nube. 5. Enlace completo del producto Big Data
Enlace completo se refiere a proporcionar soluciones de enlace completo de un extremo a otro, en lugar de simplemente apilar algunos componentes del producto Big Data. Los principales problemas que critican los productos de big data representados por Hadoop son que el umbral de usuario es demasiado alto y el costo del desarrollo secundario es demasiado alto. El enlace completo es para resolver este problema. Lo que los usuarios necesitan no son Hadoop, Spark, Flink y otras tecnologías, sino productos basados en estas tecnologías que puedan resolver problemas comerciales. El plan de Cloudera de Edge a AI es un plan con el que estoy más de acuerdo. El valor del big data no son los datos en sí, sino la información y el conocimiento ocultos detrás de los datos que afectan al negocio. A continuación se muestra una imagen tomada de la clásica pirámide de datos de Wikipedia.
La tecnología big data es el procesamiento y refinamiento continuo de los datos más originales. Cada vez que se sube en la pirámide, la cantidad correspondiente de datos será menor y el impacto en el negocio será mayor y más rápido. Para extraer sabiduría de los datos, estos deben pasar por largas etapas de flujo de datos. Sin un sistema completo que garantice el funcionamiento eficiente de todo el proceso, es difícil garantizar que se puedan extraer cosas valiosas de los datos. Por lo tanto, el vínculo completo de los futuros productos de big data es otra tendencia importante.
6. La tecnología de big data se desplaza hacia el consumo y la aplicación de datos posteriores.
La tendencia de desarrollo de enlaces completos de big data se mencionó anteriormente. Entonces, ¿cuál es el estado actual de este enlace de datos largo y cuál será la tendencia en el futuro?
Mi opinión es que en el futuro, la innovación y la fuerza de la tecnología de big data se transferirán al consumo y la aplicación de datos posteriores. El desarrollo de big data en los últimos diez años se ha centrado principalmente en los marcos subyacentes, como Hadoop, Spark, Flink, middleware de mensajes Kafka, programador de recursos Kubernetes, etc., que inicialmente lideraron la tendencia de big data. han surgido en cada segmento. Excelente producto. En general, en términos del marco técnico subyacente, el campo de big data básicamente ha sentado una buena base. Lo que hay que hacer a continuación es cómo utilizar estas tecnologías para proporcionar a las empresas productos con la mejor experiencia de usuario para resolver los problemas comerciales reales de los usuarios. En otras palabras, el enfoque de big data en el futuro se moverá de abajo hacia arriba. .
En el pasado, la innovación de big data se centraba más en IAAS y PAAS. En el futuro, veremos más productos e innovaciones de big data de tipo SAAS. Se pueden ver algunas pistas en los recientes casos de adquisiciones de algunos fabricantes extranjeros. 1. El 7 de junio de 2019, Google anunció que adquiriría la empresa de análisis de datos Looker por 2.600 millones de dólares y la fusionaría con Google Cloud. El 19 y 10 de junio, Salesforce anunció la adquisición de Tableau en una transacción de acciones por valor de 15.700 millones de dólares, con el objetivo de consolidar su trabajo en visualización de datos y otras herramientas para ayudar a las empresas a interpretar los datos masivos que utilizan y acumulan. 3.2065438+A principios de septiembre de 2009, Cloudera anunció la adquisición de Arcadia Data. Arcadia Data es un proveedor de análisis de inteligencia empresarial en tiempo real impulsado por IA nativa de la nube. Los productos de big data para usuarios finales serán el foco de la futura competencia de big data. Creo que de esto también surgirán futuras innovaciones en el campo del big data. En los próximos cinco años habrá al menos una empresa como Looker, pero será difícil producir otro motor informático como Spark.
7. La centralización de la tecnología subyacente y el pleno florecimiento de las aplicaciones de nivel superior.
Cualquiera que haya estudiado big data se lamentará de que hay tantas cosas en el campo de big data, especialmente la tecnología subyacente, que parece imposible de aprender. Después de años de lucha y competencia, han surgido muchos productos excelentes y muchos productos están desapareciendo lentamente. Por ejemplo, el motor Spark en el campo del procesamiento por lotes básicamente se ha convertido en un líder en el campo del procesamiento por lotes, excepto algunos sistemas antiguos, es poco probable que se desarrollen nuevas aplicaciones MapReduce para MapReduce tradicional. Flink se ha convertido básicamente en la mejor opción en el campo del procesamiento de flujo de baja latencia, y el sistema Baofeng original ha comenzado a retirarse lentamente del escenario de la historia. Kafka también ocupa un monopolio en el campo del middleware de mensajes. En el futuro, la ecología subyacente de big data ya no tendrá tantas tecnologías y marcos nuevos, y cada segmento sobrevivirá como el más apto y se volverá más maduro y centralizado. En el futuro, más innovaciones provendrán de aplicaciones de capa superior o de integración de enlace completo. En las aplicaciones de capa superior de big data, habrá más innovación y desarrollo en el futuro, como productos de BI y productos de IA basados en big data, aplicaciones de big data en ciertos campos verticales, etc. Creo que veremos más innovación y desarrollo en esta área en el futuro.
8. El código abierto y el código cerrado van de la mano
En el campo del big data, no solo existen productos de código abierto conocidos como Hadoop, Spark, Flink. , etc., pero también muchos productos excelentes de código cerrado, como AWS Redshift, MaxCompute de Alibaba, etc. Aunque estos productos no son tan populares entre los desarrolladores como los productos de código abierto, son muy populares entre muchas empresas fuera de Internet. Porque para una empresa, hay muchos factores a la hora de considerar qué producto de big data adoptar, y si es de código abierto no es el único criterio. Si el producto es estable, si cuenta con el respaldo de empresas comerciales, si es lo suficientemente seguro, si puede integrarse con los sistemas existentes, etc. A menudo es algo que algunas empresas necesitan considerar más, y los productos de código cerrado a menudo tienen más ventajas en las características de dichos productos de nivel empresarial.
En los últimos años, los productos de código abierto se han visto muy afectados por las nubes públicas. Las nubes públicas pueden disfrutar de los resultados del código abierto de forma gratuita, quitándole una gran parte de la cuota de mercado a las empresas comerciales detrás de los productos de código abierto. Recientemente, muchas empresas comerciales detrás de productos de código abierto han comenzado a cambiar sus estrategias y algunas incluso han modificado sus licencias. Sin embargo, no creo que los proveedores de nube pública vayan a matar a las empresas comerciales que están detrás de los productos de código abierto. De lo contrario, matarán a la gallina que pone a la gallina y luego matarán a las empresas comerciales que están detrás de los productos de código abierto. De hecho, acabarán con el mayor innovador tecnológico de productos de código abierto, es decir, acabarán con los propios productos de código abierto. Creo que la industria del código abierto y los proveedores de nube pública eventualmente alcanzarán un equilibrio. El código abierto seguirá siendo una corriente principal y la principal fuerza de innovación, y algunos productos excelentes de código cerrado también ocuparán un cierto espacio en el mercado.
Finalmente, me gustaría resumir nuevamente los puntos principales de este artículo:
1. En la actualidad, big data ha pasado el período pico y el período de fondo de burbuja más candentes, y ahora se encuentra en el punto más alto. en una etapa de desarrollo estable. 2. La escala de los datos seguirá expandiéndose y los big data seguirán floreciendo. 3. La demanda de datos en tiempo real será cada vez más destacada. 4. La migración de la infraestructura de big data a la nube es imparable. 5. Los productos de big data estarán totalmente vinculados. 6. La tecnología de big data se transferirá al consumo y las aplicaciones de datos posteriores. 7. Centralización de la tecnología subyacente y pleno florecimiento de las aplicaciones de capa superior. 8. El código abierto y el código cerrado van de la mano.