Red de conocimiento de divisas - Empezando con las acciones - ¿Cuáles son las empresas nacionales que ofrecen soluciones de big data?

¿Cuáles son las empresas nacionales que ofrecen soluciones de big data?

Con el advenimiento de la "era de los grandes datos", las empresas están prestando cada vez más atención al papel de los datos, y los datos aportan cada vez más valor a las empresas. Este documento presentará las oportunidades y desafíos que los big data aportan a las empresas y sus soluciones de big data.

El primer paso es entender ¿qué es big data? No se trata simplemente de una gran cantidad de datos o datos masivos, sino de una mina de oro de datos con características de 4V. Traerá oportunidades y desafíos a nuestra empresa.

En el segundo paso, basándonos en las características del big data, analizamos qué capacidades debe tener la plataforma de big data empresarial para afrontar los desafíos del big data.

En la tercera parte, basándonos en los requisitos de la plataforma de big data, proponemos una solución técnica para big data empresarial y presentamos cómo la solución resuelve los problemas de big data.

Finalmente, echaré un vistazo a los problemas actuales de las aplicaciones de big data y cómo se desarrollarán en el futuro.

¿Qué es el big data?

Desde la perspectiva de los datos, big data no es simplemente grande y muchos big data se llaman uno siete tres orejas cero uno seis dos cinco collares, pero tiene las características de 4V. En pocas palabras, es de gran tamaño, muchos estilos, rápido y de bajo valor.

Gran volumen: el último informe de investigación muestra que para 2020, se espera que el uso global de datos aumente 44 veces, alcanzando los 35,2 ZB. Cuando hablamos de big data, generalmente la cantidad de datos empresariales debe alcanzar el nivel PB para que se le llame big data.

Muchos tipos de datos: además de grandes cantidades, los big data también incluyen datos estructurados y no estructurados, correos electrónicos, Word, imágenes, información de audio, información de video y otros tipos de datos. Esta relación ya no existe. Lo mismo que en el pasado. Esto se puede solucionar con una base de datos grande.

Velocidad rápida: de lo que estamos hablando aquí es de la velocidad de recopilación de datos. Con el desarrollo del comercio electrónico, la oficina móvil, los dispositivos portátiles, el Internet de las cosas, las comunidades inteligentes, etc., la velocidad de La generación de datos ha evolucionado al segundo nivel. Las empresas requieren la capacidad de obtener datos en tiempo real y tomar decisiones en tiempo real.

Valor bajo: se refiere a la densidad del valor. El valor de todos los datos es cada vez mayor. Sin embargo, a medida que aumenta la cantidad de datos, la densidad del valor de los datos también disminuye en consecuencia. y las empresas necesitan encontrar valor a partir de grandes cantidades de negocios.

Desde la perspectiva del desarrollador, big data es diferente de la tecnología de base de datos y la tecnología de almacenamiento de datos anteriores. Representa una serie de nuevas tecnologías lideradas por Hadoop y Spark.

Las características más destacadas de este tipo de tecnología son: la computación distribuida y en memoria.

Distribución: En pocas palabras, la distribución significa dividir tareas complejas y que requieren mucho tiempo en múltiples tareas pequeñas y procesarlas en paralelo. Las tareas aquí incluyen la recopilación de datos, el almacenamiento de datos y el procesamiento de datos.

Computación de memoria: en esencia, la CPU lee datos directamente de la memoria en lugar del disco duro, y calcula y analiza los datos. La computación en memoria es ideal para procesar cantidades masivas de datos y datos que requieren resultados en tiempo real. Por ejemplo, casi todos los datos financieros, de marketing, de mercado y de otro tipo de una empresa en los últimos diez años se pueden guardar en la memoria al mismo tiempo y los datos se pueden analizar sobre esta base.

Minería de datos: el núcleo de big data debería incluir la tecnología de minería de datos, que es una tecnología estrechamente relacionada con las estadísticas y se puede dividir aproximadamente en cuatro categorías: clasificación, agrupación, predicción y asociación. se puede utilizar para extraer patrones potenciales o conocimiento de grandes cantidades de datos incompletos y confusos.

Requisitos de la plataforma de big data

Las capacidades de big data se dividen en cinco aspectos: recopilación de datos, almacenamiento de datos, cálculo o procesamiento de datos, extracción de datos y presentación de datos.

Recopilación de datos: se requiere la capacidad de recopilar datos masivos y en tiempo real. Este es el primer paso en la utilización de datos.

Almacenamiento de datos: en correspondencia con las características de big data, se requieren capacidades de almacenamiento de gran capacidad, alta tolerancia a fallas y alta eficiencia, que es la base para la utilización de datos.

Computación de datos: se requieren capacidades informáticas y de procesamiento de datos potentes, económicas y rápidas. Potente corresponde a la gran cantidad y variedad de big data, barato corresponde a la baja densidad de valor de big data y rápido corresponde. a la velocidad del big data, que es la clave para el desarrollo del big data.

Minería de datos: Es necesario poder extraer el valor de los datos a través del análisis tridimensional desde todos los ángulos y en muchas direcciones. Sólo aplicando bien la minería de datos se pueden transformar los datos en valor. el núcleo de la utilización de datos.

Presentación de datos: el formulario de presentación de datos multicanal, intuitivo y rico es la imagen externa de los datos. Este es el punto culminante de la aplicación de datos y la ventana que los usuarios pueden reconocer.

Los anteriores son los problemas que debe resolver la plataforma de big data, las capacidades que debe tener y los requisitos que plantean los datos.

Soluciones técnicas

Las soluciones empresariales de big data se dividen en capa de recopilación de datos, capa de almacenamiento de datos, capa de cálculo de datos, capa de minería de datos y capa de presentación de datos del proceso de procesamiento de datos. resuelve los problemas clave requeridos para big data. Las partes marcadas en amarillo son tecnologías tradicionales de procesamiento de datos.

Capa de recopilación de datos:

La tecnología de recopilación de datos se divide en recopilación en tiempo real y recopilación programada. Utiliza herramientas como Oracle GoldenGate para recopilar datos de forma incremental en tiempo real. garantizar la puntualidad de los datos La recopilación adopta una combinación de servicios de datos de SAP y otras herramientas para extraer datos con regularidad, que se utiliza principalmente para grandes lotes de datos que no están en tiempo real; Agregue herramientas ETL distribuidas como hervidor y sqoop para enriquecer y diversificar los servicios de extracción de datos. Al mismo tiempo, agregue el servicio Kafka que integra datos en tiempo real para procesar grandes cantidades de datos en tiempo real.

Capa de almacenamiento de datos:

Sobre la base del Oracle tradicional, el área de almacenamiento de datos agrega un sistema de archivos distribuido, una base de datos de columnas distribuidas, un sistema de archivos de memoria, una base de datos de memoria, búsqueda de texto completo, etc. módulo. Entre ellos, el sistema de archivos distribuido ceph se utiliza para almacenar datos no estructurados debido a su distribución equilibrada de datos y su alto grado de paralelización; el sistema de archivos distribuido Hdfs se utiliza para almacenar otros datos estructurados debido a su excelente escalabilidad y compatibilidad con el almacenamiento de columnas. La base de datos hbase se utiliza principalmente para almacenar datos masivos con necesidades específicas para consultas informáticas y otros servicios.

Capa de computación de datos:

La capa de computación utiliza consultas SQL estándar, búsqueda de texto completo, análisis interactivo Spark, procesamiento de datos en tiempo real Streaming, procesamiento por lotes fuera de línea, computación gráfica Graph Perform cálculo y procesamiento de datos sobre datos químicos, datos no estructurados, datos en tiempo real y datos de grandes lotes.

Ventajas del método de computación central: motor de computación con memoria de chispa:

Procesamiento ligero y rápido.

Fácil de usar, Spark admite múltiples idiomas.

Soporta consultas complejas.

Procesamiento de transmisiones en tiempo real.

Se puede integrar con Hadoop y datos de Hadoop existentes.

¿Se puede integrar con Hive?

Capa de minería de datos: utilice herramientas de análisis como Spark_Mllib, R, Mhout, etc. para crear modelos y bibliotecas de algoritmos basados ​​en el motor de análisis de modelos. . La biblioteca de algoritmos del modelo entrena el modelo, genera instancias del modelo y finalmente toma decisiones en tiempo real y fuera de línea basadas en las instancias del modelo.

Capa de presentación de datos: proporciona varios métodos de análisis de datos, como presentación de portal, gráficos de datos, correos electrónicos y software de oficina. La ruta de presentación puede admitir pantallas grandes, computadoras de escritorio, terminales móviles, etc.

Conclusión

Con la optimización continua de las computadoras de alto rendimiento y el almacenamiento y administración de datos masivos, los problemas que la tecnología puede resolver eventualmente se convertirán en problemas. Hay tres vínculos que realmente restringirán o se convertirán en un cuello de botella en el desarrollo y aplicación de big data:

Primero, la legalidad de la recopilación y extracción de datos, el equilibrio entre la protección de la privacidad de los datos y la Aplicación de la privacidad de datos.

Siempre que una empresa o institución extrae datos privados de la multitud, los usuarios tienen derecho a saberlo. Cuando utilizan los datos privados de los usuarios con fines comerciales, necesitan obtener la aprobación del usuario. Sin embargo, en la actualidad, China e incluso el mundo van a la zaga del desarrollo de big data en una serie de cuestiones de gestión, como cómo se debe proteger la privacidad de los usuarios, cómo se deben formular las reglas comerciales, cómo se deben castigar las violaciones de los derechos de privacidad de los usuarios y cómo se deben castigar las violaciones de los derechos de privacidad de los usuarios. cómo deben formularse las normas jurídicas con rapidez.

En el futuro, muchas empresas de big data deambularán por áreas grises en la etapa de desarrollo inicial. Cuando las operaciones comerciales comiencen a tomar forma y comiencen a afectar a un gran número de consumidores y empresas, se verán obligadas a modificar las leyes, regulaciones y normas de mercado pertinentes. formulado a un ritmo acelerado. Se puede esperar que, aunque las aplicaciones técnicas de big data pueden ser infinitas, debido a las limitaciones de la recopilación de datos, los datos que pueden usarse para aplicaciones comerciales y servir a las personas son mucho más pequeños que los datos que teóricamente pueden recopilar y procesar big data. . La recopilación restringida de fuentes de datos limitará gravemente la aplicación comercial de big data.

En segundo lugar, el efecto sinérgico de los macrodatos requiere que las empresas en todos los aspectos de la cadena industrial logren un equilibrio entre competencia y cooperación.

Big data plantea más requisitos de cooperación para las empresas de su ecosistema. Sin una comprensión macro de toda la cadena industrial, una sola empresa será incapaz de comprender la relación entre los datos en cada eslabón de la cadena industrial basándose únicamente en los datos independientes que posee, y su juicio y su impacto en los consumidores serán muy limitados. En algunas industrias con una evidente asimetría de información, como la banca y los seguros, la necesidad de compartir datos entre empresas es más urgente. Por ejemplo, las industrias bancaria y de seguros generalmente necesitan establecer una base de datos compartida para toda la industria para que sus miembros puedan comprender el historial crediticio de los usuarios individuales, eliminar la asimetría de información entre el garante y el consumidor y hacer que las transacciones sean más eficientes para que las transacciones sean más fluidas. . Sin embargo, en muchos casos, existe competencia y cooperación al mismo tiempo entre estas empresas que necesitan compartir información. Antes de compartir datos, las empresas deben sopesar los pros y los contras y evitar perder datos mientras comparten su ventaja competitiva. Además, cuando muchos comerciantes cooperan, es fácil formar una alianza de vendedores, lo que genera pérdidas para los intereses de los consumidores y afecta la equidad de la competencia. La dirección de desarrollo más imaginativa de big data es integrar datos de diferentes industrias para proporcionar un dibujo de datos integral y tridimensional, esforzándose por comprender y remodelar las necesidades del usuario desde una perspectiva del sistema. Sin embargo, el intercambio de datos entre industrias debe equilibrar los intereses de demasiadas empresas. Si no existe una organización de terceros neutral que coordine la relación entre todas las empresas participantes y formule reglas para la confidencialidad y la aplicación de los datos, será imposible limitar dónde. Se pueden utilizar big data. La falta de instituciones neutrales autorizadas impedirá que los big data alcancen su máximo potencial.

En tercer lugar, interpretación y aplicación de las conclusiones del big data.

Los macrodatos pueden revelar las posibles correlaciones entre variables desde el nivel de análisis de datos, pero ¿cómo pueden incorporarse las correlaciones a nivel de datos en la práctica de la industria? ¿Cómo formular soluciones ejecutables y conclusiones para aplicar big data? Estos problemas requieren que los ejecutivos no sólo sean capaces de interpretar big data, sino también de tener un conocimiento profundo de la correlación entre varios elementos del desarrollo de la industria. Este vínculo se basa en el desarrollo de la tecnología big data pero involucra varios factores como la gestión y la ejecución. En este vínculo, el factor humano se convierte en la clave del triunfo. Desde una perspectiva técnica, el ejecutor debe comprender la tecnología de big data y poder interpretar las conclusiones del análisis de big data; desde una perspectiva de la industria, el ejecutor debe tener una buena comprensión de la relación entre los procesos de cada eslabón de producción en el; industria y las posibles correlaciones entre los elementos, e integrar big data en el proceso. Las conclusiones obtenidas corresponden a los enlaces de implementación específicos de la industria uno por uno desde una perspectiva de gestión, el ejecutor necesita formular una solución ejecutable al problema y; Asegúrese de que no haya conflicto entre este plan y el proceso de gestión. Mientras se resuelve el problema, no se crean nuevos problemas. Estos requisitos no solo requieren que el ejecutor tenga buenos conocimientos de tecnología, sino también un excelente administrador, pensamiento sistémico y capacidad de ver la relación entre big data y la industria desde la perspectiva de sistemas complejos. La escasez de tales talentos restringirá el desarrollo de big data.

上篇: Apariencia, lenguaje y acción combinados con composición descriptiva. 下篇: La primera opción para el transporte urbano: prueba de manejo Dongfeng Nissan e-POWER Sylphy
Artículos populares