La heterogeneidad y la heterogeneidad son dos grandes desafíos del big data
La heterogeneidad y la heterogeneidad son los dos principales desafíos del big data_Examen del analista de datos
¿Qué es el big data? ¿Qué pueden hacer exactamente los big data? ¿Cuáles son las oportunidades y desafíos en la era del big data?
Hoy en día, frente al omnipresente big data, pocas personas pueden responder claramente a las tres preguntas anteriores.
Hace unos días se celebró en la Escuela de Gestión de la Universidad de Fudan una conferencia con el tema "En la era del big data, las estadísticas están en todas partes". Durante este período, un periodista de International Finance News se reunió con Fan Jianqing, director del Departamento de Investigación de Operaciones e Ingeniería Financiera de la Universidad de Princeton en Estados Unidos. Debido a sus importantes y extensas contribuciones a la estadística, el profesor Fan Jianqing ganó el Premio Presidencial COPSS en 2000, que es el premio más alto en el campo de la estadística internacional. En 2008, fue elegido presidente de la Sociedad Internacional de Estadística Matemática (. IMS) desde su fundación, el único chino entre los más de 70 presidentes.
A los ojos de este profesor de estadística, el big data no sólo es grande, sino también muy complejo: incluye tanto datos estructurados como no estructurados, y está estrechamente relacionado con la biología, la ingeniería, las ciencias naturales y. La sociedad, la ciencia, etc., están estrechamente relacionadas.
En una entrevista con un periodista de International Finance News, Fan Jianqing señaló que los big data tienen dos problemas desafiantes: la heterogeneidad y la variabilidad. La heterogeneidad proporciona productos, servicios, etc. personalizados, mientras que la autenticidad existe en constante cambio. "El estudio de big data no sólo puede predecir el futuro, sino, lo que es más importante, explorar las conexiones causales".
Los big data no son tan hermosos
¿Qué tan grandes son los big data? Un conjunto de datos llamado "Un día en Internet" nos dice que en un día, todo el contenido generado por Internet se puede llenar con 168 millones de DVD; se envían 294 mil millones de correos electrónicos; de teléfonos móviles vendidos fue de 378.000, cifra superior a los 371.000 bebés que nacen cada día en el mundo...?
Más importante aún, los datos ya no son sólo los datos en sí. Esto es como una revolución.
“El impacto de big data incluye adquisición de datos, gestión de datos, infraestructura informática, optimización de cálculos, etc. El impacto de big data en el análisis estadístico incluye superposición de ruido, correlación falsa, endogeneidad, error y anomalías. Cualitativo, etc.” Fan Jianqing dijo a los periodistas que en la era del big data coexisten oportunidades y desafíos.
Los conjuntos de datos a gran escala son atractivos, provocan análisis activos y los analistas esperan obtener descubrimientos científicos galardonados. Pero a veces, aprovechar el big data significa terminar con datos incorrectos. Obtener conocimientos a partir de big data plantea enormes desafíos para la informática, los métodos de inferencia estadística e incluso el propio método científico.
“Por supuesto, los científicos en el campo de la informática han hecho posible la acumulación de big data mediante el desarrollo de una potencia informática y una tecnología de almacenamiento de información superiores, pero recopilar datos y almacenar información no es lo mismo que comprender estos contenidos. Fan Jianqing señaló que comprender el verdadero significado de big data no es lo mismo que interpretar datos pequeños, al igual que comprender las características de comportamiento de una bandada de pájaros no puede explicar el grito de una gaviota solitaria.
Fan Jianqing señaló que las pruebas estadísticas estándar y los procedimientos de cálculo originalmente estaban destinados a analizar pequeñas muestras extraídas de grandes grupos para extraer inferencias científicas. Pero los macrodatos proporcionan muestras extremadamente grandes, que a veces incluso incluyen a todo el grupo o a la mayor parte del grupo. La dificultad de la tarea crea problemas en la implementación de los procesos computacionales para completar las pruebas estadísticas.
“El sueño de las estadísticas es encontrar métodos estadísticos eficaces y utilizar métodos de cálculo adecuados para predecir el futuro”. Fan Jianqing expresó su sueño estadístico a los periodistas.
No se pueden reemplazar los métodos de recopilación tradicionales
Actualmente, Alibaba, Tencent y JD.com están "probando el terreno" utilizando big data porque tienen datos de transacciones de comercio electrónico e información social. datos, etc. Construir un sistema de evaluación crediticia. Pero, de hecho, no existe un precedente internacional exitoso para realizar calificaciones crediticias y elaborar perfiles de una persona basándose en datos de las redes sociales.
Entonces, ¿son fiables los datos sociales de Internet?
En una entrevista, Fan Jianqing dijo: “Los macrodatos son definitivamente muy útiles para la evaluación crediticia, como lo que compraste en línea, quiénes son tus amigos en las redes sociales y el grado de incumplimiento de tus amigos. Relacionado La integración de datos obviamente puede describir la situación crediticia básica de una persona, pero creo que es poco probable que reemplace por completo los métodos tradicionales de recopilación de datos, porque el comportamiento de las personas en línea no es exactamente el mismo que su comportamiento fuera de línea "
. Fan Jianqing señaló que para la evaluación del crédito personal, al menos tres empresas en Estados Unidos están recopilando datos relevantes y existe una empresa independiente que integra los datos. De hecho, lo más importante es la recopilación de datos, porque el comportamiento humano es muy diverso. "Es posible que China apenas haya comenzado en este sentido, y lo más importante es el sistema de informes crediticios del banco central. Pero creo que la combinación de lo en línea y lo fuera de línea puede hacer una evaluación más razonable del crédito personal".
"En los últimos 10 a 15 años, la revolución de la tecnología de la información basada en Internet ha tenido un impacto disruptivo en toda la humanidad. Hasta cierto punto, la ciencia de la información se ha convertido en un importante motor para promover el desarrollo económico. Todavía es previsible Sí: en los En las próximas décadas, más decisiones relacionadas con el desarrollo económico y social estarán impulsadas por big data ", dijo Fan Jianqing, aunque la investigación sobre big data involucra muchas disciplinas y campos, según la investigación académica estadounidense actual. Según el consenso de la industria. , la combinación de matemáticas, estadística e informática constituye la base para analizar y estudiar big data.
Prevención de riesgos del sistema financiero
Después de la crisis financiera, todos los países han aumentado su conciencia sobre los riesgos sistémicos financieros, entre los cuales el big data es una herramienta muy eficaz.
Como experto en el campo de big data, Fan Jianqing ha sido invitado muchas veces por la Comisión de Bolsa y Valores de EE. UU. para dar conferencias sobre finanzas de big data. “Después de la crisis financiera, Estados Unidos estableció sucesivamente varias oficinas de investigación financiera con el propósito de coordinar la recopilación de datos crediticios de varias empresas y datos sobre productos financieros relacionados, así como prevenir ataques terroristas y proporcionar a la sociedad diferentes niveles de información financiera. Advertencia. ”
De hecho, los cambios que traerá el big data a la industria financiera se reflejarán primero en dos aspectos: el marketing de precisión. Los macrodatos cambian la estructura de la información. Las instituciones financieras recopilan y analizan los datos de los clientes para lanzar servicios de gestión y control de riesgos más personalizados; Los macrodatos cambian el modelo de gestión de riesgos y la computación en la nube promueve la medición de riesgos más precisa y de menor costo. Esto significa además mejoras en la eficiencia operativa y el rendimiento.
En 2012, la empresa de Wall Street "Derwent Capital Markets" utilizó un programa informático para analizar mensajes de 340 millones de cuentas sociales en todo el mundo para juzgar el sentimiento del público y decidir cómo manejar las acciones en sus manos. El veredicto es: si todos parecen contentos, compre; si la ansiedad de todos aumenta, venda. De este modo, en el primer trimestre de 2012 la empresa obtuvo una rentabilidad del 7%.
Sin embargo, Fan Jianqing todavía tiene reservas sobre el uso de big data para predecir el mercado.
“Es muy difícil predecir el mercado, que incluye dos aspectos, uno es la inversión y el otro es la especulación. En términos de inversión, algunos datos históricos pueden ser útiles, como la relación precio-beneficio. tasa de interés, crédito de mercado Estos datos pueden dar una guía aproximada sobre si hay una burbuja en el mercado, pero el sistema de precios entre los mercados financieros todavía depende en gran medida del comportamiento de los inversores. En cuanto a cuánta especulación hay en el comportamiento de los inversores. al menos actualmente no existe ningún modelo que pueda predecirse con precisión", señaló Fan Jianqing.
Vale la pena señalar que el desarrollo de big data ha promovido la aparición continua de diversas formas de negocios nuevas, como las finanzas por Internet y las finanzas móviles. Muchas empresas emergentes de Internet lideradas por la tecnología también participarán en la industria financiera y compartirán el festín que brindan los big data.
“La prevalencia de Internet ha hecho que muchas operaciones y revelaciones de información sean extremadamente rápidas, y las transacciones de compra y venta se han vuelto aún más rápidas. Muchas cosas que en el pasado demoraban varios años se acortarán en el mercado actual. "Es muy breve", señaló Fan Jianqing, esto también significa que la volatilidad del mercado puede ser mayor que en años anteriores bajo la influencia de la era de Internet.
Lo anterior es el contenido relevante compartido por el editor sobre la heterogeneidad y la heterogeneidad como los dos principales desafíos de big data. Para obtener más información, puede seguir a Global Ivy para compartir más información seca.