Red de conocimiento de divisas - Empezando con las acciones - Investigación sobre predicción de acciones basada en big data de WeChat

Investigación sobre predicción de acciones basada en big data de WeChat

Investigación sobre predicción de acciones basada en big data de WeChat

Los big data han sido un tema candente en los últimos años y tienen una gran influencia tanto a nivel internacional como nacional. La economía, las ciencias políticas, la sociología y muchas disciplinas científicas sufrirán cambios y desarrollos tremendos e incluso esenciales, que a su vez afectarán los sistemas de valores, los sistemas de conocimientos y los estilos de vida humanos. La economía global está generando actualmente cantidades de datos sin precedentes. Sería absolutamente correcto comparar la gran cantidad de datos que se generan cada día con el gran diluvio de tiempos míticos. Esta avalancha de datos no tiene precedentes. Es nuevo, poderoso y, por supuesto, aterrador, pero muy emocionante.

El tema que compartí es cómo utilizar la tecnología de big data para estudiar las predicciones bursátiles en el entorno de Internet. Hoy quiero compartir cuatro puntos que creo que son significativos.

1. Previsión empresarial bajo big data

Según big data, podemos predecir eficazmente la segmentación, el flujo de personas, el tráfico, el consumo de electricidad, el mercado de valores, la prevención de enfermedades, el transporte, la alimentación. distribución, oferta y demanda industrial. Nuestra preocupación en este artículo es la previsión del mercado de valores.

El núcleo del big data es la predicción, que se basa en el análisis de datos. Entonces, ¿el método de análisis está diseñado en base a los resultados del muestreo aleatorio? ¿Habrá errores en dicho método de análisis?

Tradicionalmente, debido a limitaciones de recursos y tecnología, como los recursos humanos e informáticos, desde la perspectiva de la potencia de procesamiento de la computadora, es imposible procesar todos los datos para obtener resultados preocupantes. Así surgió el muestreo aleatorio y los individuos seleccionados representan a la población. Por ejemplo, el muestreo aleatorio se puede utilizar para hacer que los resultados de la inferencia sean más científicos. Pero dado que se menciona big data, cuando los recursos se desarrollan hasta cierto punto y la tecnología se desarrolla hasta cierto punto, es una comprensión nueva. Al igual que con la aparición de la electricidad, la humanidad ha entrado en una etapa de rápido desarrollo, y lo mismo ocurre con los big data, es decir, todas las muestras e inferencias de la muestra completa. En este artículo, big data significa la información del tráfico de todas las acciones en toda la red social. Desde la perspectiva de las fuentes de datos, este artículo no utiliza todos los datos de las redes sociales, sino que solo analiza WeChat, la red social más representativa, como fuente de información.

Los datos de interacción pueden reflejar las emociones de los usuarios y los datos de búsqueda pueden reflejar las preocupaciones e intenciones de los usuarios. ¿Cuál de estos dos datos es más valioso para la predicción del mercado de valores?

Creo que todos son valiosos. Los datos de interacción reflejan lo que le gusta y lo que no le gusta al usuario de una determinada acción, lo que puede describirse simplemente como si continúa manteniendo o vendiendo la acción. Los datos de búsqueda representan el proceso en el que los usuarios recopilan información bursátil, que es el concepto de atención. La alta tasa de búsqueda de una acción indica que la noticia tiene una gran influencia. La interacción representa la dirección y la búsqueda representa la magnitud.

Sabemos que las conclusiones que se extraigan de estos dos tipos de datos serán diferentes. ¿Cómo se equilibran las situaciones reflejadas por estos dos datos para hacer una predicción?

Como se mencionó en la pregunta anterior, si se trata de una cuestión de principios como recomendación de acciones, compra y venta, se deben considerar los datos interactivos, pero si se han comprado, los datos de búsqueda pueden proporcionar un concepto de un rango similar al de los bonos con calificación A, AA, AAA, etc. , para referencia de los inversores, porque diferentes inversores tienen diferentes tolerancias al riesgo.

Si las noticias sobre acciones y mercados están organizadas en mensajes de texto de 140 caracteres, ¿significa que el principal canal de publicación es Weibo? La cuenta oficial de WeChat WeChat es muy popular ahora. ¿Has considerado publicar noticias a través de este canal?

De hecho, hay muchas formas de difundir información y no se puede subestimar la influencia de WeChat como nuevo medio. Sin embargo, en la actualidad, el correo electrónico, los SMS y otros métodos requieren la menor inversión técnica. En el futuro, se considerará que las cuentas oficiales de WeChat impulsan las noticias sobre acciones y mercados.

Si los mensajes se envían a través de la cuenta oficial de WeChat en el futuro, ¿se recopilarán nuevamente los mensajes enviados como fuente de datos? ¿Qué impacto tendrá esto?

Se recopilará, pero habrá una gran cantidad de información sobre acciones individuales en línea todos los días. El impulso aumentará el peso de las acciones recomendadas en 1 punto, y el peso de cada acción es solo cientos. de miles, por lo que el impacto es mínimo.

La fuente de los datos es la cuenta oficial de WeChat. Aparte de las preocupaciones sobre la precisión, ¿ha considerado alguna vez que recopilar datos de esta manera sería menos intrusivo en la privacidad personal?

Desde una perspectiva legal, buscar en WeChat u otros registros de chat personales es una invasión de la privacidad personal. Por lo tanto, si Tencent abre una interfaz de este tipo, cada ciudadano puede quejarse, protestar o incluso presentar procedimientos legales contra tal comportamiento hasta que corrija sus errores y compense las pérdidas.

¿Significa esto que incluso si hay un acto ilegal, Tencent soportará las consecuencias y nosotros, como usuarios de los datos, no tenemos que asumir ninguna responsabilidad legal?

En toda la sociedad, como proveedores de tecnología de sistemas, debemos respetar la ética del big data y las leyes nacionales. Si se viola la privacidad personal, el sistema no la recopilará. Google tiene el lema "Google Don't Be Evil" y lo mismo se aplica a los sistemas mencionados en este artículo.

2. Realizar experimentos de recomendación de acciones basados ​​en big data.

La actualidad de las acciones refleja la actualidad de los artículos de WeChat. Cuanto mayor sea la puntualidad, mayor será el valor de los datos.

La popularidad de una acción refleja la frecuencia con la que se la observa actualmente. Cuanto mayor sea la frecuencia de atención, mayor será la posibilidad de ascenso.

Integridad de los datos: hemos guardado los resultados de búsqueda de aproximadamente 2236 acciones emitidas en Shenzhen y Shanghai (excluyendo Pioneer Edition) en el sitio web de búsqueda de WeChat de forma circular.

Coherencia de los datos: el formato del archivo lo determina el programa responsable de guardar el archivo de datos, y un único proceso garantiza la coherencia del archivo.

Exactitud de los datos: dado que los artículos de la cuenta de suscripción analizados son proporcionados por la cuenta oficial WeChat de la plataforma WeChat, el daño al sistema de predicción causado por noticias falsas se elimina hasta cierto punto.

Puntualidad de los datos: teniendo en cuenta factores como la lectura y escritura del disco, el ancho de banda de la red donde se encuentra el programa de recopilación, el bloqueo del motor de búsqueda del programa de recopilación, etc., hay un intervalo de 5 segundos entre los dos. piezas de información recopiladas por el programa, por lo que, en teoría, se necesitan 11180 segundos (3,1 horas) para recopilar los datos necesarios para las recomendaciones del día. Para cada día de negociación, recopilar todos los datos entre las 9:00 y las 9:30 requiere más de 7 dispositivos para lograr resultados óptimos. Este experimento estuvo limitado por el equipo de prueba. En un dispositivo, la recopilación de datos comienza a las 6:00 am de cada día de negociación, lo que también cumple con los requisitos de puntualidad.

Análisis de datos: observe los precios de apertura y cierre de tres acciones de alta prioridad el mismo día y luego compárelos con el índice compuesto de Shanghai (2015-4-8) el mismo día. Se puede concluir que este algoritmo es mejor que el rendimiento de la diferencia de precio de todas las acciones utilizando el índice compuesto de Shanghai como muestra.

Conclusión experimental: Según el método anterior, el sistema recomienda las acciones del día todos los días, comprando en la apertura y vendiendo en el segundo día de negociación. Después de 21 días hábiles en un mes (2015-3-1 a 2015-3-31), el sistema ganará un 20%/mes. Busque la cuenta oficial de WeChat en WeChat para predecir las tendencias del mercado y encontrará una correlación positiva con el sentimiento de inversión, que puede utilizarse como factor en la selección de acciones.

3. La tendencia de desarrollo del big data en la predicción de acciones

Los datos de red se dividen en tres tipos:

El primero son los datos de navegación, que se utilizan principalmente para correo electrónico. -comercio Análisis del comportamiento del consumidor en el campo. Los datos de navegación reflejan los pasos de acceso del usuario en cada paso, describen además la ruta de acceso del usuario y analizan la probabilidad de salto de diferentes páginas.

El segundo son los datos de búsqueda, que se refieren principalmente a los datos de series temporales de frecuencia de búsqueda de palabras clave registrados por los motores de búsqueda, que pueden reflejar los intereses, preocupaciones e intenciones de cientos de millones de usuarios.

En tercer lugar, los datos interactivos, principalmente datos de Weibo, WeChat y sitios de redes sociales, reflejan las tendencias y los factores emocionales de los usuarios.

Robert?, ¿ganador del Premio Nobel de Economía 2013? Las opiniones de Schiller fueron citadas por numerosos entrevistados. El modelo de inversión diseñado por Shiller en los años 80 sigue siendo hoy elogiado por la industria. En el modelo se refiere principalmente a tres variables: el flujo de caja previsto del proyecto de inversión, el coste esperado del capital de la empresa y la reacción del mercado de valores ante la inversión (sentimiento del mercado). Él cree que existen factores de juicio subjetivos en el propio mercado, el sentimiento de los inversores afectará el comportamiento de inversión y el comportamiento de inversión afectará directamente los precios de los activos.

Las computadoras extraen información útil analizando noticias, informes de investigación, información social, comportamiento de búsqueda, etc. Con la ayuda de métodos de procesamiento del lenguaje natural y análisis inteligente de aprendizaje automático, la inversión cuantitativa en el pasado solo podía cubrir docenas de estrategias, mientras que la inversión en big data puede cubrir miles de estrategias.

La investigación sobre pronósticos económicos basada en datos de búsqueda en Internet y comportamiento social se ha convertido gradualmente en un nuevo punto de acceso académico y ha logrado ciertos resultados en los campos de la economía, la sociedad, la salud y otros campos. En aplicaciones del mercado de capitales, se descubrió que los datos de búsqueda pueden predecir eficazmente la actividad futura del mercado de valores (medida por el índice de volumen de operaciones) y los cambios en las tendencias de los precios de las acciones.

Para datos de búsqueda: el mecanismo de correlación entre el comportamiento de búsqueda en Internet y el mercado de valores.

Esta investigación pertenece a la intersección de las finanzas conductuales e Internet. Su principio es: el ajuste del volumen y el precio de las acciones es un reflejo del comportamiento de los inversores en el mercado de valores, al mismo tiempo, los signos correspondientes del comportamiento de los inversores también aparecen en Internet; mercado de búsqueda. Lo que queremos hacer es encontrar los indicadores de comportamiento que conducen a la negociación de acciones en el mercado de búsqueda de Internet, integrar los principales indicadores de búsqueda de muchos inversores y predecir la negociación de acciones en el futuro.

Al igual que el pronóstico del tiempo, el modelo se optimiza constantemente, ingresa una gran cantidad de información y luego se dan los resultados. El 80% de la información procesada son datos "no estructurados", como documentos de políticas, eventos naturales, entorno geográfico, innovación tecnológica, etc. Este tipo de información suele ser difícil de digerir para las computadoras y los modelos. Con la ayuda de métodos de análisis semántico, las conversaciones financieras en datos interactivos se pueden cuantificar en sugerencias de inversión entre "-1 (extremadamente bajista)" y "1 (extremadamente alcista)", y el texto de los datos interactivos se puede analizar en señales para inversión en bolsa.

4. El futuro que viene

Big data no es un mundo frío lleno de algoritmos y máquinas, y el papel de los humanos aún no puede ser reemplazado por completo. Lo que nos proporciona el big data no es la respuesta final, sino una respuesta de referencia. La ayuda es temporal, habrá mejores métodos y respuestas en un futuro próximo.

El big data tiene un gran impacto a nivel práctico y resuelve muchos problemas cotidianos. Los macrodatos son más importantes: remodelarán la forma en que vivimos, trabajamos y pensamos. En cierto modo, nos enfrentamos a un callejón sin salida que tiene mayores consecuencias que la espectacular expansión del alcance y la escala de la información en la sociedad que resultó de otras innovaciones de época. El suelo bajo nuestros pies está cambiando. Se ponen en duda cosas que en el pasado eran ciertas. Los macrodatos requieren que la gente vuelva a discutir la naturaleza de la toma de decisiones, el destino y la justicia. Tener conocimiento alguna vez significó dominar el pasado; ahora significa ser capaz de predecir el futuro.

El big data no es un mundo frío y lleno de algoritmos y máquinas, todavía es necesario que el ser humano desempeñe un papel importante en él. Las debilidades, las ilusiones y los errores característicos de los humanos son necesarios porque, en el otro extremo del espectro, estas características conducen a la creatividad, la intuición y el genio humanos. Esto sugiere que deberíamos estar dispuestos a aceptar imprecisiones similares porque la inexactitud es una de las características que nos hace humanos. Así como aprendemos a lidiar con datos confusos porque tienen un propósito más amplio. El caos constituye inevitablemente la esencia del mundo y el trabajo del cerebro humano, y ya sea el caos del mundo o el caos del cerebro humano, sólo aprendiendo a aceptarlos y aplicarlos podremos beneficiarnos.

Creo que al utilizar datos básicos, datos de búsqueda, datos interactivos y luego cálculos ponderados, todas las acciones se pueden seleccionar a través de big data para brindar recomendaciones de inversión. Creo que nuestros cuerpos acaban de entrar en la era de los grandes datos, pero nuestros espíritus todavía están atrapados en los pequeños datos y el pensamiento de muestreo. Aquellos que sean los primeros en utilizar la racionalidad para romper con el pensamiento estereotipado también serán los primeros en cosechar los beneficios del big data.

上篇: ¿Cuánto cuesta el último modelo de MG 6? Precio orientativo del mg 6 下篇: ¿Cómo calcular las tarifas de transacción en transacciones de divisas? ¿Dónde tienen las tarifas de transacción de divisas más bajas?
Artículos populares