Para eventos deterministas, la entropía de la información es cero, ¿verdad?
Al menos es intuitivamente posible. De lo contrario, ¿por qué pensaríamos que algunas personas dicen tonterías y "no tienen información", mientras que otras dan en el clavo y transmiten mucha información en una sola frase?
¿Por qué hay tanta información pero tan poca?
Algunas cosas son inciertas, como si las acciones subirán o bajarán mañana. Si me dice que las Finales de la NBA comienzan mañana, los dos parecen no tener nada que ver entre sí, entonces su información aporta poca información sobre si las acciones subirán o bajarán mañana. Pero si cuando comiencen las Finales de la NBA, todo el mundo ya no presta atención a las acciones y hay un 99% de posibilidades de que las acciones caigan, entonces sus palabras tendrán un gran valor de referencia, porque las cosas que originalmente eran inciertas se vuelven muy ciertas.
Y algunas cosas ya son ciertas, como que el sol sale por el este. Si me dice que el sol sale por el este cien veces, su afirmación no contendrá ninguna información, porque ya no puede ser seguro.
Así que la cantidad de información está relacionada con los cambios en la incertidumbre.
Entonces, ¿con qué se relaciona el cambio en la incertidumbre?
Primero, está relacionado con el número de resultados posibles de las cosas; segundo, está relacionado con la probabilidad.
Déjame hablar de uno primero.
Por ejemplo, discutimos por dónde sale el sol. Sólo puede haber un resultado, y hace tiempo que sabemos que no importa quién transmita un mensaje, no hay mensaje.
Cuando el número de resultados posibles es relativamente grande, es probable que la nueva información que obtengamos contenga mucha información.
En segundo lugar, el número de resultados posibles no es suficiente y también depende de la distribución de probabilidad inicial. Por ejemplo, supe desde el principio que Xiao Ming estaba viendo una película en la Sala A con 15 * 15 asientos en el cine. Hay 225 asientos donde se sienta Xiao Mingcan, lo que puede generar demasiados asientos. Sin embargo, si sabemos desde el principio que la probabilidad de que Xiao Ming se siente en el extremo izquierdo de la primera fila es 99, y la probabilidad de que se siente en otras posiciones es muy pequeña, entonces, en la mayoría de los casos, cualquier información que me diga sobre Xiao Ming no importará mucho, porque estamos casi seguros de que Xiao Ming está sentado en el extremo izquierdo de la primera fila.
Entonces, ¿cómo medir los cambios en la incertidumbre? ¿Cómo definir?
Esta pregunta es difícil de responder, pero si ya sabemos que esta cantidad ya existe, también podríamos llamarla cantidad de información. Entonces, ¿qué características crees que debería cumplir al menos la cantidad de información?
Primero, al menos no es un número negativo, de lo contrario robarás información si dices algo~
Segundo, al menos la cantidad de información se puede sumar hasta la cantidad de información! Si el contenido de información de la primera oración que me dijiste es 3 y me dices otra oración basada en la primera oración, el contenido de información adicional es 4, entonces el contenido de información total de las dos oraciones debería ser 7. ¿Podrían ser 5 o 9?
En tercer lugar, acabamos de mencionar que la cantidad de información está relacionada con la probabilidad, ¡pero debemos sentir que la cantidad de información sigue dependiendo de la probabilidad! En otras palabras, si una determinada probabilidad cambia en 0,0000001, la cantidad de información no debería cambiar significativamente.
En cuarto lugar, como acabamos de mencionar, la cantidad de información está relacionada con el número de resultados posibles. Si la probabilidad de todos los resultados posibles es la misma, entonces para eventos con una gran cantidad de resultados posibles, la nueva información tiene mayor potencial y más información porque hay mayor incertidumbre en el estado inicial.
¿Qué función puede satisfacer las cuatro condiciones anteriores? Función logarítmica negativa, que es -log(x)! Tome una base mayor que 1 para asegurarse de que esta función no sea negativa. Simplemente multiplica el frente por un número normal.
R. ¿Por qué no es positivo? Porque si es un número positivo, debido a que x es un número menor o igual a 1, log(x) es menor o igual a 0. satisface la primera característica.
b. Verifiquemos otras funcionalidades. El tercero es el más fácil. Si x es una probabilidad, entonces log(x) depende continuamente de x.
Completo
C. ¿Qué tal cuatro? Si hay n resultados posibles, la probabilidad de cualquiera de ellos es 1/n, y -log(1/n) es una función creciente de n, no hay problema.
d.Verificación final dos. Como -log(xy) = -log(x) -log(y), también es correcto. Los estudiantes de matemáticas deben tener en cuenta que aquí y puede ser la probabilidad condicional de un X dado o, por supuesto, puede ser independiente de X.
Por cierto, esta función es única (excepto que puede multiplicarse por cualquier constante). Puedes comprobarlo tú mismo o consultar un libro si tienes tiempo.
Bien, entonces sabemos que el contenido de información de un evento es el logaritmo negativo de la probabilidad del evento.
Finalmente, podemos volver a la entropía de la información. La entropía de la información está relacionada con todas las posibilidades. Todo evento posible tiene una probabilidad. La entropía de la información es la cantidad promedio de información que obtenemos cuando ocurre un evento. Entonces, matemáticamente hablando, la entropía de la información es en realidad la expectativa de información. (Vea otras respuestas o vea las expresiones a continuación) ¿En cuanto a por qué usamos la extraña palabra "entropía"? Probablemente los traductores de la época pensaron que esta cantidad estaba relacionada con la entropía de la termodinámica, por lo que utilizaron esta palabra. ¿No ves la palabra fuego en la palabra?