Compresión de datos

La tecnología de compresión de datos estudia principalmente los métodos de representación, transmisión y conversión de datos, con el propósito de reducir el espacio de almacenamiento que ocupan los datos y acortar el tiempo necesario para su transmisión.

Hay tres indicadores principales para medir la compresión de datos: primero, la proporción de la cantidad de almacenamiento de información requerida antes y después de la compresión debe ser mayor; segundo, el algoritmo para lograr la compresión debe ser simple y la compresión; y la velocidad de descompresión debe ser lo más rápida posible para lograr la compresión y descompresión en tiempo real. En tercer lugar, el efecto de recuperación debe ser bueno y los datos originales deben restaurarse lo más completamente posible.

La compresión de datos se utiliza principalmente en dos aspectos. La primera es la transmisión: al comprimir los datos originales en el extremo emisor y descomprimirlos y restaurarlos en el extremo receptor, se puede reducir efectivamente el tiempo de transmisión y aumentar el ancho de banda del canal. El segundo es el almacenamiento: comprimir los datos originales al almacenarlos y descomprimirlos al usarlos puede aumentar considerablemente la capacidad de almacenamiento del medio de almacenamiento.

La compresión de datos se divide en dos tipos según el grado de distorsión de la compresión: una se llama compresión sin pérdidas y la otra se llama compresión con pérdidas.

La compresión sin pérdidas se refiere al uso de datos comprimidos para la reconstrucción (o restauración, descompresión). Los datos reconstruidos son exactamente los mismos que los datos originales. La compresión sin pérdidas se utiliza para señales que requieren una reconstrucción completamente consistente con la señal original; . Un ejemplo muy común es la compresión de archivos de disco. Según el nivel técnico actual, los algoritmos de compresión sin pérdidas generalmente pueden comprimir los datos de archivos normales a entre 1/4 y 1/2 del tamaño original. Algunos algoritmos de compresión sin pérdidas comúnmente utilizados son el algoritmo de Huffman, el algoritmo aritmético, el algoritmo de longitud de ejecución y el algoritmo de compresión LZW (Lenpel-Ziv & Welch).

1) El algoritmo de Huffman es un método de compresión estadística. Su principio es codificar de acuerdo con la probabilidad de aparición de los símbolos de datos originales. Cuanto mayor sea la probabilidad de que ocurra una coincidencia en los datos originales, más corta será la longitud del código correspondiente. Cuanto menor sea la probabilidad de que ocurra una coincidencia, mayor será la longitud del código. De esta manera, los datos originales se pueden representar con la menor cantidad de símbolos posible y los datos se pueden comprimir.

2) El algoritmo aritmético se basa en principios estadísticos y tiene la mayor eficiencia de compresión sin pérdidas. Es decir, todo el segmento de datos a comprimir se asigna a un segmento dentro de un rango semicerrado de números reales [0, 1). El rango o ancho del segmento es igual a la probabilidad de información del segmento. Es decir, el valor de probabilidad después de multiplicar las probabilidades de aparición de todos los símbolos utilizados en la información. A medida que la información a codificar se hace cada vez más larga, el segmento utilizado para representar la información se vuelve más estrecho y aumenta el número de bits utilizados para representar el segmento.

3) El algoritmo de longitud de ejecución es un método de compresión diseñado para las características de algunos datos de texto. El objetivo principal es eliminar caracteres redundantes en el texto o bits redundantes en bytes, reduciendo así el espacio de almacenamiento que ocupan los archivos de datos. El flujo de procesamiento de compresión es similar a la compresión en blanco, excepto que se agrega un carácter después del carácter indicador de compresión para indicar el objeto comprimido, seguido del número de repeticiones del carácter. Este algoritmo tiene limitaciones y rara vez se usa solo. Se usa principalmente junto con otros algoritmos.

4) El principio del algoritmo LZW es reemplazar la cadena en los datos comprimidos con la codificación de la entrada del diccionario. Por lo tanto, cuantas más entradas haya en el diccionario, mayor será la tasa de compresión. Aumentar la capacidad del diccionario puede mejorar la tasa de compresión. El tamaño del diccionario está limitado por la memoria de la computadora.

La compresión con pérdida se refiere al uso de datos comprimidos para la reconstrucción. Los datos reconstruidos son diferentes de los datos originales, pero no afecta la mala comprensión de la información expresada en los datos originales. La compresión con pérdida es adecuada para situaciones en las que la señal reconstruida no necesariamente tiene que ser exactamente igual a la señal original. Por ejemplo, la compresión con pérdida se puede utilizar para comprimir imágenes y sonidos, porque a menudo contiene más datos de los que nuestros sistemas visuales y auditivos pueden recibir. Algunos datos pueden perderse sin afectar el significado del sonido o la imagen, pero pueden mejorar enormemente. la relación de compresión.

上篇: 下篇: Revisión de hipoteca en proceso de revisión