¿Cuáles son los principales problemas y dificultades del aprendizaje profundo en el reconocimiento de voz?
Aplicación del aprendizaje profundo: durante mucho tiempo, en los sistemas de reconocimiento de voz, los modelos de mezcla gaussiana (GMM) se utilizan principalmente para describir el modelo de probabilidad estadística de cada unidad de modelado. Este modelo ha ocupado durante mucho tiempo un monopolio en las aplicaciones de reconocimiento de voz debido a su estimación simple, su idoneidad para el entrenamiento de datos masivos y su tecnología de entrenamiento discriminante madura. Sin embargo, este modelo de mezcla gaussiana es esencialmente un modelado de red superficial y no puede describir completamente la distribución de características en el espacio de estados. Además, las dimensiones de las características del modelado GMM son generalmente docenas de dimensiones, lo que no puede describir completamente la correlación entre las características. Finalmente, el modelo GMM es esencialmente un modelo de probabilidad. Aunque el entrenamiento de discriminación puede simular la discriminación entre algunas clases de patrones, su capacidad es limitada. Los expertos en reconocimiento de voz de Microsoft Research, Deng Li y Yu Dong, han estado colaborando con el experto en aprendizaje profundo Geoffery Hinton desde 2009. En 2011, Microsoft anunció los resultados de un sistema de reconocimiento basado en redes neuronales profundas y lanzó productos que cambiaron por completo el marco técnico original del reconocimiento de voz. Después de utilizar una red neuronal profunda, la correlación entre características se puede describir completamente y las características del habla de fotogramas consecutivos se pueden combinar para formar una característica de alta dimensión. La red neuronal profunda final se puede simular entrenando en características de alta dimensión. Dado que la red neuronal profunda utiliza resultados de múltiples capas que simulan el cerebro humano, puede extraer características de información paso a paso y finalmente formar características ideales adecuadas para la clasificación de patrones. Esta estructura de múltiples capas es muy similar a cómo el cerebro humano procesa la información del habla y las imágenes. La tecnología de modelado de redes neuronales profundas se puede combinar perfectamente con la tecnología tradicional de reconocimiento de voz en servicios en línea reales, lo que mejora en gran medida la tasa de reconocimiento del sistema de reconocimiento de voz sin causar ningún costo adicional al sistema. El método de uso en línea es el siguiente: en el proceso de decodificación real, el modelo acústico sigue siendo un modelo HMM tradicional, el modelo de voz sigue siendo un modelo de lenguaje estadístico tradicional y el decodificador sigue siendo un decodificador WFST dinámico tradicional. Sin embargo, al calcular la distribución de salida del modelo acústico, la probabilidad posterior de salida de la red neuronal se multiplica por una probabilidad anterior para reemplazar la probabilidad de salida del GMM en el modelo HMM tradicional. En la práctica, Baidu descubrió que, en comparación con el sistema tradicional de reconocimiento de voz GMM, la tasa relativa de errores de reconocimiento se puede reducir en un 25%. Finalmente, en noviembre de 2012, Baidu lanzó el primer sistema de búsqueda por voz basado en DNN, convirtiéndose en una de las primeras empresas en utilizar la tecnología DNN para servicios comerciales de voz. A nivel internacional, Google también utiliza redes neuronales profundas para el modelado de sonido y es una de las primeras empresas en abrirse paso en la aplicación industrial de redes neuronales profundas. Sin embargo, la red neuronal profunda utilizada por los productos de Google solo tiene de 4 a 5 capas, mientras que Baidu usa hasta 9 capas. El núcleo de esta diferencia estructural es que Baidu ha resuelto mejor las dificultades técnicas de la computación en línea de redes neuronales profundas, por lo que los productos en línea de Baidu pueden adoptar modelos de red más complejos. Esto tendrá mayores ventajas para ampliar el entrenamiento del modelo DNN con corpus masivos en el futuro.