¿Qué significa la pronunciación de TTS?

[Editar este párrafo] Descripción general de TTS

TTS es la abreviatura de Text To Speech, que significa "de texto a voz". Es un trabajo sobresaliente que utiliza tanto la lingüística como la psicología. Con el apoyo del chip incorporado, convierte de forma inteligente palabras en flujos de voz naturales mediante el diseño de redes neuronales. La tecnología TTS puede convertir archivos de texto en tiempo real y el tiempo de conversión se mide en segundos. Bajo la acción de su exclusivo controlador de voz inteligente, el ritmo de la voz de la salida de texto es suave, lo que hace que el oyente se sienta natural al escuchar la información, sin la frialdad y astringencia de la salida de voz de la máquina. La tecnología de síntesis de voz TTS pronto cubrirá el primer y segundo carácter chino del estándar nacional. Tiene una interfaz en inglés, reconoce automáticamente chino e inglés y admite lectura mixta de chino e inglés. Todas las voces se pronuncian en mandarín real, logrando una rápida síntesis de voz de 120 a 150 caracteres chinos por segundo y una velocidad de lectura de 3 a 4 caracteres chinos por segundo, lo que permite a los usuarios escuchar una calidad de sonido clara y agradable y una entonación coherente y suave. Hoy en día, algunos reproductores MP3 tienen función TTS.

TTS es una aplicación de síntesis de voz que convierte archivos almacenados en su computadora, como archivos de ayuda o páginas web, en salida de voz natural. TTS puede ayudar a las personas con discapacidad visual a leer información en las computadoras o simplemente puede usarse para aumentar la legibilidad de los documentos de texto. Las aplicaciones TTL actuales incluyen sistemas de detección de voz y correo electrónico controlados por voz. TTS se utiliza a menudo con programas de reconocimiento de voz. Actualmente existen muchos productos TTS, incluidos Read Please 2000, la unidad de voz Proverbe y TextAloud con tecnología Next Up. Lucent, Elan y AT&T tienen sus propios productos de síntesis de voz.

Además del software TTS, muchos fabricantes ofrecen productos de hardware, incluido el Quick Link Pen de WizCom Technologies de Israel, un dispositivo similar a un lápiz que puede escanear y leer texto. También está el Road Runner de Ostrich Software, un dispositivo portátil que puede leer texto ASCII; y también está el DecTalk TTS de la compañía estadounidense DEC, que es un dispositivo de hardware externo que puede reemplazar una tarjeta de sonido. Contiene un dispositivo de software interno que funciona con la tarjeta de sonido que viene con una computadora personal.

[Editar este párrafo]Análisis TTS

La conversión de texto a voz TTS se utiliza ampliamente, incluida la lectura de correo electrónico, indicaciones de voz para sistemas IVR, etc. En la actualidad, los sistemas IVR se han utilizado ampliamente en diversas industrias (como telecomunicaciones, transporte, etc.). ).

La tecnología clave de TTS es la síntesis de voz. Los primeros TTS generalmente se implementaban utilizando chips dedicados, como el TMS50C10/TMS50C57 de Texas Instruments y el PH84H36 de Philips, pero se usaban principalmente en electrodomésticos o juguetes para niños.

TTS basado en aplicaciones de microcomputadoras generalmente se implementa mediante software puro e incluye principalmente las siguientes partes:

Análisis de texto: análisis lingüístico del texto de entrada, análisis léxico y oración por oración. El análisis gramatical y semántico determina la estructura subyacente de la oración y la composición de los fonemas de cada palabra, incluida la segmentación de oraciones, la segmentación de palabras, el procesamiento de polifonos, el procesamiento de números, el procesamiento de abreviaturas, etc.

●Síntesis de voz: extrae palabras o frases correspondientes al texto procesado de la base de datos de síntesis de voz y convierte la descripción del idioma en una forma de onda de voz.

●Procesamiento de rimas: la calidad del habla sintetizada se refiere a la calidad del habla producida por el sistema de síntesis de voz, que generalmente se evalúa subjetivamente en términos de claridad (o inteligibilidad), naturalidad, coherencia, etc. La claridad es el porcentaje de escuchar correctamente palabras significativas; la naturalidad se utiliza para evaluar si la calidad del habla sintetizada se acerca a la voz humana y si la entonación de las palabras sintetizadas es natural. La coherencia se utiliza para evaluar la fluidez de oraciones sintetizadas.

Para sintetizar voz de alta calidad, los algoritmos utilizados son extremadamente complejos, por lo que los requisitos de la máquina también son muy altos. La complejidad del algoritmo determina la capacidad del sistema del TTS multicanal concurrente del microordenador actual.

El marco básico de TTS en aplicaciones CTI

En los sistemas de aplicación CTI generales, habrá IVR (sistema interactivo de respuesta de voz). El sistema IVR es una parte importante del call center. Con un sistema IVR, los usuarios pueden ingresar información presionando un botón con audio y recibir información de voz pregrabada digital o sintetizada del sistema. IVR con función TTS puede acelerar el servicio, ahorrar costos de servicio y permitir que IVR brinde servicio las 7 horas del día, las 24 horas a las personas que llaman.

La mayoría de los sistemas IVR comunes actuales están compuestos por tarjetas de voz conectadas a una plataforma informática industrial general y admiten síntesis de voz china TTS y otras tecnologías.

El proceso típico de servicio telefónico que incluye el servicio TTS se puede dividir en:

Cuando el usuario marca, el sistema IVR responderá y obtendrá la clave del usuario y otra información.

IVR se aplica a datos relevantes del servidor de base de datos en función de la información clave del usuario.

El servidor de base de datos devuelve datos de texto al IVR.

IVR envía información de texto al servidor TTS a través de su interfaz de comunicación TCP.

El servidor TTS envía el segmento de datos de voz sintetizado por el texto del usuario al servidor IVR a través de la interfaz de comunicación TCP.

El servidor IVR reúne datos de voz segmentados en archivos de voz independientes.

IVR reproduce el archivo de voz correspondiente al usuario del teléfono.

El acceso a la red pública general (IVR) utiliza principalmente computadoras industriales + tarjetas de voz, y los datos de voz sintetizados se transmiten al IVR a través de la LAN. Esta estructura sólo es adecuada para aplicaciones sencillas.

上篇: ¿Qué significa que el precio de apertura y el precio de cierre de una acción sean iguales? 下篇: ¿Cuáles son los lugares divertidos en Dongyang?