Charla TTS

TTS es texto a voz, texto a voz, lectura de texto, lo que significa más o menos lo mismo. Se utiliza a menudo en el desarrollo de sistemas del habla.

Hay muchos TTS en el mercado y los métodos de implementación también son diversos. Algunos son muy costosos, como iFlytek, que se dice que está financiado por el programa 863 y algunos son relativamente altos; baratos, como Jietong Huasheng, InfoTalk; también los hay gratuitos, como el producto TTS de Microsoft.

En comparación con ASR (reconocimiento automático de voz), la dificultad técnica requerida para implementar un producto TTS no es muy difícil, en mi opinión, es una tarea ardua.

Si tuviéramos que crear un TTS que pudiera leer oraciones en chino en voz alta, ¿qué haríamos?

También existe el TTS más sencillo, que significa que hay que pronunciar cada palabra. Quizás te preguntes, ¿no quieres grabar más de 6.000 caracteres chinos? Afortunadamente, las sílabas chinas son pocas y hay muchos homófonos. Solo necesitamos registrar como máximo: el número de consonantes iniciales × el número de finales × 4 (de hecho, no todas las pronunciaciones tienen cuatro sonidos), por lo que solo necesitamos registrar unos pocos cientos de sonidos del habla como máximo.

Al sintetizar, necesita una tabla comparativa de caracteres chinos correspondientes a Pinyin. El método de entrada de Pinyin chino también se basa en esta tabla. Puede encontrarlo en línea, pero generalmente no hay cuatro tonos, por lo que tiene. para agregarlo tú mismo, jaja, o cómo decirlo Es todo un trabajo duro.

El efecto de TTS puede ser bueno, especialmente cuando se leen algunas oraciones chinas que no tienen un significado especial, como nombres, direcciones particulares y códigos bursátiles, suenan lo suficientemente claras. Esto se debe a que nuestra gran lengua materna suele ser monosilábica. Desde la antigüedad, cada carácter chino tiene una palabra para expresar un significado. Además, los caracteres chinos son diferentes a los ingleses. El inglés tiene muchas lecturas continuas y grandes cambios de tonos y ritmos, pero los caracteres chinos son mucho más simples.

Por supuesto, todavía hay que ocuparse de algunos detalles, como la polifonía. Es incorrecto pronunciar "banco" como "banco"; Los problemas son muy importantes para quienes han escrito muchos programas. Por supuesto, no es difícil para usted.

Algunos TTS nacionales con tarjetas de voz, ya sean vendidos o gratuitos, generalmente hacen esto, y este es el efecto.

Si desea mejorar el efecto de TTS, debe esforzarse más en registrar palabras básicas en la pronunciación, como modismos comunes de dos y cuatro caracteres, y luego hacer una tabla de comparación entre el diccionario de sinónimos y la base de datos de pronunciación, solo búscalo en el diccionario cada vez que necesites sintetizarlo. De esta manera, usar palabras como unidades es naturalmente mucho mejor que usar palabras como unidades. Por supuesto, existe otra tecnología, que es la tecnología de segmentación de palabras. Dividir oraciones complejas en un orden sensato de palabras también es un poco técnico. Esto también se debe a que los pioneros de la nueva cultura cuando promovieron la lengua vernácula e introdujeron el formato horizontal y los signos de puntuación de las lenguas occidentales, no introdujeron los participios espaciales de las lenguas occidentales. Sin embargo, incluso si el algoritmo de segmentación de palabras no es tan eficiente y preciso, no es un gran problema. Como se mencionó anteriormente, los caracteres chinos son palabras monosilábicas y generalmente no hay errores de pinyin.

Por supuesto, iFlytek ha trabajado mucho. Se dice que ha evolucionado para registrar frases comunes. Es posible que tenga que esforzarse más para obtener mejores resultados.

En cuanto a agregar algunas "palabras" en el cruce y agregar algunos colores decorativos, creo que no importa y el efecto general no mejorará mucho.

Los TTS comerciales en el mercado generalmente admiten cantonés, así que pídale a un locutor cantonés que lo grabe y vuelva a hacerlo.

Dicho de otra manera, mucha gente piensa que lo mejor es buscar un locutor de radio o televisión para grabar. De hecho, busque una colega a su alrededor para realizar la grabación, siempre que las palabras sean correctas y el tono claro. A veces, una voz común y corriente es más linda que un noticiero bien hablado.

Hablemos primero del reconocimiento de texto. En el caso de texto complejo, parte del contenido no puede ser procesado por el programa y es necesario reconocerlo. Por ejemplo, ¿el número simple "128" debería pronunciarse "128" o "128"? La solución suele ser agregar etiquetas XML, como Microsoft TTS:

Hablemos primero de la programación de aplicaciones TTS. La interfaz de programación TTS de Microsoft se llama SAPI y es una interfaz COM. Todavía es un poco complicado de desarrollar, pero afortunadamente la información en el sitio web de MSDN es muy completa. Aunque el TTS de Microsoft es gratuito, el carácter chino actual tiene una voz masculina, lo cual es un poco confuso e incómodo.

Generalmente, los fabricantes nacionales proporcionan interfaces de llamada API, que son relativamente simples y fáciles de integrar en las aplicaciones.

El TTS comercial también tiene un límite de licencia de concurrencia, que limita la cantidad de subprocesos simultáneos que se pueden sintetizar al mismo tiempo. No creo que esta restricción sea muy útil. No importa qué TTS, los archivos de texto se pueden convertir en archivos de voz para reproducirlos en tarjetas de voz. La mayoría de las oraciones de aplicación son relativamente cortas, generalmente no más de 100 caracteres chinos, y el tiempo de síntesis es muy corto. Siempre que un hilo sea responsable de la composición, otras aplicaciones pueden realizar solicitudes desde este hilo. Si la oración es larga, divídala en varias oraciones cortas y la velocidad de reproducción siempre será más lenta que la velocidad de síntesis.

Muchas aplicaciones se sintetizan sin conexión y no tienen requisitos de tiempo real, y mucho menos la compra de varias licencias.

En la mayoría de los casos, ni siquiera necesitamos comprar TTS, como los recordatorios de tarifas comunes en el desarrollo de voz. Después de marcar, escribimos: "Estimado cliente, su tarifa este mes es de 212 yuanes". La parte anterior es la misma para todos los clientes. Basta con grabar un archivo de voz y la síntesis digital es muy sencilla. Sólo necesitas grabar 10 voces digitales y agregar 100 yuanes.

上篇: ¿Cuál es el título de la canción final del 19º Festival de Cine de Shanghai? 下篇: La era del registro de bienes raíces llegará el próximo lunes. Aquí hay algunas cosas que necesita saber.