Hoy compartimos los resultados preliminares de una vista previa a pequeña escala de un modelo llamado Voice Engine, que utiliza texto y una única muestra de audio de 15 segundos para generar un habla natural que se asemeja mucho al hablante original. Es notable que un modelo pequeño con una sola muestra de 15 segundos pueda crear voces emotivas y realistas. Desarrollamos Voice Engine por primera vez a finales de 2022, y lo hemos utilizado para potenciar las voces preestablecidas disponibles en la API de texto a voz, así como ChatGPT Voice y Re
|
etiquetas: openai , voces sintéticas , muestra audio , 15 segundos