Gracias a los avances en inteligencia artificial, ahora es posible generar audios de alta calidad y realismo con herramientas como F5-TTS. Este modelo de generación de voz permite crear voces muy humanas, lo cual abre una nueva vía para la creación de podcasts gratis y con mucha facilidad. A continuación, exploraremos cómo configurar y utilizar el modelo F5-TTS desde dos vías diferentes: Hugging Face y Pinokio, facilitando así la producción de podcasts desde el navegador o mediante una instalación local. ¡Vamos allá!
Si prefieres el contenido audiovisual a la lectura, puedes ver la siguiente guía completa en formato vídeo.
¿Qué es F5-TTS?
F5-TTS es un modelo de inteligencia artificial desarrollado específicamente para convertir texto en voz de forma natural. Este modelo no solo facilita la creación de audio, sino que permite personalizarlo mediante el uso de diferentes voces o “speakers” y ajustar el tono y las emociones. Es una solución versátil y gratuita que se adapta a necesidades como monólogos o diálogos, ideales para podcasts, audios educativos, entre otros.
Idiomas compatibles: Es importante tener en cuenta que F5-TTS está actualmente entrenado para inglés y chino. Aunque el uso en otros idiomas es posible, es probable que se produzcan ciertas limitaciones en la calidad del audio, debido a las diferencias de tono y entonación. Sin embargo, desde Pinokio, se puede realizar se puede entrenar el modelo para un idioma específico, como el español.
Requisitos previos:
Antes de utilizar F5-TTS, asegúrate de cumplir con los siguientes requisitos:
- Cuenta en GitHub para la configuración en Hugging Face.
- Acceso a un navegador compatible con Hugging Face.
- Espacio de almacenamiento suficiente en caso de instalar Pinokio para el uso local de F5-TTS.
Configuración y Uso de F5-TTS en Hugging Face para Crear Podcasts
Hugging Face es una plataforma de inteligencia artificial que permite a los usuarios probar y personalizar modelos de IA directamente online. Es ideal para que no tienen un ordenador con muchos recursos, ya que actuará sobre el servidor y no sobre nuestro equipo.
Crear una Cuenta en GitHub y Vincularla a Hugging Face
Para utilizar F5-TTS en Hugging Face, se necesita una cuenta en GitHub. Esto permite acceder a la interfaz del modelo en Hugging Face.
- Regístrate en GitHub si aún no tienes una cuenta, lo cual es gratuito y sencillo.
- Luego, accede a Hugging Face y conecta tu cuenta de GitHub. Esto es necesario para utilizar herramientas de IA en la plataforma.
- Una vez vinculada, explora la sección de modelos y busca F5-TTS para acceder a sus opciones y configuraciones.
Configuración Básica en Hugging Face
- Dentro de Hugging Face, selecciona el modelo F5-TTS. Puedes acceder directamente desde el siguiente enlace: https://huggingface.co/spaces/mrfakename/E2-F5-TTS
- Abre la sección Multispeech. Esta opción permite generar conversaciones con varios hablantes, una característica ideal para crear podcasts siguiendo un diálogo uno vs uno.
- Define los nombres de cada hablante, ya que es un paso esencial para diferenciar las voces en el modelo. Si no se especifican los nombres, el modelo no generará el audio correctamente.
Cargar el Guion de Conversación
Para crear una conversación realista, es fundamental tener un guion en el que cada línea esté claramente asignada a un hablante.
- Prepara el guion en formato de texto, donde cada línea comience con el nombre del hablante entre {}. Ejemplo:
{Jimmy} Hello, this is my part of the podcast. {Brad} And this is my response to Jimmy.
- Puedes crear el guion manualmente o utilizar herramientas como ChatGPT para generar conversaciones que encajen con el tema de tu podcast.
Ajustes de Emoción en Hugging Face
Hugging Face permite aplicar emociones a las voces, lo que le da al audio un toque más auténtico y humanizado.
- Usa etiquetas como Happy, Sad, Angry, Surprised. Estas etiquetas se colocan junto al nombre del hablante en el guion. Ejemplo: {
Jimmy_Happy
} indicará al modelo que queremos que Jimmy hable con un tono feliz y alegre. - Estas emociones modifican la entonación, haciendo que la voz suene más realista y adaptada al contexto del diálogo. El resultado son podcasts muy creíbles y de calidad.
Generación del Audio
Una vez configurados los nombres, el guion y las emociones:
- Haz clic en Generate Multy-Style Speech para iniciar el proceso de generación de audio.
- En unos pocos minutos, Hugging Face generará el archivo de audio que podrás descargar y escuchar. Esto permite verificar si el audio cumple con las expectativas en cuanto a calidad y realismo.
Instalación y Configuración en Local de F5-TTS usando Pinokio
Pinokio es una plataforma que permite instalar y ejecutar modelos de IA localmente en tu equipo. Esta es una gran ventaja para quienes prefieren una opción offline y quieren tener un control completo del modelo. Además, Pinokio permite entrenar F5-TTS en otros idiomas, como el español, si se proporcionan muestras de audio.
Instalación de Pinokio y Configuración del Modelo F5-TTS
- Descarga Pinokio desde su sitio oficial y sigue las instrucciones de instalación según el sistema operativo de tu equipo. Si necesitas una guía de cómo usar Pinokio puedes leer el siguiente artículo: Cómo instalar y usar todo el potencial de Pinokio AI
- Al abrir Pinokio, accede a la pestaña Discover.
- En la barra de búsqueda, escribe F5-TTS y selecciona Download para iniciar la descarga del modelo.
- Una vez completada la descarga, selecciona Install para instalar el modelo en Pinokio. Este proceso puede demorar bastantes minutos, así que ten paciencia.
Configuración de Multispeech en Pinokio para Crear Podcasts
La sección Multispeech en Pinokio permite crear conversaciones realistas.
- Agrega nombres a cada hablante para diferenciarlos. Esto es esencial para que el modelo interprete correctamente el guion. Es seguir el mismo proceso que con Huggingface.
- Puedes seleccionar archivos de audio desde tu ordenador o grabar directamente en Pinokio usando un micrófono conectado.
Personalización de Emociones en Pinokio
Para hacer el audio aún más realista, Pinokio permite ajustar las emociones:
- Usa etiquetas como Happy, Sad, Angry, Surprised. Coloca estas etiquetas junto al nombre del hablante en el guion. Ejemplo: {Brad_Sad}.
- Estas emociones modifican la entonación y hacen que cada frase refleje una emoción específica, mejorando la calidad y realismo del audio.
Generación de Audio en Pinokio
- Una vez que hayas completado el guion y las configuraciones, presiona Generate Multy-Style Speech para crear tu primer podcast.
- El modelo generará el archivo de audio según las indicaciones del guion y las emociones asignadas. Este proceso puede tardar unos minutos y permitirá descargar el archivo (icono flecha de descarga) para su revisión.
Cómo entrenar el modelo F5-TTS en Español (Finetunning)
Para quienes desean utilizar F5-TTS en español, Pinokio ofrece la opción de entrenamiento o “fine-tuning”, que permite personalizar el modelo para entender y producir voces en otro idioma.
Subida de Muestras de Audio en Español
Para entrenar el modelo en español, es necesario tener una colección de audios y sus transcripciones.
- Dentro de la interfaz del modelo f5-tts en el menú lateral izquierdo busca la opción Train y haz click en ella. Se te abrirá una nueva interfaz llamada Open finetunning UI.
- Una vez dentro verás varios submenús. Céntrate en transcribe Data. En Project Name le puedes poner el nombre que quieras a tu entrenamiento. Aquí tendrás que subir archivos de audio en español, preferiblemente en formato WAV para garantizar una mejor calidad. Lo ideal sería subir unos 15 o 20 para asegurar mejores resultados.
- Cada archivo que subas debes transcribirlo clickando en transcribe. Esto generará un documento csv asociado con la transcripción en texto para cada muestra. Se guardará en la carpeta de tu proyecto.
Preparación del Conjunto de Datos
- Ahora ve al submenú de prepare Data. Aquí podrás ver y entender como se organizan tus archivos de entrenamiento dentro de la carpeta de tu proyecto. Debes tener una carpeta wav con todos los archivos de audio y un archivo metadata en la carpeta raíz del proyecto.
- Una vez revisado que todo esté correcto, pulsa en prepare y tus datos ya estarán listo para el último paso.
Ejecución del Entrenamiento
- Dirígete a la pestaña train Data y selecciona Start Training para iniciar el proceso final de entrenamiento del modelo.
- Este proceso puede tomar tiempo, dependiendo del tamaño y la cantidad de archivos de audio. Al finalizar, el modelo estará listo para procesar y generar audios en español. Puedes realizar un testeo en la pestaña test model.
Consejos para Mejorar la Calidad del Audio Generado
- Estructura un guion coherente y natural: La calidad del contenido es clave para lograr un audio efectivo. Asegúrate de que el guion tenga una secuencia lógica y natural.
- Experimenta con las emociones: Al asignar emociones a las voces, el audio resultará más dinámico y realista, adaptándose mejor al contexto del diálogo.
- Optimiza las pausas y los silencios: Ambas plataformas ofrecen opciones avanzadas para eliminar silencios largos o ajustar las pausas, lo cual puede mejorar el flujo y la naturalidad del audio.
Artículos relacionados: