La tecnología de clonación de voz ha avanzado a pasos agigantados, y herramientas como Voicebox permiten replicar voces con bastante precisión y de manera local. En esta guía completa sobre Voicebox, aprenderás cómo instalarlo, configurarlo y generar audios realistas usando tu propia voz o cualquier otra referencia.
Si prefieres el contenido audiovisual puedes disfrutar de la guía en formato vídeo:
¿Qué es Voicebox?
Voicebox es una solución que permite replicar voces humanas a partir de una muestra de audio corta. Funciona mediante modelos de inteligencia artificial que analizan:
- Tonalidad
- Ritmo
- Pronunciación
- Matices vocales
A partir de esa información, el sistema puede generar nuevos audios a partir de texto, manteniendo la identidad vocal original. Su gran ventaja es que funciona en local, lo que implica:
| Ventaja | Descripción |
|---|---|
| Privacidad | Los audios no salen de tu equipo |
| Control | Puedes usarlo sin restricciones externas |
| Coste | Es completamente gratuito |
| Flexibilidad | Permite múltiples voces y configuraciones |
Instalación de Voicebox en Pinokio
Para utilizar Voicebox, primero necesitas instalar Pinokio desde el siguiente enlace: https://pinokio.co/download.html
Elige tu sistema operativo e instala la aplicación como un programa normal. Si quieres descubrir todo lo que puedes hacer con Pinokio puedes leer mi guía específica: Pinokio AI
Acceso a Voicebox dentro de Pinokio
Dependiendo de la versión, el menú puede cambiar:
- Versiones de Pinokio 5.0/6.0: Discover o Community
- Versión de Pinokio 7.0: Explore
Pasos clave:
- Abre Pinokio
- Ve al apartado Explore
- Busca Voicebox (suele aparecer al final)
- Haz clic en Install
- Selecciona Install Latest
- Inicia la descarga
Durante la instalación, se descargarán varios paquetes. Este proceso puede tardar unos minutos y se puede seguir desde la consola integrada.
Interfaz de Voicebox: opciones y funcionalidades
Una vez instalado, Voicebox presenta una interfaz bastante intuitiva.
Menú principal
Incluye varias secciones:
- Generación de voz (principal)
- Stories: para crear narrativas con múltiples audios
- Voices: gestión de voces guardadas
- Efectos: modificación del audio generado
- Configuración: modelos y ajustes
Modelos disponibles
Por defecto, los modelos seleccionados son:
- Modelo de transcripción tipo Whisper base
- Modelo de generación de audio Qwen3-TTS con 1.7 billones de parámetros
Esto permite una buena calidad, aunque dispones de más modelos a elegir en configuración.
Cómo crear una voz en Voicebox correctamente
El proceso de clonación es uno de los puntos clave en Voicebox.
Grabación de voz
Pasos:
- Haz clic en Create Voice
- Asigna un nombre
- Selecciona el idioma
- Pulsa Start Recording
- Habla durante un máximo de 30 segundos
👉 Importante: El sistema tiene un límite de 30 segundos por muestra de audio.
Consejos para mejorar la calidad
- Usa un micrófono limpio
- Evita ruido de fondo
- Vocaliza correctamente
- Mantén un tono constante
Después de grabar:
- Revisa el audio
- Pulsa Transcribe
- Genera el perfil con Create Profile
Esto crea una voz reutilizable dentro del sistema.
Uso de audios externos para clonar voces
Voicebox también permite importar audios ya existentes.
Requisitos del audio
- Duración máxima: 30 segundos
- Formato compatible
- Voz clara y sin ruido
Si el audio es más largo, puedes recortarlo con cualquier herramienta de edición.
Proceso de importación
- Ve a Create Voice
- Selecciona Upload
- Carga el archivo
- Transcribe automáticamente
- Crea el perfil
Esto permite clonar voces como narradores, personajes o cualquier referencia.

Generación de audio con Voicebox
Una vez creada la voz, puedes generar contenido fácilmente.
Pasos básicos
- Selecciona la voz activa
- Elige idioma
- Escribe el texto
- Pulsa Generate Speech
El sistema procesará el audio y lo mostrará en la interfaz.
Aspectos importantes
- El texto se interpreta literalmente
- Errores ortográficos afectan el resultado
- Las tildes mejoran la pronunciación
Opciones de edición y exportación de audio
Voicebox permite gestionar cada audio generado.
Funciones disponibles
- Reproducir
- Regenerar
- Aplicar efectos
- Eliminar
- Descargar
Exportación
Puedes exportar el archivo en formato:
- WAV (recomendado para calidad)
Esto facilita su uso en otros proyectos como:
- Vídeos
- Podcasts
- Narraciones
Uso de efectos de voz en Voicebox
Voicebox incluye efectos predefinidos que puedes aplicar fácilmente:
- Robotic
- Radio
- Eco
- Reverberación
Estos efectos permiten modificar el tono final del audio sin necesidad de software externo.
Creación de historias con múltiples audios (Stories)
Una de las funciones más interesantes es la creación de historias.
Qué permite esta función
- Agrupar audios
- Crear narrativas completas
- Simular diálogos
Esto es útil para:
- Contenido audiovisual
- Storytelling
- Proyectos creativos
Buenas prácticas para obtener mejores resultados
Para maximizar la calidad en Voicebox:
Audio de entrada
- Sin ruido
- Buena dicción
- Volumen equilibrado
Texto de salida
- Correctamente escrito
- Uso de puntuación
- Inclusión de tildes
Configuración
- Evitar efectos si buscas realismo
- Usar idioma correcto
Errores comunes al usar Voicebox
Algunos fallos habituales incluyen:
- Audios demasiado largos
- Mala calidad de grabación
- Texto mal escrito
- Selección incorrecta de idioma
Evitar estos errores mejora significativamente los resultados.
Aplicaciones prácticas de Voicebox
Voicebox puede utilizarse en múltiples contextos:
- Creación de contenido
- Doblaje
- Narración de historias
- Automatización de voz
- Proyectos creativos
Su facilidad de uso lo convierte en una herramienta accesible incluso para principiantes.
Ventajas frente a soluciones online
Trabajar en local ofrece beneficios clave:
- No dependes de internet
- Mayor velocidad en algunos casos
- Sin límites de uso
- Protección de datos
Esto lo hace ideal para usuarios que buscan autonomía y control.
FAQs
¿Voicebox es gratis?
Sí, es completamente gratuito y funciona en local.
¿Cuánto dura el audio para clonar una voz?
El límite es de 30 segundos por muestra.
¿Se puede usar cualquier idioma?
Sí, puedes seleccionar diferentes idiomas al crear la voz.
¿Por qué mi voz no suena realista?
Generalmente se debe a mala calidad de audio o errores en el texto.
¿Se pueden aplicar efectos después?
Sí, puedes añadir efectos directamente desde la interfaz.
¿Qué formato tiene el audio exportado?
Se puede exportar en formato WAV.
En resumen, Voicebox es una herramienta potente, accesible y fácil de usar para la clonación de voz en local. Permite crear voces personalizadas, generar audios a partir de texto y experimentar con efectos sin necesidad de conocimientos técnicos avanzados. Su integración con Pinokio simplifica todo el proceso, convirtiéndolo en una solución ideal tanto para creadores de contenido como para usuarios curiosos que quieren explorar el potencial del audio generado por inteligencia artificial.





