DramaBox es una herramienta de inteligencia artificial para crear voces expresivas a partir de lenguaje natural. La diferencia frente a otros sistemas de texto a voz es que aquí no solo escribes una frase para que la herramienta la lea, sino que puedes describir una escena completa: el tipo de voz, el idioma, la emoción, las pausas, las respiraciones y el diálogo exacto que debe pronunciarse.
Esto convierte a DramaBox en una opción muy interesante para crear voces de personajes, narraciones, escenas dramatizadas, vídeos animados o pruebas creativas de audio. La clave está en aprender a escribir bien los prompts, porque el modelo interpreta tanto el texto literal como las instrucciones de actuación.
Índice
- Qué es DramaBox
- Requisitos para usar DramaBox localmente en Pinokio
- Por qué DramaBox es diferente a un TTS tradicional
- Cómo instalar DramaBox localmente en Pinokio
- Cómo funciona la interfaz de DramaBox
- Cómo escribir buenos prompts para DramaBox
- Cómo controlar la duración del audio
- Cómo usar una voz de referencia
- Ejemplos prácticos de prompts
- Buenas prácticas para mejorar resultados
- Preguntas frecuentes sobre DramaBox
- Resumen rápido
Qué es DramaBox
DramaBox es una herramienta de texto a voz con IA pensada para generar audios expresivos a partir de prompts escritos. Su punto fuerte es que no se limita a leer una frase, sino que puede interpretar instrucciones sobre cómo debe sonar esa voz.
Por ejemplo, puedes pedir una voz grave, lenta y dramática, una voz joven y nerviosa, una narradora cálida para un vídeo educativo o un personaje que respira antes de decir una frase importante.
En lugar de funcionar como un simple lector de texto, DramaBox se parece más a una herramienta para dirigir una interpretación vocal. Tú describes la escena y el modelo intenta convertir esa descripción en una voz coherente.
La idea esencial es esta: en DramaBox no solo escribes qué debe decir la voz, sino cómo debe interpretarlo.
Según la documentación pública del proyecto, DramaBox permite generar voces expresivas mediante prompts, trabajar con estilos de habla, emociones, pausas y sonidos vocales, además de utilizar una voz de referencia cuando se quiere orientar el resultado hacia un timbre concreto. Puedes consultar la fuente técnica en el repositorio de DramaBox TTS para Pinokio.
Requisitos para usar DramaBox Localmente en Pinokio
Antes de instalar DramaBox, conviene tener claro que no es una herramienta ligera. Aunque Pinokio facilita mucho el proceso, DramaBox necesita bastante potencia para ejecutarse en local.
En la versión actual del launcher de DramaBox para Pinokio, se indican unos requisitos aproximados de 24 GB de VRAM en una GPU NVIDIA y alrededor de 17 GB de espacio en disco para los modelos. Además, esta implementación indica que macOS no está soportado, ni en Apple Silicon ni en equipos Intel.
| Elemento | Requisito indicado |
|---|---|
| GPU | NVIDIA/Apple compatible con CUDA |
| VRAM | Recomendable tener 24 GB, pero funciona con un mínimo de 8GB |
| Espacio en disco | Aproximadamente 17 Gb para descargar todos sus modelos |
| Sistema operativo | Windows o Linux, según compatibilidad del launcher |
| macOS | Soportado Apple Silicon (M1, M2, M3, M4) |
| Conexión a internet | Necesaria para descargar dependencias, paquetes y modelos |
Esto es importante porque puedes instalar Pinokio en distintos sistemas, pero eso no significa que todas las herramientas disponibles dentro de Pinokio funcionen igual en cualquier ordenador. Cada aplicación puede tener sus propios requisitos.
Si tu equipo no cumple estos requisitos, puede que DramaBox no arranque correctamente, que la generación sea muy lenta o que aparezcan errores relacionados con memoria de GPU. En ese caso, quizá te interese probar una alternativa para crear voces en local, como Voicebox.
Por qué DramaBox es diferente a un TTS tradicional
En una herramienta tradicional de texto a voz, normalmente escribes una frase y el sistema la convierte en audio. Esto puede servir para narraciones simples, pero suele quedarse corto cuando buscas una voz con actuación, pausas naturales o una emoción concreta.
DramaBox cambia ese enfoque porque permite describir el comportamiento de la voz. Puedes indicar si el hablante está calmado, nervioso, emocionado, serio o amenazante. También puedes añadir respiraciones, pausas largas o pequeñas expresiones vocales.
| Aspecto | TTS tradicional | DramaBox |
|---|---|---|
| Entrada principal | Texto literal | Descripción de escena y diálogo |
| Control emocional | Limitado | Más flexible mediante prompt |
| Pausas y respiraciones | Difíciles de controlar | Se pueden describir en lenguaje natural |
| Uso creativo | Narraciones simples | Personajes, escenas, doblaje experimental y vídeos animados |
| Voz de referencia | Depende de la herramienta | Puede utilizarse para orientar el timbre vocal |
Por eso DramaBox no debe entenderse solo como una herramienta para leer texto. Su valor está en la dirección vocal: puedes construir una mini escena y pedirle al modelo que genere una voz con una intención concreta.
Cómo instalar DramaBox Localmente en Pinokio
La forma más sencilla de probar DramaBox es instalarlo desde Pinokio. Pinokio permite descargar y ejecutar herramientas de IA local desde una interfaz visual, sin tener que montar todo el entorno manualmente desde cero.
1. Descarga Pinokio desde la web oficial
Lo primero es descargar Pinokio desde su página oficial: descargar Pinokio para Windows, macOS o Linux.
Una vez descargado, instálalo como cualquier otro programa y abre la aplicación. Si es la primera vez que usas esta herramienta, te recomiendo revisar antes esta guía completa de Pinokio AI, donde explico qué es Pinokio, cómo funciona y por qué resulta tan útil para instalar aplicaciones de inteligencia artificial en local.
2. Entra en el apartado Explore
Cuando abras Pinokio, verás la pantalla principal de la aplicación. Desde ahí, ve al apartado Explore, que es donde aparecen las herramientas disponibles para instalar.
3. Busca DramaBox
Dentro de Explore, busca DramaBox. En el listado debería aparecer como una herramienta de generación de voz expresiva o text to speech guiado por prompts.
Haz clic en el nombre de la herramienta para entrar en su ficha de instalación.
4. Pulsa Install
Dentro de la ficha de DramaBox, pulsa Install. Pinokio puede pedirte alguna confirmación adicional antes de empezar la descarga.
Durante este proceso se descargarán paquetes, dependencias y archivos necesarios para ejecutar DramaBox. Es normal que tarde un rato, sobre todo por el tamaño de los modelos.
5. Espera a que se descarguen los modelos
Aunque parezca que la instalación ha terminado, es posible que todavía falten archivos adicionales. En algunos casos, Pinokio seguirá descargando modelos o archivos de tipo SafeTensor antes de mostrar la interfaz gráfica de DramaBox.
Lo mejor es esperar hasta que el proceso finalice por completo y la herramienta muestre la opción de iniciar correctamente.
6. Inicia DramaBox
Cuando la instalación haya finalizado, pulsa Start. Si todo ha ido bien, se abrirá la interfaz de DramaBox y podrás empezar a escribir prompts, cargar voces de referencia y generar tus primeros audios.
Cómo funciona la interfaz de DramaBox
La interfaz de DramaBox es bastante directa, pero hay varios apartados importantes que conviene entender antes de generar audio.
Campo principal de descripción
Este es el espacio donde escribes el prompt. No debes tratarlo como una caja para pegar únicamente el texto que quieres escuchar. Lo ideal es describir la voz y la escena, y después indicar entre comillas el diálogo exacto.
Por ejemplo, puedes describir una voz grave, lenta y dramática, y luego escribir la frase que debe pronunciar. La descripción ayuda al modelo a entender la intención vocal.
Voz de referencia
DramaBox permite cargar una voz de referencia si quieres que el resultado siga un timbre concreto. También puedes grabar directamente desde la propia interfaz si prefieres crear la referencia al momento.
Lo recomendable es usar una referencia corta, clara y sin ruido de fondo. Una duración cercana a 10 segundos suele ser suficiente para empezar.
Ajustes de inferencia
En esta zona puedes configurar parámetros relacionados con la duración del audio, la referencia de voz y otros aspectos del proceso de generación.
No hace falta tocar todos los ajustes desde el principio. Para las primeras pruebas, lo más importante es controlar la duración y comprobar si el audio generado mantiene un ritmo natural.
Botón Generate
Cuando tengas el prompt preparado, pulsa Generate. DramaBox procesará la descripción y generará el audio. El tiempo de espera dependerá de tu ordenador, especialmente de la GPU y la VRAM disponible.
Descarga del audio
Una vez generado el resultado, podrás reproducirlo desde la interfaz y descargarlo en formato de audio para usarlo en tus proyectos.

Cómo escribir buenos prompts para DramaBox
El prompt es la parte más importante del proceso. DramaBox necesita distinguir entre las instrucciones de escena y el diálogo literal que debe pronunciar.
La regla principal: el diálogo va entre comillas
Todo lo que quieras que la voz diga literalmente debe ir entre comillas. Lo que queda fuera de las comillas se interpreta como una instrucción de estilo, emoción o acción.
A calm Spanish narrator speaks slowly and clearly. “Bienvenido a esta guía sobre inteligencia artificial.”
En este ejemplo, la voz debería pronunciar únicamente:
Bienvenido a esta guía sobre inteligencia artificial.
La parte anterior sirve para definir el estilo de narración.
Qué escribir fuera de las comillas
Fuera de las comillas puedes describir todo lo que afecta a la interpretación:
- Tipo de voz.
- Idioma.
- Edad o personalidad aproximada del hablante.
- Emoción principal.
- Velocidad de habla.
- Pausas.
- Respiraciones.
- Acciones del personaje.
- Intensidad o estilo de entrega.
A deep, slow, commanding male voice speaks in Spanish. He breathes deeply. “No huyas de la verdad.” A long dramatic pause. “Yo soy tu padre.”
Qué puede ir dentro de las comillas
Dentro de las comillas debe ir el diálogo real. También puedes incluir sonidos fonéticos que quieras que el hablante vocalice, como risas o expresiones de duda.
| Sonido | Uso habitual |
|---|---|
| “ja ja ja” | Risa hablada |
| “mmm” | Duda, pensamiento o pausa vocal |
| “eh” | Titubeo |
| “ugh” | Queja, esfuerzo o reacción |
En cambio, acciones como respirar, hacer una pausa larga o tragar saliva suelen funcionar mejor fuera de las comillas, porque son instrucciones de escena y no texto hablado.
Estructura recomendada para un prompt
Una buena estructura para empezar sería esta:
- Describe el tipo de voz.
- Indica el idioma.
- Añade el diálogo entre comillas.
- Incluye pausas o acciones si hacen falta.
- Añade más diálogo entre comillas si la escena continúa.
A deep, slow, commanding male voice speaks in Spanish with dramatic pauses. He breathes deeply and says: “Luke, no huyas de la verdad.” A long pause. He breathes again and says: “Yo soy tu padre.”
Este tipo de prompt suele funcionar mejor que pegar únicamente una frase suelta, porque el modelo tiene más contexto para generar una voz con intención.
Cómo controlar la duración del audio
DramaBox permite ajustar la duración del audio generado. Esto es útil porque una misma frase puede sonar demasiado rápida, demasiado lenta o necesitar más espacio para que las pausas respiren.
Target Duration
Target Duration sirve para indicar una duración objetivo concreta. Si quieres que el audio dure un número determinado de segundos, puedes ajustarlo desde aquí.
Este ajuste tiene sentido cuando trabajas con textos más largos o cuando necesitas que el resultado encaje en una duración aproximada.
Duration
Duration sirve para modificar la duración estimada cuando Target Duration está en cero. Para frases cortas, suele ser cómodo dejar Target Duration en cero y permitir que DramaBox calcule la duración automáticamente.
Qué configuración usar
| Tipo de contenido | Configuración recomendada |
|---|---|
| Frase corta | Dejar Target Duration en 0 y usar duración automática |
| Escena con pausas | Ajustar Duration si el audio queda demasiado rápido |
| Narración larga | Definir Target Duration manualmente |
| Prompt muy extenso | Usar duración objetivo y dividir el contenido si hace falta |
Cómo usar una voz de referencia
DramaBox puede generar voces solo a partir de una descripción, pero también permite utilizar una voz de referencia. Esto sirve para orientar el resultado hacia un timbre concreto.
Puedes subir un archivo de audio o grabar una referencia directamente desde la interfaz. Lo ideal es que sea una grabación limpia, sin ruido de fondo, sin música y con una sola voz.
Una referencia de unos 10 segundos suele ser suficiente para empezar. En algunos ajustes puedes ampliar la duración máxima, pero no siempre más duración significa mejor resultado.
Uso responsable de voces de referencia
Utiliza voces propias o voces para las que tengas permiso. Evita imitar a personas reales sin autorización, especialmente si el audio puede confundirse con una grabación auténtica.
Ejemplos prácticos de prompts para DramaBox
Ejemplo 1: voz dramática en español
Este prompt busca una voz grave, lenta y dominante, con respiraciones y pausas dramáticas:
A deep, slow, commanding male voice speaks in Spanish with dramatic pauses. He breathes deeply and says: “Luke, no huyas de la verdad.” A long pause. He breathes again and says: “Yo soy tu padre.”
La descripción dirige la interpretación, mientras que las frases entre comillas son el contenido que se pronuncia.
Ejemplo 2: voz alegre en inglés
Este ejemplo utiliza risa y una expresión de duda como parte del diálogo:
A cheerful young man speaks in English with excitement. He laughs softly and says: “Haha, I can’t believe this actually worked.” He pauses for a moment. “Mmm... okay, let’s try it one more time.”
Aquí “Haha” y “Mmm” van dentro de las comillas porque forman parte de lo que el hablante debe vocalizar.
Ejemplo 3: narrador educativo para vídeos
Este prompt puede servir para generar una voz clara y didáctica:
A warm Spanish teacher speaks clearly, with a calm and didactic tone. “Hoy vas a aprender a crear voces con inteligencia artificial usando lenguaje natural.” A short pause. “La clave está en describir la escena, no solo escribir el texto.”
Ejemplo 4: personaje nervioso
Este ejemplo busca una voz con inseguridad y pequeñas dudas:
A nervous young Spanish man speaks quickly, with hesitation in his voice. “Eh... no estoy seguro de que esto sea una buena idea.” He takes a short breath. “Pero si vamos a hacerlo, mejor que sea ahora.”
Buenas prácticas para mejorar resultados
Escribe instrucciones claras
Cuanto más clara sea la descripción, más fácil será que DramaBox genere una voz útil. No hace falta escribir un prompt enorme, pero sí conviene definir bien el tipo de voz, la emoción y el ritmo.
No es lo mismo pedir una voz masculina que pedir una voz masculina grave, lenta, cálida y en español.
No mezcles demasiadas emociones
Evita pedir una voz triste, alegre, enfadada y calmada al mismo tiempo. Elige una emoción principal y añade matices solo cuando tenga sentido.
Usa pausas con intención
Las pausas ayudan a que el resultado sea más natural. Puedes pedir una pausa corta, una pausa dramática o una respiración antes de una frase importante.
A long dramatic pause.
He takes a deep breath.
She hesitates before speaking.
Haz varias pruebas
Como ocurre con muchas herramientas generativas, puede que el primer resultado no sea perfecto. Cambiar una palabra del prompt, ajustar la duración o simplificar la escena puede mejorar mucho el audio.
Cuida la legalidad y la ética
La generación de voz con IA es muy potente, pero debe usarse con responsabilidad. No uses voces de terceros sin permiso ni generes audios pensados para engañar a otras personas.
Si vas a publicar el contenido, puede ser recomendable indicar que la voz ha sido generada con IA cuando el contexto lo requiera.
| Elemento | Pregunta de revisión |
|---|---|
| Voz | ¿He descrito el tipo de voz que quiero? |
| Idioma | ¿He indicado claramente el idioma? |
| Diálogo | ¿Todo lo que debe decir está entre comillas? |
| Acciones | ¿Las respiraciones y pausas están fuera de las comillas? |
| Duración | ¿La duración automática encaja con lo que necesito? |
| Referencia | ¿Tengo permiso para usar la voz de referencia? |
Preguntas frecuentes sobre DramaBox
¿DramaBox sirve para clonar voces?
Sí. DramaBox puede utilizar una voz de referencia para orientar el timbre del resultado. Lo recomendable es usar voces propias o voces para las que tengas permiso.
¿Puedo usar DramaBox sin voz de referencia?
Sí. Puedes describir la voz mediante lenguaje natural y dejar que el modelo genere una voz acorde a esa descripción.
¿Qué parte del prompt se pronuncia realmente?
Se pronuncia lo que escribes entre comillas. El resto del prompt sirve como instrucción para definir voz, emoción, pausas, respiraciones y escena.
¿Puedo generar voces en español?
Sí. Puedes indicar que la voz debe hablar en español. En muchos casos, funciona bien escribir la descripción general en inglés y dejar el diálogo final en español.
¿Por qué se recomienda escribir la descripción en inglés?
Muchos modelos de IA interpretan mejor las instrucciones en inglés, especialmente cuando se trata de describir estilos, emociones o acciones. Aun así, el diálogo puede ir en español si quieres que la voz hable en español.
¿Qué hago si la voz sale demasiado rápida?
Puedes ajustar la duración, añadir pausas o dividir el texto en frases más claras. También puede ayudar simplificar el prompt si contiene demasiadas instrucciones.
¿Dónde pongo las respiraciones o pausas?
Normalmente, fuera de las comillas. Por ejemplo: He takes a deep breath. o A long dramatic pause.
¿Qué duración debe tener una voz de referencia?
Una referencia corta, limpia y de unos 10 segundos suele ser una buena base. Si el audio tiene ruido, música o varias voces, el resultado puede empeorar.
¿DramaBox funciona en macOS?
El launcher actual de DramaBox para Pinokio indica que macOS no está soportado, ni en Apple Silicon ni en equipos Intel.
¿Cuánta VRAM necesita DramaBox?
En la versión actual del launcher para Pinokio se indican aproximadamente 24 GB de VRAM en una GPU NVIDIA compatible con CUDA.
¿DramaBox es útil para vídeos animados?
Sí. Es uno de sus usos más interesantes, porque permite crear voces de personajes con intención, pausas, emociones y estilos diferentes.
¿DramaBox es mejor que una herramienta TTS normal?
Depende del uso. Para leer textos simples, un TTS tradicional puede ser suficiente. Para escenas, personajes o voces con más interpretación, DramaBox ofrece más control creativo.
Resumen rápido
DramaBox es una herramienta de IA para crear voces expresivas mediante lenguaje natural. Su principal ventaja es que permite describir no solo lo que debe decir la voz, sino también cómo debe sonar: tono, emoción, pausas, respiraciones y estilo de interpretación.
La regla esencial es sencilla: el diálogo literal va entre comillas y la dirección de escena va fuera de las comillas. Con esa base, puedes crear voces para vídeos animados, narraciones, escenas dramatizadas, contenido educativo y pruebas creativas de audio.
Antes de instalarlo, revisa bien los requisitos de hardware, especialmente la VRAM necesaria. Si tu equipo es compatible, DramaBox puede ser una herramienta muy potente para crear voces con más personalidad que las de un sistema de texto a voz tradicional.





