DramaBox AI: Crea Voces con IA en Lenguaje Natural (Local)

Q: ¿Dónde pongo las respiraciones o pausas?

Normalmente, fuera de las comillas. Por ejemplo: He takes a deep breath o A long dramatic pause.

DramaBox es una herramienta de inteligencia artificial para crear voces expresivas a partir de lenguaje natural. La diferencia frente a otros sistemas de texto a voz es que aquí no solo escribes una frase para que la herramienta la lea, sino que puedes describir una escena completa: el tipo de voz, el idioma, la emoción, las pausas, las respiraciones y el diálogo exacto que debe pronunciarse.

Esto convierte a DramaBox en una opción muy interesante para crear voces de personajes, narraciones, escenas dramatizadas, vídeos animados o pruebas creativas de audio. La clave está en aprender a escribir bien los prompts, porque el modelo interpreta tanto el texto literal como las instrucciones de actuación.

Índice

Qué es DramaBox
Requisitos para usar DramaBox localmente en Pinokio
Por qué DramaBox es diferente a un TTS tradicional
Cómo instalar DramaBox localmente en Pinokio
Cómo funciona la interfaz de DramaBox
Cómo escribir buenos prompts para DramaBox
Cómo controlar la duración del audio
Cómo usar una voz de referencia
Ejemplos prácticos de prompts
Buenas prácticas para mejorar resultados
Preguntas frecuentes sobre DramaBox

Qué es DramaBox

DramaBox es una herramienta de texto a voz con IA pensada para generar audios expresivos a partir de prompts escritos. Su punto fuerte es que no se limita a leer una frase, sino que puede interpretar instrucciones sobre cómo debe sonar esa voz.

Por ejemplo, puedes pedir una voz grave, lenta y dramática, una voz joven y nerviosa, una narradora cálida para un vídeo educativo o un personaje que respira antes de decir una frase importante.

En lugar de funcionar como un simple lector de texto, DramaBox se parece más a una herramienta para dirigir una interpretación vocal. Tú describes la escena y el modelo intenta convertir esa descripción en una voz coherente.

La idea esencial es esta: en DramaBox no solo escribes qué debe decir la voz, sino cómo debe interpretarlo.

Según la documentación pública del proyecto, DramaBox permite generar voces expresivas mediante prompts, trabajar con estilos de habla, emociones, pausas y sonidos vocales, además de utilizar una voz de referencia cuando se quiere orientar el resultado hacia un timbre concreto. Puedes consultar la fuente técnica en el repositorio de DramaBox TTS para Pinokio.

Requisitos para usar DramaBox Localmente en Pinokio

Antes de instalar DramaBox, conviene tener claro que no es una herramienta ligera. Aunque Pinokio facilita mucho el proceso, DramaBox necesita bastante potencia para ejecutarse en local.

En la versión actual del launcher de DramaBox para Pinokio, se indican unos requisitos aproximados de 24 GB de VRAM en una GPU NVIDIA y alrededor de 17 GB de espacio en disco para los modelos.

Elemento	Requisito indicado
GPU	NVIDIA/Apple compatible con CUDA
VRAM	Recomendable tener 24 GB, pero funciona con un mínimo de 8GB
Espacio en disco	Aproximadamente 17 Gb para descargar todos sus modelos
Sistema operativo	Windows o Linux, según compatibilidad del launcher
macOS	Soportado Apple Silicon (M1, M2, M3, M4)
Conexión a internet	Necesaria para descargar dependencias, paquetes y modelos

Esto es importante porque puedes instalar Pinokio en distintos sistemas, pero eso no significa que todas las herramientas disponibles dentro de Pinokio funcionen igual en cualquier ordenador. Cada aplicación tiene sus propios requisitos.

Si tu equipo no cumple estos requisitos, puede que DramaBox no arranque correctamente, que la generación sea muy lenta o que aparezcan errores relacionados con memoria de GPU. En ese caso, quizá te interese probar una alternativa para crear voces en local, como Voicebox.

Por qué DramaBox es diferente a un TTS tradicional

En una herramienta tradicional de texto a voz, normalmente escribes una frase y el sistema la convierte en audio. Esto puede servir para narraciones simples, pero suele quedarse corto cuando buscas una voz con actuación, pausas naturales o una emoción concreta.

DramaBox cambia ese enfoque porque permite describir el comportamiento de la voz. Puedes indicar si el hablante está calmado, nervioso, emocionado, serio o amenazante. También puedes añadir respiraciones, pausas largas o pequeñas expresiones vocales.

Aspecto	TTS tradicional	DramaBox
Entrada principal	Texto literal	Descripción de escena y diálogo
Control emocional	Limitado	Más flexible mediante prompt
Pausas y respiraciones	Difíciles de controlar	Se pueden describir en lenguaje natural
Uso creativo	Narraciones simples	Personajes, escenas, doblaje experimental y vídeos animados
Voz de referencia	Depende de la herramienta	Puede utilizarse para orientar el timbre vocal

Por eso DramaBox no debe entenderse solo como una herramienta para leer texto. Su valor está en la dirección vocal: puedes construir una mini escena y pedirle al modelo que genere una voz con una intención concreta.

Cómo instalar DramaBox Localmente en Pinokio

La forma más sencilla de probar DramaBox es instalarlo desde Pinokio. Pinokio permite descargar y ejecutar herramientas de IA local desde una interfaz visual, sin tener que montar todo el entorno manualmente desde cero.

1. Descarga Pinokio desde la web oficial

Lo primero es descargar Pinokio desde su página oficial: descargar Pinokio para Windows, macOS o Linux.

Una vez descargado, instálalo como cualquier otro programa y abre la aplicación. Si es la primera vez que usas esta herramienta, te recomiendo revisar antes esta guía completa d e Pinokio AI, donde explico qué es Pinokio, cómo funciona y por qué resulta tan útil para instalar aplicaciones de inteligencia artificial en local.

2. Entra en el apartado Explore

Cuando abras Pinokio, verás la pantalla principal de la aplicación. Desde ahí, ve al apartado Explore, que es donde aparecen las herramientas disponibles para instalar.

3. Busca DramaBox

Dentro de Explore, busca DramaBox. En el listado debería aparecer como una herramienta de generación de voz expresiva o text to speech guiado por prompts.

Haz clic en el nombre de la herramienta para entrar en su ficha de instalación.

4. Pulsa Install

Dentro de la ficha de DramaBox, pulsa Install. Pinokio puede pedirte alguna confirmación adicional antes de empezar la descarga.

Durante este proceso se descargarán paquetes, dependencias y archivos necesarios para ejecutar DramaBox. Es normal que tarde un rato, sobre todo por el tamaño de los modelos.

5. Espera a que se descarguen los modelos

Aunque parezca que la instalación ha terminado, es posible que todavía falten archivos adicionales. En algunos casos, Pinokio seguirá descargando modelos o archivos de tipo SafeTensor antes de mostrar la interfaz gráfica de DramaBox.

Lo mejor es esperar hasta que el proceso finalice por completo y la herramienta muestre la opción de iniciar correctamente.

6. Inicia DramaBox

Cuando la instalación haya finalizado, pulsa Start. Si todo ha ido bien, se abrirá la interfaz de DramaBox y podrás empezar a escribir prompts, cargar voces de referencia y generar tus primeros audios.

Cómo funciona la interfaz de DramaBox

La interfaz de DramaBox es bastante directa, pero hay varios apartados importantes que conviene entender antes de generar audio.

Campo principal de descripción

Este es el espacio donde escribes el prompt. No debes tratarlo como una caja para pegar únicamente el texto que quieres escuchar. Lo ideal es describir la voz y la escena, y después indicar entre comillas el diálogo exacto.

Por ejemplo, puedes describir una voz grave, lenta y dramática, y luego escribir la frase que debe pronunciar. La descripción ayuda al modelo a entender la intención vocal.

Voz de referencia

DramaBox permite cargar una voz de referencia si quieres que el resultado siga un timbre concreto. También puedes grabar directamente desde la propia interfaz si prefieres crear la referencia al momento.

Lo recomendable es usar una referencia corta, clara y sin ruido de fondo. Una duración cercana a 10 segundos suele ser suficiente para empezar.

Ajustes de inferencia

En esta zona puedes configurar parámetros relacionados con la duración del audio, la referencia de voz y otros aspectos del proceso de generación.

No hace falta tocar todos los ajustes desde el principio. Para las primeras pruebas, lo más importante es controlar la duración y comprobar si el audio generado mantiene un ritmo natural.

Botón Generate

Cuando tengas el prompt preparado, pulsa Generate. DramaBox procesará la descripción y generará el audio. El tiempo de espera dependerá de tu ordenador, especialmente de la GPU y la VRAM disponible.

Descarga del audio

Una vez generado el resultado, podrás reproducirlo desde la interfaz y descargarlo en formato de audio para usarlo en tus proyectos.

Cómo escribir buenos prompts para DramaBox

El prompt es la parte más importante del proceso. DramaBox necesita distinguir entre las instrucciones de escena y el diálogo literal que debe pronunciar.

La regla principal: el diálogo va entre comillas

Todo lo que quieras que la voz diga literalmente debe ir entre comillas. Lo que queda fuera de las comillas se interpreta como una instrucción de estilo, emoción o acción.

A calm Spanish narrator speaks slowly and clearly. “Bienvenido a esta guía sobre inteligencia artificial.”

En este ejemplo, la voz debería pronunciar únicamente:

Bienvenido a esta guía sobre inteligencia artificial.

La parte anterior sirve para definir el estilo de narración.

Qué escribir fuera de las comillas

Fuera de las comillas puedes describir todo lo que afecta a la interpretación:

Tipo de voz.
Idioma.
Edad o personalidad aproximada del hablante.
Emoción principal.
Velocidad de habla.
Pausas.
Respiraciones.
Acciones del personaje.
Intensidad o estilo de entrega.

A deep, slow, commanding male voice speaks in Spanish. He breathes deeply. “No huyas de la verdad.” A long dramatic pause. “Yo soy tu padre.”

Qué puede ir dentro de las comillas

Dentro de las comillas debe ir el diálogo real. También puedes incluir sonidos fonéticos que quieras que el hablante vocalice, como risas o expresiones de duda.

Sonido	Uso habitual
“ja ja ja”	Risa hablada
“mmm”	Duda, pensamiento o pausa vocal
“eh”	Titubeo
“ugh”	Queja, esfuerzo o reacción

En cambio, acciones como respirar, hacer una pausa larga o tragar saliva suelen funcionar mejor fuera de las comillas, porque son instrucciones de escena y no texto hablado.

Estructura recomendada para un prompt

Una buena estructura para empezar sería esta:

Describe el tipo de voz.
Indica el idioma.
Añade el diálogo entre comillas.
Incluye pausas o acciones si hacen falta.
Añade más diálogo entre comillas si la escena continúa.

A deep, slow, commanding male voice speaks in Spanish with dramatic pauses. He breathes deeply and says: “Luke, no huyas de la verdad.” A long pause. He breathes again and says: “Yo soy tu padre.”

Este tipo de prompt suele funcionar mejor que pegar únicamente una frase suelta, porque el modelo tiene más contexto para generar una voz con intención.

Cómo controlar la duración del audio

DramaBox permite ajustar la duración del audio generado. Esto es útil porque una misma frase puede sonar demasiado rápida, demasiado lenta o necesitar más espacio para que las pausas respiren.

Target Duration

Target Duration sirve para indicar una duración objetivo concreta. Si quieres que el audio dure un número determinado de segundos, puedes ajustarlo desde aquí.

Este ajuste tiene sentido cuando trabajas con textos más largos o cuando necesitas que el resultado encaje en una duración aproximada.

Duration

Duration sirve para modificar la duración estimada cuando Target Duration está en cero. Para frases cortas, suele ser cómodo dejar Target Duration en cero y permitir que DramaBox calcule la duración automáticamente.

Qué configuración usar

Tipo de contenido	Configuración recomendada
Frase corta	Dejar Target Duration en 0 y usar duración automática
Escena con pausas	Ajustar Duration si el audio queda demasiado rápido
Narración larga	Definir Target Duration manualmente
Prompt muy extenso	Usar duración objetivo y dividir el contenido si hace falta

Cómo usar una voz de referencia

DramaBox puede generar voces solo a partir de una descripción, pero también permite utilizar una voz de referencia. Esto sirve para orientar el resultado hacia un timbre concreto.

Puedes subir un archivo de audio o grabar una referencia directamente desde la interfaz. Lo ideal es que sea una grabación limpia, sin ruido de fondo, sin música y con una sola voz.

Una referencia de unos 10 segundos suele ser suficiente para empezar. En algunos ajustes puedes ampliar la duración máxima, pero no siempre más duración significa mejor resultado.

Uso responsable de voces de referencia

Utiliza voces propias o voces para las que tengas permiso. Evita imitar a personas reales sin autorización, especialmente si el audio puede confundirse con una grabación auténtica.

Ejemplos prácticos de prompts para DramaBox

Ejemplo 1: voz dramática en español

Este prompt busca una voz grave, lenta y dominante, con respiraciones y pausas dramáticas:

A deep, slow, commanding male voice speaks in Spanish with dramatic pauses. He breathes deeply and says: “Luke, no huyas de la verdad.” A long pause. He breathes again and says: “Yo soy tu padre.”

La descripción dirige la interpretación, mientras que las frases entre comillas son el contenido que se pronuncia.

Ejemplo 2: voz alegre en inglés

Este ejemplo utiliza risa y una expresión de duda como parte del diálogo:

A cheerful young man speaks in English with excitement. He laughs softly and says: “Haha, I can’t believe this actually worked.” He pauses for a moment. “Mmm... okay, let’s try it one more time.”

Aquí “Haha” y “Mmm” van dentro de las comillas porque forman parte de lo que el hablante debe vocalizar.

Ejemplo 3: narrador educativo para vídeos

Este prompt puede servir para generar una voz clara y didáctica:

A warm Spanish teacher speaks clearly, with a calm and didactic tone. “Hoy vas a aprender a crear voces con inteligencia artificial usando lenguaje natural.” A short pause. “La clave está en describir la escena, no solo escribir el texto.”

Ejemplo 4: personaje nervioso

Este ejemplo busca una voz con inseguridad y pequeñas dudas:

A nervous young Spanish man speaks quickly, with hesitation in his voice. “Eh... no estoy seguro de que esto sea una buena idea.” He takes a short breath. “Pero si vamos a hacerlo, mejor que sea ahora.”

Buenas prácticas para mejorar resultados

Escribe instrucciones claras

Cuanto más clara sea la descripción, más fácil será que DramaBox genere una voz útil. No hace falta escribir un prompt enorme, pero sí conviene definir bien el tipo de voz, la emoción y el ritmo.

No es lo mismo pedir una voz masculina que pedir una voz masculina grave, lenta, cálida y en español.

No mezcles demasiadas emociones

Evita pedir una voz triste, alegre, enfadada y calmada al mismo tiempo. Elige una emoción principal y añade matices solo cuando tenga sentido.

Usa pausas con intención

Las pausas ayudan a que el resultado sea más natural. Puedes pedir una pausa corta, una pausa dramática o una respiración antes de una frase importante.

A long dramatic pause.
He takes a deep breath.
She hesitates before speaking.

Haz varias pruebas

Como ocurre con muchas herramientas generativas, puede que el primer resultado no sea perfecto. Cambiar una palabra del prompt, ajustar la duración o simplificar la escena puede mejorar mucho el audio.

Cuida la legalidad y la ética

La generación de voz con IA es muy potente, pero debe usarse con responsabilidad. No uses voces de terceros sin permiso ni generes audios pensados para engañar a otras personas.

Si vas a publicar el contenido, puede ser recomendable indicar que la voz ha sido generada con IA cuando el contexto lo requiera.

Elemento	Pregunta de revisión
Voz	¿He descrito el tipo de voz que quiero?
Idioma	¿He indicado claramente el idioma?
Diálogo	¿Todo lo que debe decir está entre comillas?
Acciones	¿Las respiraciones y pausas están fuera de las comillas?
Duración	¿La duración automática encaja con lo que necesito?
Referencia	¿Tengo permiso para usar la voz de referencia?

Preguntas frecuentes sobre DramaBox

¿DramaBox sirve para clonar voces?

Sí. DramaBox puede utilizar una voz de referencia para orientar el timbre del resultado. Lo recomendable es usar voces propias o voces para las que tengas permiso.

¿Puedo usar DramaBox sin voz de referencia?

Sí. Puedes describir la voz mediante lenguaje natural y dejar que el modelo genere una voz acorde a esa descripción.

¿Qué parte del prompt se pronuncia realmente?

Se pronuncia lo que escribes entre comillas. El resto del prompt sirve como instrucción para definir voz, emoción, pausas, respiraciones y escena.

¿Puedo generar voces en español?

Sí. Puedes indicar que la voz debe hablar en español. En muchos casos, funciona bien escribir la descripción general en inglés y dejar el diálogo final en español.

¿Por qué se recomienda escribir la descripción en inglés?

Muchos modelos de IA interpretan mejor las instrucciones en inglés, especialmente cuando se trata de describir estilos, emociones o acciones. Aun así, el diálogo puede ir en español si quieres que la voz hable en español.

¿Qué hago si la voz sale demasiado rápida?

Puedes ajustar la duración, añadir pausas o dividir el texto en frases más claras. También puede ayudar simplificar el prompt si contiene demasiadas instrucciones.

¿Dónde pongo las respiraciones o pausas?

Normalmente, fuera de las comillas. Por ejemplo: He takes a deep breath. o A long dramatic pause.

¿Qué duración debe tener una voz de referencia?

Una referencia corta, limpia y de unos 10 segundos suele ser una buena base. Si el audio tiene ruido, música o varias voces, el resultado puede empeorar.

¿DramaBox funciona en macOS?

El launcher actual de DramaBox para Pinokio indica que macOS no está soportado, ni en Apple Silicon ni en equipos Intel.

¿Cuánta VRAM necesita DramaBox?

En la versión actual del launcher para Pinokio se indican aproximadamente 24 GB de VRAM en una GPU NVIDIA compatible con CUDA.

¿DramaBox es útil para vídeos animados?

Sí. Es uno de sus usos más interesantes, porque permite crear voces de personajes con intención, pausas, emociones y estilos diferentes.

¿DramaBox es mejor que una herramienta TTS normal?

Depende del uso. Para leer textos simples, un TTS tradicional puede ser suficiente. Para escenas, personajes o voces con más interpretación, DramaBox ofrece más control creativo.

Resumen rápido

DramaBox es una herramienta de IA para crear voces expresivas mediante lenguaje natural. Su principal ventaja es que permite describir no solo lo que debe decir la voz, sino también cómo debe sonar: tono, emoción, pausas, respiraciones y estilo de interpretación.

La regla esencial es sencilla: el diálogo literal va entre comillas y la dirección de escena va fuera de las comillas. Con esa base, puedes crear voces para vídeos animados, narraciones, escenas dramatizadas, contenido educativo y pruebas creativas de audio.

Antes de instalarlo, revisa bien los requisitos de hardware, especialmente la VRAM necesaria. Si tu equipo es compatible, DramaBox puede ser una herramienta muy potente para crear voces con más personalidad que las de un sistema de texto a voz tradicional.

Si quieres aplicar esta herramienta o cualquier otra en tus estrategias puedes consultar todos mis servicios en la siguiente página: consultoría de inteligencia artificial