Voice Cloning

También: Clonación de voz · Síntesis de voz · Voice Synthesis · Clonado de voz con IA

Clonar una voz humana con IA a partir de pocos segundos de audio

1 min de lectura

El voice cloning (clonación de voz) es una técnica de IA que reproduce las características vocales de una persona —timbre, entonación, ritmo— a partir de una muestra de audio muy breve, en ocasiones de apenas unos segundos. Los modelos modernos, basados en redes neuronales profundas, aprenden la "huella" sonora del hablante y pueden después sintetizar cualquier texto con esa misma voz.

Su importancia radica en la versatilidad de aplicaciones que habilita:

Doblaje y localización de contenidos audiovisuales sin recurrir a nuevos actores.
Accesibilidad, recuperando la voz de personas que la han perdido por enfermedad.
Asistentes y narración personalizados para audiolibros o videojuegos.

El principal matiz es ético y legal. Al bastar con una muestra mínima, resulta sencillo clonar la voz de alguien sin su consentimiento, lo que abre la puerta a fraudes, suplantación de identidad y desinformación (los llamados audio deepfakes). Por ello, conviene exigir autorización expresa del titular de la voz y, cuando sea posible, recurrir a sistemas de marcado o verificación que permitan detectar audios generados artificialmente.

Voice Cloning

Términos relacionados

Multimodal

Synthetic Data

Generative AI

Text-to-Video

Deepfake

Synthetic Media