El voice cloning (clonación de voz) es una técnica de IA que reproduce las características vocales de una persona —timbre, entonación, ritmo— a partir de una muestra de audio muy breve, en ocasiones de apenas unos segundos. Los modelos modernos, basados en redes neuronales profundas, aprenden la "huella" sonora del hablante y pueden después sintetizar cualquier texto con esa misma voz.
Su importancia radica en la versatilidad de aplicaciones que habilita:
- Doblaje y localización de contenidos audiovisuales sin recurrir a nuevos actores.
- Accesibilidad, recuperando la voz de personas que la han perdido por enfermedad.
- Asistentes y narración personalizados para audiolibros o videojuegos.
El principal matiz es ético y legal. Al bastar con una muestra mínima, resulta sencillo clonar la voz de alguien sin su consentimiento, lo que abre la puerta a fraudes, suplantación de identidad y desinformación (los llamados audio deepfakes). Por ello, conviene exigir autorización expresa del titular de la voz y, cuando sea posible, recurrir a sistemas de marcado o verificación que permitan detectar audios generados artificialmente.