El Transformer es una arquitectura de red neuronal presentada en 2017 en el artículo "Attention Is All You Need". Su característica distintiva es el mecanismo de atención (self-attention), que permite al modelo sopesar la importancia de cada palabra en relación con todas las demás de una secuencia, capturando dependencias a larga distancia sin procesar el texto de forma estrictamente secuencial.
Su relevancia radica en que sustituyó a arquitecturas anteriores como las redes recurrentes (RNN, LSTM), que eran lentas y tenían dificultades con textos largos. Al permitir el procesamiento en paralelo, el Transformer hizo viable entrenar modelos a escala masiva, dando lugar a la generación actual de modelos de lenguaje:
- GPT y sus variantes (solo decodificador).
- BERT (solo codificador).
- Modelos de traducción y multimodales (codificador-decodificador).
Un matiz práctico importante es que el coste de la atención crece de forma cuadrática respecto a la longitud de la secuencia, lo que encarece el procesamiento de textos muy largos. Por ello existen numerosas variantes optimizadas que buscan reducir este consumo de memoria y cómputo.