Transformer

También: arquitectura Transformer · modelo Transformer · attention is all you need

La arquitectura base de casi todos los modelos de lenguaje actuales

1 min de lectura

El Transformer es una arquitectura de red neuronal presentada en 2017 en el artículo "Attention Is All You Need". Su característica distintiva es el mecanismo de atención (self-attention), que permite al modelo sopesar la importancia de cada palabra en relación con todas las demás de una secuencia, capturando dependencias a larga distancia sin procesar el texto de forma estrictamente secuencial.

Su relevancia radica en que sustituyó a arquitecturas anteriores como las redes recurrentes (RNN, LSTM), que eran lentas y tenían dificultades con textos largos. Al permitir el procesamiento en paralelo, el Transformer hizo viable entrenar modelos a escala masiva, dando lugar a la generación actual de modelos de lenguaje:

GPT y sus variantes (solo decodificador).
BERT (solo codificador).
Modelos de traducción y multimodales (codificador-decodificador).

Un matiz práctico importante es que el coste de la atención crece de forma cuadrática respecto a la longitud de la secuencia, lo que encarece el procesamiento de textos muy largos. Por ello existen numerosas variantes optimizadas que buscan reducir este consumo de memoria y cómputo.

Transformer

Términos relacionados

Context Window

Mixture of Experts (MoE)

LLM (Large Language Model)

Embeddings

Tokenization

Generative AI