Los Transformers son un tipo específico de arquitectura de red neuronal que ha demostrado ser extremadamente eficaz, especialmente para tareas relacionadas con el procesamiento del lenguaje natural (PLN). Son la tecnología fundamental detrás de la mayoría de los Grandes Modelos de Lenguaje (LLMs) modernos, como GPT.
La innovación clave de los Transformers es el mecanismo de «atención» (specifically, self-attention). Permite al modelo ponderar la importancia de diferentes palabras (o tokens) dentro de una secuencia de texto, sin importar cuán lejos estén unas de otras. Antes de los Transformers, los modelos tenían dificultades para manejar dependencias a largo plazo en el texto (entender cómo una palabra al principio de un párrafo se relaciona con una al final).
Imagina leer una frase larga: el mecanismo de atención ayuda al modelo a «prestar atención» a las palabras más relevantes para entender el significado de cada palabra en su contexto. Esta capacidad para capturar relaciones contextuales complejas es lo que ha permitido los grandes avances recientes en traducción automática, generación de texto, respuesta a preguntas y otras tareas de PLN.