En el contexto de los modelos de lenguaje (como los LLMs), un Token es la unidad básica de texto que el modelo procesa. No siempre corresponde a una palabra completa; puede ser una palabra, una parte de una palabra (subpalabra), un signo de puntuación o incluso un espacio.

Piensa en cómo descompondrías una frase en piezas manejables para un ordenador. En lugar de trabajar con letras individuales (demasiado básico) o palabras completas (habría demasiadas palabras diferentes), los modelos de lenguaje usan «tokens». Por ejemplo, la frase «El perro juega felizmente» podría tokenizarse como: [«El», » perro», » jue», «ga», » feliz», «mente»]. Aquí, «juega» y «felizmente» se han dividido en subpalabras.

Esta tokenización permite a los modelos manejar vocabularios enormes de forma eficiente y entender mejor la estructura de las palabras. Cuando oyes hablar de que un LLM tiene un «límite de contexto de X tokens», se refiere al número máximo de estas piezas de texto que puede procesar a la vez (tanto en la entrada/prompt como en la salida/respuesta).