En el contexto de la IA y los sistemas informáticos en general, la Latencia se refiere al tiempo de retraso entre el momento en que se envía una solicitud (input) a un sistema y el momento en que se recibe la respuesta (output).

Imagina que le haces una pregunta a un chatbot. La latencia es el tiempo que transcurre desde que pulsas «Enviar» hasta que ves aparecer la respuesta en la pantalla. Este tiempo incluye el viaje de tu pregunta por la red, el tiempo que tarda la IA en procesar la solicitud y generar la respuesta (tiempo de inferencia), y el viaje de la respuesta de vuelta a tu dispositivo.

Una latencia baja es deseable para aplicaciones interactivas como los chatbots o los juegos, donde las respuestas rápidas mejoran la experiencia del usuario. Una latencia alta puede hacer que la aplicación se sienta lenta o poco receptiva. Reducir la latencia es un objetivo importante en la optimización de los sistemas de IA, especialmente para aquellos que necesitan operar en tiempo real.