Un Dataset (conjunto de datos) es, simplemente, la colección de información que se utiliza para entrenar y/o evaluar un modelo de Inteligencia Artificial. Es el material de estudio fundamental para que la IA pueda aprender.

Piensa en ello como los libros de texto, los ejercicios resueltos y los exámenes de prueba que usaría un estudiante. Un dataset puede contener casi cualquier tipo de información estructurada o no estructurada: tablas con números, colecciones de imágenes, grabaciones de audio, textos de artículos, datos de sensores, etc.

La calidad y la cantidad del dataset son cruciales. Si los datos son erróneos, incompletos o sesgados (no representan bien la realidad), la IA aprenderá mal y sus resultados no serán fiables. Por eso, la preparación y selección de un buen dataset es uno de los pasos más importantes en cualquier proyecto de IA.