Una colección de datos relacionados que se considera como una sola unidad.
Descripción
Típicamente, un dataset se organiza en un formato tabular, similar a una hoja de cálculo o una tabla de base de datos.
Estructura
- Filas: Representan observaciones (registros o instancias), como una persona individual, una transacción o una medición.
- Columnas: Representan variables (atributos o features), que son las características o propiedades que se miden o registran para cada observación (por ejemplo: nombre, edad, precio, temperatura).
Función
Son el fundamento de campos como el aprendizaje automático, la estadística y el análisis de datos. Los datasets se utilizan para:
- Entrenar modelos: En machine learning, un modelo aprende patrones a partir de un dataset de entrenamiento.
- Realizar análisis: En estadística y análisis de datos los datasets se usan para encontrar tendencias o correlaciones y obtener información.
- Visualización: Se utilizan para crear gráficos y representaciones visuales.
Herramientas
La elección de la tecnología para crear o administrar datasets depende mucho del tamaño, el formato y el entorno de trabajo (local o en la nube).
A continuación, una lista breve de las TIC más habituales, agrupadas por su función principal.
Análisis y visualización
Las hojas de cálculo y las plataformas de elaboración de gráficos e informes son valiosas herramientas de gestión de datasets.
Lenguajes de programación
Estos lenguajes, junto con sus librerías, son las herramientas más potentes para la creación, manipulación y limpieza (data wrangling) de datasets.
Sistemas de bases de datos
Son las herramientas adecuadas para la administración de datos masivos o de conjuntos de datos dinámicos que requieren ser actualizados constantemente.