Descripción

Típicamente, un dataset se organiza en un formato tabular, similar a una o una tabla de base de datos.

Estructura

  • Filas: Representan observaciones (registros o instancias), como una persona individual, una transacción o una medición.
  • Columnas: Representan (atributos o features), que son las características o propiedades que se miden o registran para cada observación (por ejemplo: nombre, edad, precio, temperatura).

Función

Son el fundamento de campos como el aprendizaje automático, la estadística y el . Los datasets se utilizan para:

  • Entrenar modelos: En machine learning, un modelo aprende patrones a partir de un dataset de entrenamiento.
  • Realizar análisis: En estadística y análisis de datos los datasets se usan para encontrar tendencias o correlaciones y obtener información.
  • Visualización: Se utilizan para crear gráficos y representaciones visuales.

Herramientas

La elección de la tecnología para crear o administrar datasets depende mucho del tamaño, el formato y el entorno de trabajo (local o en la nube).

A continuación, una lista breve de las TIC más habituales, agrupadas por su función principal.

Análisis y visualización

Las hojas de cálculo y las plataformas de elaboración de gráficos e informes son valiosas herramientas de gestión de datasets.

Lenguajes de programación

Estos lenguajes, junto con sus librerías, son las herramientas más potentes para la creación, manipulación y limpieza (data wrangling) de datasets.

Sistemas de bases de datos

Son las herramientas adecuadas para la administración de datos masivos o de conjuntos de datos dinámicos que requieren ser actualizados constantemente.

Ejemplos

Tipo de dataset Contenido típico
Tabular Datos de clientes, registros de ventas, información de censo.
Series de tiempo Precios de acciones a lo largo del tiempo, lecturas de sensores por hora.
Imágenes Colección de fotos etiquetadas (p.ej., para clasificación de objetos).
Texto Cuerpos de documentos o transcripciones (p.ej., para análisis de sentimiento).

El Iris Dataset o Dataset de Fisher es quizás el conjunto de datos más famoso y utilizado en el mundo del aprendizaje automático y la estadística. Se trata de un conjunto de datos multivariables introducido por el estadístico y biólogo británico Ronald Fisher en 1936.

Estructura

  • Observaciones (filas): Contiene 150 en total.
  • Variables (columnas): Tiene 5 atributos (características) por :
    1. Longitud del sépalo (Sepal Length) en cm.
    2. Ancho del sépalo (Sepal Width) en cm.
    3. Longitud del pétalo (Petal Length) en cm.
    4. Ancho del pétalo (Petal Width) en cm.
    5. Especie (clase): La flor de Iris a la que pertenece la muestra.

El problema de clasificación

El objetivo principal de este dataset es la clasificación. Las 150 muestras están divididas equitativamente en tres especies diferentes de flores Iris (50 muestras de cada una):

  1. Iris setosa
  2. Iris versicolor
  3. Iris virginica

El desafío es clasificar una nueva flor en una de estas tres especies basándose únicamente en las cuatro medidas numéricas (longitud/ancho de sépalo y pétalo).

¿Por qué es tan famoso?

  • Simplicidad: Es pequeño, limpio y fácil de entender. Es el punto de partida ideal para principiantes en machine learning.
  • Referencia estándar: Sirve como un punto de referencia (benchmark) común para probar y comparar el rendimiento de nuevos algoritmos de clasificación, como el Perceptrón, Support Vector Machines o los Árboles de decisión.
  • Visualización clara: Sus características permiten ver de forma gráfica que una de las especies (Iris setosa) es linealmente separable de las otras dos, mientras que la separación entre versicolor y virginica es más compleja, lo que ilustra bien los diferentes retos en la clasificación.

El aprendizaje de un modelo de machine learning

El objetivo para un algoritmo de clasificación es usar las cuatro medidas numéricas (las características o features) para predecir correctamente la especie (la etiqueta o target).

  • Observación clave: Las flores Iris-setosa tienden a tener pétalos y sépalos mucho más pequeños que las otras dos, lo que facilita su separación en un modelo.

El MNIST (Modified National Institute of Standards and Technology) es un gran conjunto de datos de imágenes de dígitos escritos a mano (del 0 al 9).

Propósito

El MNIST se utiliza como el «Hola Mundo» (típicamente, primera introducción a un nuevo lenguaje de programación) en el campo del reconocimiento de patrones y la clasificación de imágenes. El objetivo es entrenar un modelo de machine learning (especialmente redes neuronales) para que pueda identificar correctamente qué dígito está representado en cada imagen.

Estructura

  • Imágenes: Contiene 60.000 imágenes para el conjunto de entrenamiento y 10.000 imágenes para el conjunto de prueba.
  • Formato: Cada imagen es una cuadrícula de 28×28 píxeles en escala de grises.
  • Datos: Cada píxel tiene un valor de 0 a 255, que representa su intensidad (0 es blanco, 255 es negro).

Importancia histórica

El MNIST ha jugado un papel crucial en el desarrollo de las redes neuronales convolucionales (CNN) y el aprendizaje profundo (deep learning).

Al ser un dataset estandarizado y relativamente sencillo (pero no trivial), ha permitido a investigadores y desarrolladores:

  • Probar la eficacia de nuevos algoritmos de redes neuronales.
  • Comparar el rendimiento de diferentes arquitecturas de modelos.
  • Sirve como una excelente herramienta de aprendizaje inicial para cualquiera que comience a trabajar con visión por computadora.
Sinónimos:
dataset