En estadística, una técnica multivariante que agrupa observaciones en clústeres (conglomerados) de tal manera que las observaciones dentro de un mismo clúster son similares entre sí y diferentes de las observaciones en otros clústeres.

Esta técnica se utiliza principalmente para clasificación exploratoria y para descubrir estructuras ocultas en los datos sin necesidad de etiquetas predefinidas. También es una técnica popular en machine learning para aprendizaje no supervisado.

Objetivos

  • identificación de grupos naturales (encontrar grupos homogéneos dentro de los datos)
  • reducción de la complejidad de los datos (simplificar grandes conjuntos de datos)
  • exploración de patrones (descubrir relaciones y patrones ocultos)
  • validación de hipótesis (confirmar si los datos tienen estructuras grupales previamente esperadas)

Pasos necesarios

  1. Selección de las variables
    • Elegir las variables que mejor representen el fenómeno que se desea analizar.

  2. Normalización de los datos

    • Escalar los datos para evitar que variables con grandes magnitudes dominen el análisis.

  3. Cálculo de la matriz de distancias

    • Medir la similitud o disimilitud entre las observaciones.

    • Métodos comunes incluyen distancia euclidiana, distancia de Manhattan y distancia de Mahalanobis.

  4. Elección del método de agrupación

    • Puede ser agrupación jerárquica o agrupación no jerárquica.

  5. Determinación del número óptimo de conglomerados

    • Usando técnicas como el método del codo, silhouette score o ANOVA.

  6. Interpretación y validación de los resultados

    • Evaluar si los conglomerados obtenidos tienen sentido práctico y son estables.

Sinónimos:
análisis de conglomerados