En estadística, una técnica multivariante que agrupa observaciones en clústeres (conglomerados) de tal manera que las observaciones dentro de un mismo clúster son similares entre sí y diferentes de las observaciones en otros clústeres.
Esta técnica se utiliza principalmente para clasificación exploratoria y para descubrir estructuras ocultas en los datos sin necesidad de etiquetas predefinidas. También es una técnica popular en machine learning para aprendizaje no supervisado.
Objetivos
- identificación de grupos naturales (encontrar grupos homogéneos dentro de los datos)
- reducción de la complejidad de los datos (simplificar grandes conjuntos de datos)
- exploración de patrones (descubrir relaciones y patrones ocultos)
- validación de hipótesis (confirmar si los datos tienen estructuras grupales previamente esperadas)
Pasos necesarios
- Selección de las variables
-
Elegir las variables que mejor representen el fenómeno que se desea analizar.
-
-
Normalización de los datos
-
Escalar los datos para evitar que variables con grandes magnitudes dominen el análisis.
-
-
Cálculo de la matriz de distancias
-
Medir la similitud o disimilitud entre las observaciones.
-
Métodos comunes incluyen distancia euclidiana, distancia de Manhattan y distancia de Mahalanobis.
-
-
Elección del método de agrupación
-
Puede ser agrupación jerárquica o agrupación no jerárquica.
-
-
Determinación del número óptimo de conglomerados
-
Usando técnicas como el método del codo, silhouette score o ANOVA.
-
-
Interpretación y validación de los resultados
-
Evaluar si los conglomerados obtenidos tienen sentido práctico y son estables.
-