Una ciencia formal que estudia conjuntos de datos numéricos para obtener inferencias basadas en las leyes de la probabilidad.
Descripción
Podemos entender la estadística como la rama de las matemáticas que se encarga de recolectar, organizar, analizar e interpretar datos para extraer conclusiones válidas y tomar decisiones informadas bajo condiciones de incertidumbre.
Procedimientos
Los tres pasos típicos del análisis estadístico son:
- recolección de datos
- descripción y visualización de datos
- obtención de conclusiones
Enfoques
La transición de la estadística de una herramienta de registro a una ciencia de decisión se basó en un intenso debate intelectual entre dos escuelas de pensamiento. Lo que hoy estudiamos en los libros de texto como un sistema unificado es, en realidad, un «híbrido» de dos visiones enfrentadas.
El enfoque inductivo
Para Ronald Fisher, el objetivo de la estadística era la inferencia: descubrir si los datos de un experimento aportaban evidencia suficiente para rechazar una idea.
Fisher introdujo la idea de que debemos trabajar bajo la suposición de que «no hay efecto» (por ejemplo, que una medicina no funciona); es lo que se conoce como hipótesis nula (H0). Su gran invento fue el valor p (p-value), empleado para evaluar la probabilidad de obtener los resultados observados si la fuera cierta; si el -value es muy bajo (típicamente ), Fisher decía que el resultado era «significativo».
Para él, la estadística era una herramienta para los investigadores individuales que buscaban la verdad en sus laboratorios.
El enfoque deductivo
Jerzy Neyman y Egon Pearson criticaron a Fisher por ser poco riguroso. Ellos no buscaban «la verdad», sino establecer reglas de comportamiento para minimizar errores a largo plazo.
Neyman y Pearson introdujeron la distinción de dos errores que hoy es estándar:
- Error tipo I (): Rechazar la cuando es verdadera (un falso positivo).
- Error tipo II (): No rechazar la cuando es falsa (un falso negativo).
A diferencia de Fisher, ellos consideraban que no podemos rechazar una idea sin tener otra alternativa contra la cual comparar; es decir, debemos contar con una hipótesis alternativa (H1). En su planteamiento, el poder estadístico es un concepto clave para determinar el tamaño que debe tener una muestra para que permita detectar un efecto real.
La síntesis
Lo que usamos hoy en día en las ciencias modernas es una mezcla de ambos enfoques, a menudo llamada NHST (null hypothesis significance testing).
Evolución histórica
El salto a la inferencia (finales del s. XIX)
La estadística moderna nace cuando dejamos de «describir lo que pasó» y empezamos a «estimar lo que no vemos».
Francis Galton y la regresión
Primo de Darwin, Galton quería medir la herencia. Al estudiar la altura de padres e hijos, descubrió que los extremos tienden a volver al promedio. Inventó el concepto de regresión y correlación, las herramientas básicas para entender relaciones entre variables hoy en día.
Karl Pearson
Fue quien sistematizó la disciplina. Creó el Laboratorio Biométrico en Londres y desarrolló la prueba de chi-cuadrado (), que permite saber si los datos observados se ajustan a una teoría o son fruto del azar.
La revolución de las muestras pequeñas (1900-1920)
Antes de este punto, se creía que para que la estadística fuera válida hacían falta miles de datos.
William Sealy Gosset («Student»)
Trabajaba para la cervecera Guinness. Como no podía desperdiciar miles de barriles para hacer pruebas de calidad, desarrolló la distribución t de Student. Esto permitió hacer inferencias válidas con muestras muy pequeñas (de 10 o 20 unidades), algo vital para la medicina y la industria moderna.
La «edad de oro» y el diseño experimental (1920-1950)
En este periodo, la estadística se convierte en el lenguaje universal de la ciencia gracias a una figura dominante.
Ronald A. Fisher
Es considerado el arquitecto de la estadística moderna. En su libro Statistical Methods for Research Workers, introdujo:
- El análisis de varianza (ANOVA): Para comparar múltiples grupos a la vez.
- La aleatorización: La idea de que, en un experimento (como probar un fármaco), los sujetos deben asignarse al azar para evitar sesgos.
- El valor p (-value): La medida estándar para decidir si un resultado científico es «significativo».
La consolidación matemática y el teorema del límite central
Durante mediados del siglo XX, matemáticos como Jerzy Neyman o Egon Pearson (hijo de Karl) refinaron las teorías de Fisher, creando el sistema de contraste de hipótesis: la idea de la hipótesis nula () frente a la hipótesis alternativa ().
La era informática y bayesiana (1970-actualidad)
La estadística moderna dio un último giro radical con la potencia de cálculo.
Bradley Efron y el bootstrap
En 1979 introdujo métodos de «remuestreo» que permiten hacer estadística compleja mediante simulaciones por ordenador, sin necesidad de fórmulas matemáticas teóricas pesadas.
El resurgimiento bayesiano
Aunque Thomas Bayes vivió en el s. XVIII, su enfoque (que permite actualizar probabilidades a medida que llega nueva información) solo se volvió práctico con los ordenadores modernos. Es la base de los filtros de spam y los algoritmos de inteligencia artificial.
Tipos
Estadística descriptiva
Rama de la estadística cuyo objetivo es estructurar un conjunto de datos para revelar cómo se comporta la muestra estadística en un momento determinado.
La estadística descriptiva se dedica básicamente a la recogida, resumen y caracterización de los datos que se obtienen cuando se observa un determinado fenómeno de masa, aportando un conjunto de indicadores que sintetizan o resumen lo más relevante en relación a dicho fenómeno.7
La principal diferencia respecto a la estadística inferencial es que se enfoca en el tiempo presente.
Estadística inferencial
Modalidad de la disciplina estadística que utiliza el cálculo de probabilidades para realizar estimaciones sobre el posible comportamiento futuro de un fenómeno.
Es la rama de la estadística que, apoyándose en la teoría de la probabilidad y a partir del estudio descriptivo previo de datos muestrales, efectúa estimaciones, predicciones y otras generalizaciones sobre un conjunto mayor de datos (la población de partida). Su fin es, pues, estimar las características de la población a partir de la información que proporciona una muestra.8
A diferencia de la estadística descriptiva, su foco está puesto en el futuro y por eso se la conoce también como estadística inductiva.
La inferencia estadística pretende llegar a conclusiones acerca del comportamiento del fenómeno objeto de estudio, pero en un sentido amplio. En la mayoría de los casos, dicho fenómeno no podrá observarse de forma exhaustiva, por lo que tendremos que observarlo de forma parcial a través de una muestra. Aquí es cuando aparece la inferencia estadística, pues pretenderá extraer conclusiones sobre la población a partir de dicha observación parcial o muestral.9
Las principales modalidades de estadística inferencial son la prueba de hipótesis y la estimación estadística.
Conceptos relacionados
Ejemplos
Bibliografía recomendada
Gamero Buron, C. (2023). Estadística I: Elementos de estadística descriptiva y de teoría de la probabilídad. UMA Editorial.
Garcia Ordaz, F., García del Hoyo, J. J. y González Galán, M. D. (2020). Estadística y métodos cuantitativos I. Universidad de Huelva.
Recursos en línea
Fuentes de datos
- F. García Ordaz, J.J. García del Hoyo y M.D. González Galán, Estadística y métodos cuantitativos I. Huelva, Universidad de Huelva, 2021, p. 20.
- Carlos Gamero Burón, Elementos de Estadística Descriptiva y de Teoría de la Probabilidad. Málaga, UMA Editorial, 2023, p. 23.
- F. García Ordaz, J.J. García del Hoyo y M.D. González Galán, Estadística y Métodos Cuantitativos I. Huelva, Universidad de Huelva, 2021, p. 20.
- F. García Ordaz, J.J. García del Hoyo y M.D. González Galán, Estadística y métodos cuantitativos I. Huelva, Universidad de Huelva, 2021, p. 20.
- Carlos Gamero Burón, Elementos de Estadística Descriptiva y de Teoría de la Probabilidad. Málaga, UMA Editorial, 2023, p. 23.
- F. García Ordaz, J.J. García del Hoyo y M.D. González Galán, Estadística y Métodos Cuantitativos I. Huelva, Universidad de Huelva, 2021, p. 20.
- F. García Ordaz, J.J. García del Hoyo y M.D. González Galán, Estadística y métodos cuantitativos I. Huelva, Universidad de Huelva, 2021, p. 20.
- Carlos Gamero Burón, Elementos de Estadística Descriptiva y de Teoría de la Probabilidad. Málaga, UMA Editorial, 2023, p. 23.
- F. García Ordaz, J.J. García del Hoyo y M.D. González Galán, Estadística y Métodos Cuantitativos I. Huelva, Universidad de Huelva, 2021, p. 20.