estadística

Una ciencia formal que estudia conjuntos de datos numéricos para obtener inferencias basadas en las leyes de la probabilidad.

Contenidos mostrar

Descripción

Podemos entender la estadística como la rama de las matemáticas que se encarga de recolectar, organizar, analizar e interpretar datos para extraer conclusiones válidas y tomar decisiones informadas bajo condiciones de incertidumbre.

Procedimientos

Los tres pasos típicos del análisis estadístico son:

recolección de datos
descripción y visualización de datos
obtención de conclusiones

Enfoques

La transición de la estadística de una herramienta de registro a una ciencia de decisión se basó en un intenso debate intelectual entre dos escuelas de pensamiento. Lo que hoy estudiamos en los libros de texto como un sistema unificado es, en realidad, un «híbrido» de dos visiones enfrentadas.

El enfoque inductivo

Para Ronald Fisher, el objetivo de la estadística era la inferencia: descubrir si los datos de un experimento aportaban evidencia suficiente para rechazar una idea.

Fisher introdujo la idea de que debemos trabajar bajo la suposición de que «no hay efecto» (por ejemplo, que una medicina no funciona); es lo que se conoce como hipótesis nula (H0). Su gran invento fue el valor p (p-value), empleado para evaluar la probabilidad de obtener los resultados observados si la $H_0$ fuera cierta; si el $p$ -value es muy bajo (típicamente $< 0.05$ ), Fisher decía que el resultado era «significativo».

Para él, la estadística era una herramienta para los investigadores individuales que buscaban la verdad en sus laboratorios.

El enfoque deductivo

Jerzy Neyman y Egon Pearson criticaron a Fisher por ser poco riguroso. Ellos no buscaban «la verdad», sino establecer reglas de comportamiento para minimizar errores a largo plazo.

Neyman y Pearson introdujeron la distinción de dos errores que hoy es estándar:

Error tipo I ( $alpha$ ): Rechazar la $H_0$ cuando es verdadera (un falso positivo).
Error tipo II ( $beta$ ): No rechazar la $H_0$ cuando es falsa (un falso negativo).

A diferencia de Fisher, ellos consideraban que no podemos rechazar una idea sin tener otra alternativa contra la cual comparar; es decir, debemos contar con una hipótesis alternativa (H1). En su planteamiento, el poder estadístico es un concepto clave para determinar el tamaño que debe tener una muestra para que permita detectar un efecto real.

La síntesis

Lo que usamos hoy en día en las ciencias modernas es una mezcla de ambos enfoques, a menudo llamada NHST (null hypothesis significance testing).

Evolución histórica

El salto a la inferencia (finales del s. XIX)

La estadística moderna nace cuando dejamos de «describir lo que pasó» y empezamos a «estimar lo que no vemos».

Francis Galton y la regresión

Primo de Darwin, Galton quería medir la herencia. Al estudiar la altura de padres e hijos, descubrió que los extremos tienden a volver al promedio. Inventó el concepto de regresión y correlación, las herramientas básicas para entender relaciones entre variables hoy en día.

Karl Pearson

Fue quien sistematizó la disciplina. Creó el Laboratorio Biométrico en Londres y desarrolló la prueba de chi-cuadrado ( $chi^2$ ), que permite saber si los datos observados se ajustan a una teoría o son fruto del azar.

La revolución de las muestras pequeñas (1900-1920)

Antes de este punto, se creía que para que la estadística fuera válida hacían falta miles de datos.

William Sealy Gosset («Student»)

Trabajaba para la cervecera Guinness. Como no podía desperdiciar miles de barriles para hacer pruebas de calidad, desarrolló la distribución t de Student. Esto permitió hacer inferencias válidas con muestras muy pequeñas (de 10 o 20 unidades), algo vital para la medicina y la industria moderna.

La «edad de oro» y el diseño experimental (1920-1950)

En este periodo, la estadística se convierte en el lenguaje universal de la ciencia gracias a una figura dominante.

Ronald A. Fisher

Es considerado el arquitecto de la estadística moderna. En su libro Statistical Methods for Research Workers, introdujo:

El análisis de varianza (ANOVA): Para comparar múltiples grupos a la vez.
La aleatorización: La idea de que, en un experimento (como probar un fármaco), los sujetos deben asignarse al azar para evitar sesgos.
El valor p ( $p$ -value): La medida estándar para decidir si un resultado científico es «significativo».

La consolidación matemática y el teorema del límite central

Durante mediados del siglo XX, matemáticos como Jerzy Neyman o Egon Pearson (hijo de Karl) refinaron las teorías de Fisher, creando el sistema de contraste de hipótesis: la idea de la hipótesis nula ( $H_0$ ) frente a la hipótesis alternativa ( $H_1$ ).

La era informática y bayesiana (1970-actualidad)

La estadística moderna dio un último giro radical con la potencia de cálculo.

Bradley Efron y el bootstrap

En 1979 introdujo métodos de «remuestreo» que permiten hacer estadística compleja mediante simulaciones por ordenador, sin necesidad de fórmulas matemáticas teóricas pesadas.

El resurgimiento bayesiano

Aunque Thomas Bayes vivió en el s. XVIII, su enfoque (que permite actualizar probabilidades a medida que llega nueva información) solo se volvió práctico con los ordenadores modernos. Es la base de los filtros de spam y los algoritmos de inteligencia artificial.

Tipos

Estadística descriptiva

Rama de la estadística cuyo objetivo es estructurar un conjunto de datos para revelar cómo se comporta la muestra estadística en un momento determinado.

La estadística descriptiva se dedica básicamente a la recogida, resumen y caracterización de los datos que se obtienen cuando se observa un determinado fenómeno de masa, aportando un conjunto de indicadores que sintetizan o resumen lo más relevante en relación a dicho fenómeno.¹

La principal diferencia respecto a la estadística inferencial es que se enfoca en el tiempo presente.

Estadística inferencial

Modalidad de la disciplina estadística que utiliza el cálculo de probabilidades para realizar estimaciones sobre el posible comportamiento futuro de un fenómeno.

Es la rama de la estadística que, apoyándose en la teoría de la probabilidad y a partir del estudio descriptivo previo de datos muestrales, efectúa estimaciones, predicciones y otras generalizaciones sobre un conjunto mayor de datos (la población de partida). Su fin es, pues, estimar las características de la población a partir de la información que proporciona una muestra.²

A diferencia de la estadística descriptiva, su foco está puesto en el futuro y por eso se la conoce también como estadística inductiva.

La inferencia estadística pretende llegar a conclusiones acerca del comportamiento del fenómeno objeto de estudio, pero en un sentido amplio. En la mayoría de los casos, dicho fenómeno no podrá observarse de forma exhaustiva, por lo que tendremos que observarlo de forma parcial a través de una muestra. Aquí es cuando aparece la inferencia estadística, pues pretenderá extraer conclusiones sobre la población a partir de dicha observación parcial o muestral.³

Las principales modalidades de estadística inferencial son la prueba de hipótesis y la estimación estadística.

Conceptos relacionados

Dispersión estadística

La dispersión estadística corresponde al grado en que una distribución de datos numéricos se aleja o se acerca a un estadístico central como podría ser, por ejemplo, la media aritmética.

Existen diversas medidas de dispersión; las más habituales son:

rango de dispersión
cuartiles y percentiles
rango intercuartil
desviación estándar

Estadístico

Hablamos de estadístico para referirnos a un valor numérico calculado sobre la base de una muestra estadística y que resume los valores que dicha muestra toma en cierto atributo.

Se diferencia del parámetro poblacional, ya que éste se calcula sobre la población estadística.

Estandarización

Un proceso mediante el cual se transforman los datos de una variable estadística para que tengan ciertas características, típicamente una media igual a 0 y una desviación estándar igual a 1. Esta transformación es útil para comparar variables que originalmente tienen diferentes unidades de medida o escalas. Al estandarizar las variables, se facilita la comparación y se eliminan los efectos de las unidades de medida.

El proceso de estandarización estadística implica la transformación de cada valor de la variable en su valor estándar (valor z o score z).

Explotación

La explotación estadística es el proceso de recopilación, análisis y utilización de la información estadística para obtener conclusiones y tomar decisiones basadas en datos.

Muestra

Una muestra estadística es aquella parte de la población estadística sobre la cual se aplica el análisis para así obtener conclusiones extensibles al resto de dicha población.

Población

La población es el grupo de sujetos, elementos o datos sobre los que se quiere obtener una información estadística.

Rango

El rango estadístico es una medida de la dispersión de los datos. Representa la diferencia entre el menor valor y el mayor valor de un conjunto de datos numéricos.

Símbolo estadístico

Un símbolo estadístico es un símbolo matemático que se utiliza para representar un proceso de cálculo estadístico.

Ejemplos:

μ media poblacional)
X̅ (media muestral)
σ (desviación estándar; también se representa con la letra s)
Σ (operador de sumatoria)
x (variable cuyo valor desconocemos y queremos calcular
i (índice; identifica cada observación de la variable x)
n (número de observaciones)

Variable

Una variable es una característica de una muestra estadística o de una población estadística susceptible de fluctuación, cuya variación puede adoptar diversos valores observables y medibles. Cuando diferentes variables se relacionan entre sí, pueden formar parte de una hipótesis o una teoría.

Existen diversos tipos de variables:

variable cuantitativa, que a su vez puede ser una
- variable continua
- variable discreta
variable cualitativa, con los subtipos de
- variable ordinal
- variable nominal
variable independiente
variable dependiente
variable cardinal
variable dicotómica
variable categórica

Ejemplos

Estudio de mercado

Imaginemos que una empresa tecnológica quiere lanzar un nuevo modelo de auriculares con cancelación de ruido en España y necesita decidir el precio óptimo. Para conseguirlo, la estadística descriptiva y la inferencial trabajarán en conjunto.

Fase descriptiva: Entender la muestra

La empresa realiza una encuesta a 1000 potenciales compradores. En esta etapa, el objetivo es resumir la información recolectada de forma clara.

Medidas de tendencia central: Se calcula que el precio medio que los encuestados están dispuestos a pagar es de 150€.
Distribución de frecuencias: Se crea un histograma para estudiar si la mayoría de la gente se concentra en los 150€ o si hay grupos separados (por ejemplo, unos que quieren lujo a 300€ y otros, ahorro a 50€).
Visualización: Se utilizan diagramas de caja (boxplot) para identificar valores atípicos (personas que dicen que pagarían 2000€, lo cual podría sesgar el promedio).

Fase inferencial: Saltar a la población

La empresa no solo quiere saber que piensan esas 1000 personas encuestadas, sino que pensarán millones de posibles clientes en todo el país.

Intervalos de confianza: El análisis estadístico no dirá «el precio es 150€». Dirá: «Tenemos un 95% de confianza en que el precio que el mercado aceptará está entre 145€ y 155€».
Contraste de hipótesis:
- Hipótesis nula ( $H_0$ ): «El nuevo diseño no aumenta la intención de compra respecto al modelo anterior».
- Valor p: Si tras mostrar el diseño el valor $p$ es 0.02, la empresa rechaza la $H_0$ . Hay evidencia estadística de que el nuevo diseño sí atrae más clientes.
Segmentación (ANOVA): Se utiliza el análisis de varianza para ver si hay diferencias significativas entre grupos (por ejemplo, si los jóvenes de 20 años están dispuestos a pagar significativamente mas que las personas mayores de 50).

La toma de decisión

Finalmente, la estadística permite pasar del dato a la acción:

Si el error tipo I ( $alpha$ ) es bajo: La empresa lanza el producto, confiando en que la preferencia detectada es real y no fruto del azar.
Si la correlación es alta: Si se observa que a mayor duración de batería, mayor es el precio aceptado, la empresa invertirá mas en ingeniería de baterías que en estética.

Ensayo clínico

En un ensayo clínico para una vacuna, la estadística ayuda a obtener evidencia de eficacia y seguridad.

Fase descriptiva: Los datos brutos del ensayo

Imaginemos un ensayo con 40000 voluntarios. Se dividen en dos grupos: 20000 reciben la vacuna y 20000 reciben un placebo.

Tabulación de eventos: Se registran cuantos contagios ocurren en cada grupo. Por ejemplo: 10 contagios en el grupo vacunado y 190 en el grupo placebo.
Proporciones y porcentajes: Se describe la tasa de incidencia. Aquí se calcula la eficacia relativa:

text{Eficacia} = left(1 - frac{text{Tasa en vacunados}}{text{Tasa en placebo}}right) times 100

Seguridad: Se describen los efectos secundarios (fiebre, dolor de brazo) usando medidas de frecuencia para ver qué es común y qué es raro.

Fase inferencial: El rigor científico

Aquí es donde entran los personajes que mencionamos antes (Fisher, Gosset, Neyman-Pearson) para asegurar que los resultados no sean una coincidencia.

El papel del valor p ( $p$ -value): El equipo estadístico calcula la probabilidad de que esa diferencia de contagios (10 vs 190) haya ocurrido por simple azar. Si el $p < 0.0001$ , se concluye que la vacuna funciona.
Intervalos de confianza: No basta con determinar «95% de eficacia»; la estadística moderna exige un rango. Se dirá: «La eficacia es del 95%, con un intervalo de confianza al 95% de [92%, 97%]». Si el límite inferior es muy bajo, la vacuna no se aprueba.
Análisis de supervivencia (curvas de Kaplan-Meier): Se utiliza para visualizar el tiempo que tardan los participantes en contagiarse. Si la curva del grupo vacunado se mantiene «plana» mientras la del placebo cae rápidamente, la evidencia visual de protección es clara.

El control del error (Neyman-Pearson)

En medicina, los errores tienen consecuencias críticas:

Error tipo I ( $alpha$ ): Aprobar una vacuna que no funciona. Es el error más protegido; se suele fijar un nivel de exigencia muy alto (usualmente 0.05 o menos).
Error tipo II ( $beta$ ): Rechazar una vacuna que sí funciona. Esto sería una tragedia de salud pública, por lo que el estudio debe tener suficiente poder estadístico (una muestra grande) para no descartar una buena solución por falta de datos.

Intención de voto

En la política moderna, la estadística no solo mide la opinión, sino que intenta predecir el comportamiento humano en una de las situaciones de mayor incertidumbre: la urna de votación.

Imaginemos un escenario donde un país se prepara para elegir a su siguiente gobierno entre dos candidatos principales: Candidato A y Candidato B.

Fase descriptiva: La fotografía del momento

Se realiza una encuesta telefónica y presencial a 2500 ciudadanos seleccionados de forma representativa.

Frecuencias relativas: Se calcula el porcentaje directo de respuestas. Por ejemplo: 42% para el Candidato A, 38% para el Candidato B y 20% de indecisos/blanco.
Cruce de variables (tablas de contingencia): Se analiza cómo votan diferentes sectores. ¿El Candidato A es más fuerte en zonas urbanas o rurales? ¿Qué porcentaje de mujeres apoya al Candidato B?
Medidas de dispersión: Se observa si el voto está concentrado geográficamente o si es uniforme en todo el país.

Fase inferencial: Del sondeo a la urna

Aquí es donde los encuestadores intentan predecir qué pasará con los millones de votantes reales a partir de la observación de los 2500 encuestados.

Margen de error e intervalos de confianza: Ningún análisis estadístico serio diría «El Candidato A tiene el 42%». Dirá: «El Candidato A tiene un 42% con un margen de error de ±2%». Esto significa que el apoyo real probablemente esté entre el 40% y el 44%.
El problema del sesgo y la «cocina» (ajustes): Aquí se aplican modelos para corregir el sesgo de no respuesta (gente que no coge el teléfono) o el voto oculto (gente que miente sobre su voto por presión social). Se usan registros históricos para «pesar» la muestra.
Nivel de significancia ( $p$ -value): Si la diferencia entre candidatos es muy estrecha (ej. 41% vs 40%), se calcula si esa diferencia es estadísticamente significativa o si es tan pequeña que cae dentro del «ruido» del azar.

El control del error y la predicción (Neyman-Pearson)

En política, los errores de predicción tienen un alto coste reputacional para las encuestadoras.

Error tipo I (falso positivo): Predecir que un candidato ganará cuando en realidad perderá. Esto ocurrió en casos famosos como el Brexit o las elecciones de EEUU en 2016, donde los modelos infravaloraron ciertos segmentos de la población.
Poder estadístico: Para detectar una victoria ajustada (por ejemplo, por 0.5 puntos), se necesita una muestra mucho más grande y refinada que para una victoria por goleada.
Simulaciones de Montecarlo: Los análisis estadísticos modernos corren miles de «elecciones virtuales» en ordenador, variando ligeramente los datos para ver en cuántos de esos escenarios gana cada candidato. Es lo que vemos en medios especializados para dar una «probabilidad de victoria».

IA y reconocimiento biométrico

Para la IA, mi cara o mi voz no son imágenes o sonidos, sino una montaña de datos estadísticos. El reconocimiento biométrico (como el FaceID o los asistentes de voz) es, en esencia, una aplicación masiva de los conceptos de Pearson, Fisher y Neyman-Pearson llevados a la era de la informática.

Así es como mi teléfono inteligente usa la estadística moderna para saber quién soy.

Fase descriptiva: La creación de la firma digital

Cuando configuro por primera vez mi cara o mi voz, el dispositivo no guarda una foto o un audio; realiza una descripción estadística de mis rasgos.

Extracción de atributos (landmarks): El sistema identifica puntos clave (la distancia entre mis ojos, la curvatura de mis labios o la frecuencia de mi voz).
Normalización: La estadística descriptiva se usa para «limpiar» los datos. Si el escaneo lo hago con poca luz o con ruido de fondo, el sistema ajusta la media y la varianza de la señal para que los datos sean comparables en cualquier situación.
Vectores de características (embeddings): Mis rasgos se convierten en una lista de números (un vector). Si la distancia entre mis ojos es $x$ y el ancho de mi nariz es $y$ , mi cara es un punto en un mapa de miles de dimensiones.

Fase inferencial: El desafío de la identidad

Cada vez que intento desbloquear el teléfono, el sistema realiza una inferencia estadística en milisegundos. El teléfono se pregunta: «Basándome en esta muestra de datos actual, ¿qué probabilidad hay de que este rostro sea el de la dueña del teléfono?».

Similitud de coseno y distancia euclidiana: El sistema mide cuan cerca está el «punto» de mi cara actual del «punto» que guardó en la memoria. No busca una coincidencia exacta (eso sería imposible, pues siempre cambiamos de luz o ángulo), sino una proximidad estadística.
Modelos probabilísticos: Se utilizan algoritmos como la regresión logística o las redes neuronales para asignar una probabilidad. Si la probabilidad de que sea yo es del 99.2%, el teléfono se desbloquea.
Clasificación bayesiana: El sistema utiliza información previa para mejorar la decisión. Si el teléfono se acaba de desbloquear con mi código, la «probabilidad previa» de que la cara que tiene delante sea la mía aumenta.

El control del error (Neyman-Pearson en el bolsillo)

Aquí es donde la teoría de los dos errores se vuelve crítica para la seguridad.

Falso positivo (error tipo I): El teléfono se desbloquea con la cara de un extraño. En IA, esto se llama false acceptance rate (FAR). Para evitarlo, los ingenieros ajustan el «umbral de decisión» de forma muy estricta (usando un nivel de significancia $alpha$ extremadamente pequeño).
Falso negativo (error tipo II): El teléfono no me reconoce (porque llevo gafas o acabo de despertar, por ejemplo). Esto es un caso de false rejection rate (FRR).

Anuncios en redes sociales

En el mundo de las redes sociales, la publicidad es un experimento estadístico masivo que ocurre en tiempo real. Algoritmos inspirados en las teorías de Fisher y Pearson deciden qué anuncio mostrarte con base en la probabilidad de que hagas clic.

Usemos el ejemplo de una marca de zapatillas deportivas sostenibles que quiere anunciarse en Instagram.

Fase descriptiva: Perfilado y segmentación

Antes de mostrar el anuncio, la plataforma organiza los datos de miles de millones de usuarios para crear perfiles.

Agrupamiento (clustering): El sistema utiliza estadística descriptiva para agrupar usuarios. Si has dado «like» a fotos de naturaleza, sigues a marcas veganas y vives en ciudades grandes, te asigna al clúster de «interés en sostenibilidad».
Análisis de correlación: Los analistas observan qué variables están relacionadas. Por ejemplo, descubren que hay una fuerte correlación positiva entre los usuarios que escuchan podcasts de ecología y quienes compran calzado de marca.
Métricas de resumen: La marca revisa sus campañas anteriores: el CTR promedio fue del 1.5% y el gasto medio por cliente fue de 80€.

Fase inferencial: El test A/B

Aquí es donde aplicamos directamente el diseño de experimentos de Ronald Fisher. La marca no sabe qué anuncio funcionará mejor, así que hace un experimento aleatorizado.

Configuración del experimento: Se crean dos versiones del anuncio:
- Anuncio A: Enfocado en el diseño y la moda.
- Anuncio B: Enfocado en el impacto ecológico y materiales reciclados.
Inferencia en tiempo real: El algoritmo muestra el Anuncio A a 5000 personas y el Anuncio B a otras 5000 de forma aleatoria.
Contraste de hipótesis:
- Hipótesis nula (H0): No hay diferencia de rendimiento entre ambos anuncios.
- Valor p: Si el Anuncio B genera un 4% de clics y el A solo un 1%, el sistema calcula el valor p. Si $p < 0.01$ , el algoritmo infiere que la diferencia no es casualidad y que el enfoque ecológico es realmente más efectivo para ese público.

El control del error y la optimización (Neyman-Pearson)

En publicidad digital, el coste de los errores se mide en dinero desperdiciado.

Error tipo I (falso positivo): El sistema cree que un anuncio es ganador por simple azar y gasta todo el presupuesto en él, cuando en realidad no atrae ventas reales.
Modelos de atribución (bayesianos): Las plataformas modernas usan estadística bayesiana para actualizar constantemente la probabilidad de éxito. Si un usuario hace clic pero no compra, el sistema «aprende» y ajusta la probabilidad de mostrar ese anuncio a perfiles similares.
Poder estadístico: Para que la marca esté segura de que el Anuncio B es mejor, necesita que la muestra sea lo suficientemente grande. Si solo lo muestra a 10 personas, el poder estadístico es bajo y cualquier conclusión sería arriesgada.

Bibliografía recomendada

Gamero Buron, C. (2023). Estadística I: Elementos de estadística descriptiva y de teoría de la probabilídad. UMA Editorial.

Garcia Ordaz, F., García del Hoyo, J. J. y González Galán, M. D. (2020). Estadística y métodos cuantitativos I. Universidad de Huelva.

Recursos en línea

Enlaces

F. García Ordaz, J.J. García del Hoyo y M.D. González Galán, Estadística y métodos cuantitativos I. Huelva, Universidad de Huelva, 2021, p. 20.
Carlos Gamero Burón, Elementos de Estadística Descriptiva y de Teoría de la Probabilidad. Málaga, UMA Editorial, 2023, p. 23.
F. García Ordaz, J.J. García del Hoyo y M.D. González Galán, Estadística y Métodos Cuantitativos I. Huelva, Universidad de Huelva, 2021, p. 20.