Tema 4 Introducción al contraste de hipótesis

1 Introducción

\(\tiny \blacksquare \,\,\) Si bien la teoría de la estimación aborda el problema de cómo asignar valores a los parámetros poblacionales desconocidos,
la teoría de los contrastes de hipótesis se centra en cómo tomar decisiones basadas en la información que aportan los datos.

Para ello, habrá que transformar una pregunta clínica en una hipótesis estadística.

Ejemplo: efectividad de un tratamiento

En una unidad del hospital se implementa un nuevo protocolo de cambios posturales y cuidados de la piel, diseñado por el equipo de Enfermería para reducir la aparición de úlceras por presión (UPP) en pacientes encamados.
Tras varias semanas, parece que los pacientes desarrollan menos UPP que antes, pero surge la pregunta clave:

¿Esa reducción se debe realmente al protocolo… o simplemente al azar?

El equipo quiere tomar una decisión informada:

Si el protocolo funciona, podría extenderse a todo el hospital.
Si no funciona, aplicar un protocolo ineficaz consumiría tiempo y esfuerzo sin mejorar la seguridad del paciente.

Para responder con rigor, se recoge información antes y después de la implantación y se compara la proporción de UPP en ambos periodos.

Aquí es donde entra en juego la estadística inferencial y, en particular, los contrastes de hipótesis.

Transformamos la pregunta clínica en una hipótesis estadística: Llamamos \(\small p_{\text{pre}}\) y \(\small p_{\text{post}}\) a las proporciones de UPP observadas antes y después del protocolo. La hipótesis a aceptar, o rechazar, es entonces:

\[ \large \pi_{\text{pre}}=\pi_{\text{post}} \]
La teoría de los contrastes de hipótesis aporta las herramientas que van a permitir fundamentar las decisiones en la evidencia.

2 Las hipótesis estadísticas

Un test, o contraste de hipótesis es un procedimiento estadístico mediante el cual, a partir de una muestra aleatoria obtenida de una población, se evalúa la evidencia disponible para decidir entre dos afirmaciones excluyentes sobre uno, o varios, parámetros poblacionales:

Hipótesis nula (H₀): afirma un valor o condición específica del/los parámetro/s. Por ejemplo, igualdad, ausencia de efecto o ausencia de diferencia.
Hipótesis alternativa (H₁): afirma una diferencia, efecto o desviación que es complementaria al enunciado de la hipótesis nula.

Preguntas de investigación e hipótesis estadísticas

Pregunta clínica	Parámetro(s) implicado(s)	Hipótesis estadísticas
¿La media de hemoglobina en los pacientes tratados es significativamente mayor o igual a 12 g/dL?	Media poblacional: \(\mu\)	\(\small \begin{cases} \text{H}_0: & \mu \le 12 \\ \text{H}_1: & \mu > 12\end{cases}\)
¿El programa de alta enfermera avanzada reduce la proporción de reingresos por debajo del 25% histórico?	Proporción poblacional: \(\pi\)	\(\small \begin{cases} \text{H}_0: & \pi \ge 0.25 \\ \text{H}_1: & \pi < 0.25 \end{cases}\)
¿Existen diferencias en la presión arterial media entre dos tratamientos hipotensores alternativos?	Medias de dos poblaciones: \(\mu_1\) y \(\mu_2\)	\(\small \begin{cases} \text{H}_0: & \mu_1 = \mu_2 \\ \text{H}_1: & \mu_1 \ne \mu_2 \end{cases}\)
¿Reduce los niveles de glucosa en ayunas la adherencia a un programa de actividad física supervisada?	Media de las diferencias pre-post: \(\mu_{\text{dif}}\)	\(\small \begin{cases} \text{H}_0: & \mu_{\text{dif}} \le 0 \\ \text{H}_1: & \mu_{\text{dif}} > 0 \end{cases}\)
La tasa de infección de herida quirúrgica ¿es igual en dos unidades hospitalarias?	Proporciones poblacionales \(\pi_1\) y \(\pi_2\)	\(\small \begin{cases} \text{H}_0: &\pi_1 =\pi_2 \\ \text{H}_1: & \pi_1 \ne \pi_2 \end{cases}\)
La variabilidad de la glucemia en ayunas ¿es la misma en pacientes tratados con dos tipos distintos de insulina?	Varianzas poblacionales \(\sigma_1^2\) y \(\sigma_2^2\)	\(\small \begin{cases} \text{H}_0: & \sigma_1^2 = \sigma_2^2 \\ \text{H}_1: & \sigma_1^2 \ne \sigma_2^2 \end{cases}\)

Notación

En adelante, la letra griega omega minúscula, \(\small \omega\), representa a un parámetro genérico de una población, como pueden ser la media (\(\small \mu\)), la proporción (\(\small \pi\)) o la varianza (\(\small \sigma\)).
El valor \(\small \omega_0\) indica un valor numérico concreto propuesto para ese parámetro en la hipótesis nula.
Cuando se comparan dos poblaciones, se emplean los símbolos \(\small \omega_1\) y \(\small \omega_2\) para referirse al valor del parámetro en cada una de ellas.
Si una de las poblaciones corresponde a pacientes que reciben un tratamiento y la otra a un grupo control, es habitual denotar los parámetros como \(\small \omega_\text{tto}\) y \(\small \omega_\text{ctrl}\), respectivamente. Cuando se comparan situaciones antes y después de aplicar un tratamiento, se suele usar la terminología pre-post: \(\small \omega_\text{pre}\), \(\,\small \omega_\text{post}\).

Test bilaterales y unilaterales

La elección depende de la pregunta clínica, no de los datos.

Test bilateral (dos colas)

Se usa cuando buscamos cualquier diferencia, sin dirección específica.
- Hipótesis nula: en general, contiene siempre el signo “\(=\)”
- Hipótesis alternativa: es la negación de la hipótesis nula, por tanto contiene el signo “\(\ne\)”

\[ \begin{cases} \text{H}_0: & \omega = \omega_0 \\ \text{H}_1: & \omega \ne \omega_0 \end{cases}, \qquad \begin{cases} \text{H}_0: & \omega_1 = \omega_2 \\ \text{H}_1: & \omega_1 \ne \omega_2 \end{cases} \]

para contrastes con una o dos muestras, respectivamente.

Ejemplo: Comprobar si un tratamiento con estatinas para reducir el nivel de LDL altera los niveles (\(\small \mu\)) de transaminasas: \(\,\small \text{H}_1: \mu_\text{tto} \ne \mu_\text{ctrl}\)

Test unilateral (una cola)

Se usa cuando buscamos una diferencia según una dirección específica.
- Hipótesis nula: en general, sigue conteniendo el signo “\(=\)”
- Hipótesis alternativa: es la desigualdad en la dirección de interés: “\(\small <\)” o bien “\(\small >\)” (la desigualdad en el otro sentido, la que no interesa, se le añade a la hipótesis nula)

\[ \begin{cases} \text{H}_0: & \omega \le \omega_0 \\ \text{H}_1: & \omega > \omega_0 \end{cases}, \qquad \begin{cases} \text{H}_0: & \omega_1 \le \omega_2 \\ \text{H}_1: & \omega_1 > \omega_2 \end{cases} \]

o bien

\[ \begin{cases} \text{H}_0: & \omega \ge \omega_0 \\ \text{H}_1: & \omega < \omega_0 \end{cases}, \qquad \begin{cases} \text{H}_0: & \omega_1 \ge \omega_2 \\ \text{H}_1: & \omega_1 < \omega_2 \end{cases} \]

para contrastes con una o dos muestras, respectivamente.

Ejemplos:
- Evaluar si una intervención reduce el nivel de un indicador por debajo de un umbral \(\small \mu_0\): \(\,\,\small \text{H}_1: \mu < \mu_0\)
- Evaluar si un tratamiento para reducir la anemia aumenta el nivel de hemoglobina: \(\,\, \small \text{H}_1: \mu_\text{tto} > \mu_\text{ctrl}\)

En un test unilateral, la hipótesis alternativa presenta la desigualdad que se quiere demostrar fuera de duda.
Como veremos, habrá que comprobar siempre que la información muestral es compatible con este sentido de la diferencia.

Resumiendo ideas

Hipótesis nula (\(\small \text{H}_0\))

Expresa el enunciado que se asume como cierto hasta que se demuestre lo contrario
Su elaboración siempre se hace sobre la idea de igualdad, homogeneidad o independencia
Por ejemplo: “el tratamiento es inefectivo” = “los grupos tratado y control son homogéneos” = “el estado es independiente de recibir o no el tratamiento”

\[ \omega_\text{tto} = \omega_\text{ctrl} \]

Hipótesis alternativa (\(\small \text{H}_1\))

Es la negación de la hipótesis nula
Es la hipótesis que aceptaremos cuando la evidencia experimental nos lleve a rechazar la hipótesis nula.
En contraposición a la hipótesis nula, la hipótesis alternativa se formula bajo la idea de heterogeneidad, diferencia o asociación.
Por ejemplo:
- “El tratamiento cambia…” \(\rightarrow\) “\(\small \omega_\text{tto} \ne \omega_\text{ctrl}\)”
Cuando el test es unilateral, en la hipótesis alternativa debe aparecer aquella desigualdad que se desee demostrar fuera de toda duda.
Por ejemplo:
- “el tratamiento reduce…” \(\rightarrow\) “\(\small \omega_\text{tto} < \omega_\text{ctrl}\)”
- “el tratamiento aumenta…” \(\rightarrow\) “\(\small \omega_\text{tto} > \omega_\text{ctrl}\)”

3 Elementos de un test de hipótesis

Construcción del test

Se maneja siempre la hipótesis nula
- La hipótesis nula establece un enunciado que se puede formalizar, es decir, esta hipótesis proporciona “herramientas de cálculo”
- La hipótesis alternativa no proporciona nada, no podemos hacer cálculos a partir de ella.
  Por lo tanto, en adelante hablaremos de aceptar o rechazar \(\small \text{H}_0\) (no de aceptar o rechazar \(\small\text{H}_1\))
La información muestral debe resumirse en forma de algún indicador que permita tomar una decisión en favor o en contra de la hipótesis nula.
Este indicador se llamará estadístico de contraste.
El estadístico de contraste se construye unificando la información muestral con la propuesta formal que hace la hipótesis nula.
Una vez obtenido el estadístico de contraste, hay dos formas de decidir:
1. Decisión basada en la magnitud del estadístico de contraste:
  - Si el estadístico de contraste tiene una magnitud por encima de un umbral, se rechazará la hipótesis nula (hará falta definir ese umbral)
2. Decisión basada en la probabilidad de observar el valor que toma el estadístico de contraste
  - Si el valor que toma el estadístico de contraste es suficientemente probable bajo el supuesto que formula la hipótesis nula, diremos que la muestra es compatible con ella, por lo tanto, no podremos rechazar \(\small \text{H}_0\).
  - Si el valor que toma el estadístico de contraste es muy poco probable bajo el supuesto que formula la hipótesis nula, diremos que la muestra no es compatible con ella y consecuentemente rechazaremos esta hipótesis en favor de la alternativa.

La decisión basada en la magnitud del estadístico de contraste nos va a servir para establecer más facilmente los elementos que aparecen en un test de hipótesis.
En la práctica, la que se suele usar es la decisión basada en la probabilidad.

Ejemplo a desarrollar: eGFR (I). Planteamiento

Se desea evaluar si los pacientes con enfermedad renal crónica (ERC) en seguimiento por Enfermería presentan un nivel medio de filtrado glomerular estimado (eGFR) igual al valor normativo registrado para adultos sanos, establecido en 90 mL/min/1.73 m².

Para ello, se selecciona una muestra de 12 pacientes atendidos en la consulta y se registra su eGFR. Los valores observados fueron:

Paciente	1	2	3	4	5	6	7	8	9	10	11	12
eGFR observado	86	78	93	91	82	84	87	81	85	90	83	88

El objetivo es contrastar estadísticamente si la media poblacional del eGFR en estos pacientes coincide con el valor normativo de referencia.

Formalización del problema

La variable aleatoria bajo estudio es el nivel de filtrado glomerular estimado (eGFR) en pacientes con ECR. Esta es una variable continua y vamos a asumir que su distribución se ajusta aceptablemente a la distribución normal.

Hipótesis

Considerando \(\small \mu\) la media poblacional del eGFR en pacientes con ERC y \(\mu_0=90\) el valor normativo, formulamos el contraste bilateral

\[ \begin{cases} \text{H}_0: & \mu = \mu_0 \\ \text{H}_1: & \mu \ne \mu_0 \end{cases} \qquad \Rightarrow \qquad \begin{cases} \text{H}_0: & \mu = 90 \\ \text{H}_1: & \mu \ne 90 \end{cases} \]

Información muestral

\[ n=12,\qquad \bar{x}=85.67,\qquad s=4.40 \]

El estadístico de contraste

Definición

Formalmente, un estadístico de contraste es una función de la muestra aleatoria, con distribución de probabilidad conocida (o aproximada) bajo la hipótesis nula, que se utiliza para decidir el rechazo o no rechazo de dicha hipótesis en un contraste de hipótesis.
Propuesta
- Si suponemos que la variable aleatoria bajo estudio \(\small X\) tiene distribución normal: \(\small X \sim \mathcal{N}\left(\mu,\sigma\right)\)
- El TLC establece que, en este caso, su media \(\small \bar{X}\) verifica \(\small \bar{X} \sim \mathcal{N}\left(\mu,\,\sigma/\sqrt{n}\right)\)
- Para valorar la magnitud del valor observado de la media, podemos estandarizarla (según lo que hemos visto en el tema 3):

\[ Z=\frac{\bar{X}-\mu}{\sigma/\sqrt{n}} \tag{1}\]

Problemas que surgen:
- la media poblacional \(\small\mu\) es desconocida \(\leftarrow\) solución: sustituimos su valor por \(\small\mu_0\), el que propone la hipótesis nula
- la desviación típica poblacional, \(\small\sigma\), también es desconocida \(\leftarrow\) solución: la sustituimos por su estimador puntual \(\small\hat\sigma =s\). Como vimos en el tema anterior, esto introduce una variabilidad “extra” pero la inferencia se puede corregir utilizando la distribución t de Student en lugar de la normal.

Notación:
Como un estadístico de contraste se obtiene considerando la información muestral, también se alude a él como cantidad experimental. Habitualmente, estas cantidades se representan utilizando el subíndice “exp” (de experimental), así la función anterior de la Ecuación 1 sería \(Z_\text{exp}\).

Propuesta final:

La función

\[ t_\text{exp}=\frac{\bar{x}-\mu_0}{s/\sqrt{n}} \]

es un estadístico que combina la información observada en la muestra con la distribución propuesta bajo la hipótesis nula (una normal centrada en \(\small\mu_0\)). Como sustituimos \(\small\sigma\) por su estimador puntual, la distribución de referencia ahora es la t de Student con \(\small n-1\) grados de libertad. Esto se expresa como

\[t_\text{exp} \sim \mathcal{t}_{n-1}\]

eGFR (II). Estadístico de contraste

El estadístico de contraste, a partir de los datos de filtración glomerular, es

\[ t_\text{exp}=\frac{\bar{x}-\mu_0}{s/\sqrt{n}} = \frac{85.67-90}{4.40/\sqrt{12}} = -3.41 \]

que tiene distribución t de Student con \(\small n-1 = 11\) grados de libertad.

Recordemos que la distribución t de Student es similar a la normal estándar:

Está centrada en el valor \(\small t=0\)
Tiene colas más pesadas que la normal, pero converge a ella en la medida en que aumentanlos grados de libertad

Importancia de conocer la distribución del estadístico de contraste

Conocer la distribución del estadístico de contraste permite valorar su magnitud ante un problema dado.
Recordemos que la distribución de \(\small t_{\text{exp}}\) la establece la hipótesis nula.
Como la distribución t es simétrica, lo que importa no es el signo de \(\small t_{\text{exp}}\), sino su magnitud.

Figura 1: El valor del estadístico de contraste en el test para el eGFR parece bastante extremo

Si \(\small t_{\text{exp}}\) toma un valor extremo en la distribución establecida por \(\small \text{H}_0\), esto significa que es un valor improbable, lo que se traduce en una discrepancia entre los valores empíricos y lo que propone la hipótesis nula \(\leftarrow\) Esto nos llevaría a rechazar \(\small \text{H}_0\).
Si, por el contrario, \(\small t_{\text{exp}}\) tomara un valor próximo a cero, por ejemplo \(\small t_{\text{exp}}=0.5\), entonces sería un valor muy probable bajo esta distribución, lo que indica que la hipótesis nula explica bien los datos observados \(\leftarrow\) En este caso no podríamos rechazar \(\small \text{H}_0\).
Pero, ¿cómo decidir cuándo \(\small t_{\text{exp}}\) es extremo?

3.1 Decisión basada en la magnitud del estadístico de contraste

Error de tipo I. Nivel de significación

Es importante asumir que siempre que se toma una decisión hay cierta probabilidad de equivocarse, de cometer un error

Se definine el error de tipo I como la probabilidad de rechazar la hipótesis nula cuando esta es cierta.
A esta probabilidad se la denota como \(\small \alpha\) (por extensión, se habla también de error \(\small \alpha\)), siendo

\[ \alpha = \Pr\left(\text{rechazar H}_0 | \text{es cierta H}_0\right) \]

El nivel de significación de un test es la probabilidad máxima tolerada de cometer un error de tipo I.
Este valor lo establece de antemano el investigador
En la práctica, se suele establecer \(\small \alpha = 0.05\)

Regiones crítica y de aceptación

Al fijar el nivel de significación, se está dividiendo el conjunto de valores que puede tomar el estadístico de contraste en dos regiones:

La región de aceptación (RA) del test es el conjunto de valores del estadístico de contraste que llevan a NO rechazar la hipótesis nula.
La región crítica (RC), o de rechazo, del test es el conjunto de valores del estadístico de contraste que se consideran improbables y llevan a rechazar la hipótesis nula.
Si el test es bilateral la región crítica se reparte en las dos colas

Figura 2: Regiones crítica y de aceptación de un test bilateral con nivel de significación \(\small \alpha\). Al ser bilateral, la región crítica se distribuye por igual en las dos colas

¿Cómo se establece la frontera entre estas regiones?
- En un test bilateral, al fijar el valor de \(\small \alpha\) no hay más que determinar los percentiles \(\small t_{\alpha/2}\) y \(\small t_{1-\alpha/2}\)
- Por simetría de la distribución t, estos percentiles tendrán el mismo valor pero con distinto signo.
- A estos percentiles se les suele denominar cantidad teórica (se suele considerar el valor con signo positivo)

Decisión con el test
- Si \(\small |t_{\text{exp}}| \le |t_{\alpha/2}|\) \(\leftarrow\) El estadístico de contraste pertenece a la región de aceptación de la hipótesis nula, por tanto, la decisión es no rechazar \(\small \text{H}_0\) al nivel de significación \(\small \alpha\).
- Si \(\small |t_{\text{exp}}| > |t_{\alpha/2}|\) \(\leftarrow\) El estadístico de contraste pertenece a la región crítica, por tanto, la decisión es rechazar \(\small \text{H}_0\) al nivel de significación \(\small \alpha\).

eGFR (III). Decisión basada en el nivel de significación

Si fijamos un nivel de significación del 5%, es decir \(\small\alpha=0.05\), el percentil \(\small t_{0.05/2}\) de la distribución t de Student con 11 grados de libertad se obtiene:

qt(0.025, df = 11)

[1] -2.200985

Figura 3: El estadístico de contraste \(\small t_{\text{exp}}\) toma un valor perteneciente a la región crítica

Decisión: Como \(\small |t_{\text{exp}}|=3.41 > |t_{\alpha/2}|=2.20\) \(\rightarrow\) El valor que toma el estadístico de contraste pertenece a la región crítica. Por tanto, rechazamos \(\small \text{H}_0\) a un nivel de significación \(\small \alpha\) del 5%.

Si el estadístico hubiera tomado, por ejemplo, el valor \(\small t_{\text{exp}}=-2.00\), al encontrarse dentro de la región de aceptación, habríamos concluido que –a un nivel de significación \(\small \alpha\) del 5%– la información muestral es compatible con la hipótesis nula, por tanto, no podemos rechazarla.

Significación / no significación

Cuando hay evidencias en contra de la hipótesis nula, se dice que el test es significativo
Cuando no hay evidencias en contra de la hipótesis nula, se dice que el test es no significativo

A continuación se presentan frases equivalentes para indicar el resultado de un test de hipótesis

Frases equivalentes a aceptar la hipótesis nula	Frases equivalentes a rechazar la hipótesis nula
El test no es significativo.	El test es significativo.
La hipótesis nula explica adecuadamente los datos observados.	Los datos proporcionan evidencia suficiente contra la hipótesis nula.
La información muestral es compatible con la hipótesis nula.	Las evidencias muestrales son incompatibles con la hipótesis nula.
No encontramos evidencia estadísticamente significativa contra \(\small \text{H}_0\).	El resultado del test es estadísticamente significativo.
No se puede rechazar \(\small \text{H}_0\) al nivel de significación establecido.	Se rechaza \(\small \text{H}_0\) al nivel de significación establecido.
La evidencia disponible no sugiere un efecto o diferencia.	La evidencia disponible sugiere claramente un efecto o diferencia.
El estadístico toma un valor dentro de la región de aceptación.	El estadístico toma un valor dentro de la región crítica.
No observamos un resultado lo suficientemente extremo para cuestionar \(\small \text{H}_0\).	El resultado observado es suficientemente extremo como para cuestionar \(\small \text{H}_0\).

RC en los test unilaterales

Figura 4: En los test bilaterales, la RC se reparte en las dos colas. En los unilaterales se concentra en una

(c) Pedro Femia bajo licencia

CC-BY-SA

Antes de realizar un test unilateral, hay que verificar que la información muestral es compatible con la hipótesis alternativa

En el ejemplo de eGFR, la media muestral fue \(\small \bar{x}=85,67\), este valor sería incompatible con la hipótesis alternativa \(\small\text{H}_1:\mu>\mu_0=90\), puesto que es \(\small \bar{x}<\mu_0\) (observemos al ser \(\small t_{\text{exp}}\) negativo, nunca podría pertenecer a la región crítica de la cola derecha).

3.2 Decisión basada en la probabilidad asociada al estadístico de contraste

El valor p

El valor p (en inglés p‑value) es la probabilidad, calculada bajo el supuesto de que la hipótesis nula es cierta, de obtener un resultado\(\small ^*\) al menos tan extremo como el observado en la muestra.

* Al aludir a un resultado debe entenderse al valor tomado por el estadístico de contraste.

El valor p mide cuánta evidencia aportan los datos en contra de la hipótesis nula:

Valor p pequeño → El resultado observado es muy improbable si \(\small \text{H}_0\) es cierta → evidencia contra \(\small \text{H}_0\).
Valor p grande → El resultado observado es probable bajo la \(\small \text{H}_0\) → no hay evidencia suficiente para rechazarla.

Figura 5: Las áreas en azul representan el nivel de significación (\(\small \alpha = 0.05\)). Las líneas en azul son los percentiles correspondientes.
Las áreas en rojo representan el valor p. Las líneas en rojo indican el valor del estadístico de contraste \(\small t_{\text{exp}}\).
Dada la simetría de la distribución, en los test bilaterales el área en rojo es el doble que en los unilaterales, ya que hay que contemplar las dos colas.

(c) Pedro Femia bajo licencia

CC-BY-SA

Decisión basada en el valor p:

Si \(\small p\le\alpha\) → se dice que el test es significativo, se rechaza la hipótesis nula.
Si \(\small p>\alpha\) → se dice que el test NO es significativo, no se puede rechazar la hipótesis nula.

Como veremos más adelante, valores de \(\small p>\alpha\) pero cercanos al nivel de significación generan una duda razonable: No se puede rechazar \(\small \text{H}_0\) ¿por que es cierta, o por que no hay suficiente evidencia (tamaño muestral) para poder rechazarla?

eGFR (III). Decisión basada en el valor p

Recordemos que habíamos

Fijado el nivel de significación \(\small \alpha=0.05\) (5%)
Obtenido \(\small t_{\text{exp}}=-3.41\)

Calculamos el valor P como la probabilidad de obtener un valor tan extremo, o más, que \(\small t_{\text{exp}}=-3.41\) bajo la distribución establecida por \(\small \text{H}_0\). Esto lo hacemos determinando qué percentil representa el valor \(\small -3.41\)

pt(-3.41, df = 11)

[1] 0.002912621

Pero nuestro test es bilateral, por tanto, tenemos que contemplar también la otra cola. Como la distribución es simétrica, basta con multiplicar el valor anterior por dos:

pt(-3.41, df = 11) * 2

[1] 0.005825241

Si hubiera sido \(\small t_{\text{exp}}\) positivo, por ejemplo \(\small t_{\text{exp}}=3.41\), al estar situado en la cola derecha, el valor p se puede obtener de dos formas equivalentes

1 - pt(3.41, df = 11) # devuelve el área a la derecha de 3.41

[1] 0.002912621

pt(3.41, df = 11, lower.tail = FALSE) # el argumento indica que se devuelva el área a la dcha.

[1] 0.002912621

Por supuesto, en el test bilateral hay que multiplicar iguamente los valores obtenidos por dos: \(\small p= 0.0029\times 2=0.0058\)

Conclusión:
Suponiendo cierta la hipótesis nula, la probabilidad de observar un valor tan extremo o más que \(\small t_{\text{exp}}=-3.41\) es \(\small p=0.0058\) (el 5.8 por mil). Como \(\small p<\alpha\) consideramos, o bien que estamos observando un suceso muy raro, o bien que la hipótesis nula no explica los datos observados.

Nunca pensaremos que estamos ante un suceso raro, por tanto concluimos que la hipótesis nula no explica los datos observados, de manera que rechazamos esta hipótesis.

Esta conclusión la escribiríamos en un informe de forma parecida a la que sigue:

(…) en los pacientes con enfermedad renal crónica, se encontró una diferencia significativa entre el valor medio observado y el valor normativo para el filtrado glomerular estimado (p=0.006) (…)

La literatura científica esta llena da valores p, por ejemplo Song et al (2009)

3.3 Error de tipo II y potencia de un test

Error de tipo II

Anteriormente consideramos el error que se comete al decidir rechazar \(\small \text{H}_0\) cuando es cierta. Se trataba del error de tipo I y su probabilidad se expresaba como

\[ \alpha = \Pr\left(\text{rechazar H}_0 | \text{es cierta H}_0\right) \]

Pero, también podemos cometer un error cuando decidimos no rechazar \(\small \text{H}_0\) cuando en realidad es falsa. A este error se le denomina error de tipo II, y su probabilidad se expresa como

\[ \beta = \Pr\left(\text{aceptar H}_0 | \text{no es cierta H}_0\right) \]

Así, si la decisión es

Rechazar \(\small \text{H}_0\), el error que se puede cometer es el de tipo I.
Su probabilidad es \(\small \alpha\) y su valor máximo queda establecido por el investigador al fijar el nivel de significación.
Aceptar \(\small \text{H}_0\), el error que se puede cometer es el de tipo II.
Su probabilidad es \(\small \beta\) y ¡es desconocida!.

Figura 6: Mientras que \(\small \text{H}_0\) establece una distribución siempre conocida para el estadístico de contraste, \(\small t_{\text{exp}}\),
la hipótesis alternativa no establece ninguna de forma concreta.
Dada una posible distribución bajo \(\small \text{H}_1\), podríamos conocer la magnitud de \(\small \beta\).
El problema es que no sabemos donde localizar esa distribución.

(c) Pedro Femia bajo licencia

CC-BY-SA

Potencia del test

La potencia de un test de hipótesis (\(\small \theta\)) es la probabilidad de rechazar correctamente a la hipótesis nula, es decir, de detectar correctamente a la alternativa:

\[ \theta = \Pr\left(\text{rechazar H}_0 | \text{no es cierta H}_0\right) \]

\(\small \theta\) es la probablidad complementaria a la del error de tipo II: \(\,\,\small \theta = 1-\beta\)
Al igual que ocurre con \(\small \beta\), la potencia corresponde a un área bajo la distribución –desconocida– asociada a \(\small \text{H}_1\). Por tanto, su valor exacto también es, en principio, desconocido.

De qué depende la potencia de un test

La potencia –y en consecuencia también la magnitud del error de tipo II– depende fundamentalmente de tres factores:

Del própio fenómeno

Es decir, de lo alejada que esté la distribución asociada a \(\small \text{H}_1\) de la propuesta por \(\small \text{H}_0\).

Para \(\small \alpha = 0.05\)

Figura 7: Cuanto más separadas estén las hipótesis, mayor es la potencia.

(c) Pedro Femia bajo licencia

CC-BY-SA

Del nivel de significación \(\alpha\) fijado de antemano

Figura 8: Cuanto mayor sea el nivel de significación prefijado, mayor es la potencia. A la izquierda \(\small \alpha=0.05\), a la derecha \(\small \alpha=0.20\)

(c) Pedro Femia bajo licencia

CC-BY-SA

Del tamaño de muestra disponible

Para \(\small \alpha = 0.05\)

Figura 9: Cuando aumenta el tamaño de muestra, la dispersión de la distribución de la media muestral se reduce (recordemos que \(\small SEM=\sigma/\sqrt{n}\) ),
por tanto, aumenta la potencia. A la izquierda, \(\small n=20\); a la derecha \(\small n=200\).

(c) Pedro Femia bajo licencia

CC-BY-SA

Potencia, valor p y fiabilidad de la decisión

Cuando es \(\small p \le \alpha\), la potencia del test no es algo que deba preocupar:
- La evidencia muestral ha sido suficiente como para rechazar \(\small \text{H}_0\)
- Puesto que el test es significativo, no se puede incurrir en el error de tipo II
Cuando es \(\small p > \alpha\) cabe preguntarse si \(\small \text{H}_0\) es realmente cierta o es que no hay suficiente evidencia muestral como para rechazarla.
- Si \(\small p > 0.15-0.20\) (un valor tentativo) todo apunta a que, al ser el valor del estadístico de contraste suficientemente probable, no hay discrepancia entre la hipótesis nula y la evidencia empírica. Un tamaño muestral grande apoya esta impresión (el error de tipo II sería pequeño).
- Sin embargo, cuando \(\small p\) no es muy grande, en general \(\small \alpha < p < 0.20\), la posibilidad de estar cometiendo el error de tipo II es más preocupante, especialmente si el tamaño muestral es pequeño. En este caso convendría estudiar más a fondo la potencia (veremos cómo) y ver si es posible aumentar el número de observaciones.

En general:

El rechazo de la hipótesis nula es una decisión fiable ← Al fijar el nivel de significación (\(\small\alpha\)), sabemos la magnitud del error al que nos arriesgamos.
La aceptación de la hipótesis nula no es una decisión fiable ← El error al que nos arriesgamos es el de tipo II, y su magnitud (\(\small\beta\)) –en principio– es desconocida.

Pero hay que tener siempre presente que

Un resultado estadísticamente significativo no garantiza la relevancia clínica del efecto.
La ausencia de significación no implica que no exista un efecto real, especialmente en estudios con baja potencia.
La decisión inferencial debe interpretarse como evidencia bajo incertidumbre y complementarse con intervalos de confianza, tamaño del efecto y juicio clínico, evitando una lectura dicotómica basada exclusivamente en el valor p.

4 Relación de los test de hipótesis con otros métodos inferenciales

Test de hipótesis e intervalos de confianza

Como veremos, el resultado de un test de hipótesis debe ir acompañado por intervalos de confianza:

Si el test ha sido significativo (en este caso, rechazamos \(\small \mu = \mu_0\)), para dar una estimación del parámetro (si \(\small \mu \ne \mu_0\), ¿qué estimación podemos dar para \(\small \mu\)?)
Si el test ha sido no significativo (asumimos que \(\small \mu = \mu_0\)), la precisión del intervalo para \(\small \mu -\mu_0\) permitirá [ganar apreciación sobre la potencia{.neg}] del test.

Un detalle importante:

El intervalo, a nivel de confianza \(\small 1-\alpha\), para estimar un parámetro, por ejemplo \(\small \mu\), contiene todos los valores \(\small \mu_0\) que no podrían ser rechazados como hipótesis nula en un test con un nivel de significación \(\small \alpha\). Es decir, un test de hipótesis al nivel \(\small \alpha\) es equivalente a comprobar si el valor de la hipótesis nula pertenece o no al intervalo de confianza al nivel \(\small (1-\alpha)\):

\[ \text{Si } \mu_0 \in IC_{1-\alpha} \Leftrightarrow p>\alpha \text{ en el test H}_0:\mu=\mu_0 \]

Observemos que hay dos probabilidades que se llaman \(\small \alpha\) pero que aluden a errores distintos, uno es un error de estimación y el otro un error de decisión.

Métodos paramétricos y no paramétricos

Métodos paramétricos

Son aquellos que asumen que los datos siguen una distribución teórica conocida, típicamente la distribución normal,

Hacen inferencia sobre los parámetros poblacionales (\(\small \mu\), \(\small \pi\), etc.).
Tienen mayor potencia estadística cuando los supuestos se cumplen.
Permiten inferencias más precisas (intervalos de confianza, contrastes).
Los métodos basados en la distribución normal son bastante robustos ante desviaciones moderadas de esta distribución.

Métodos no paramétricos

Son aquellos que no requieren asumir una distribución específica de la población, o lo hacen de forma mucho más laxa. Basados en rangos, signos o frecuencias, más que en los valores originales.

Son útiles cuando:

Las muestras son pequeñas y no puede asumirse la normalidad
La variable es ordinal

Son menos potentes que los paramétricos.

En la práctica:

Si se puede justificar la normalidad –la variable es normal o el tamaño muestral es grande (TLC), son preferibles los métodos paramétricos.
Si hay dudas serias sobre la normalidad (por ejemplo, distribuciones muy asimétricas o con outliers) o se trabaja con escalas ordinales (muy frecuente en clínica), puede ser mejor opción el uso de métodos no paramétricos.
Cuando se analizan variables discretas con un tamaño de muestra suficientemente grande (\(\small n \ge 60\)), se suelen utilizar métodos basados en la normalidad con una corrección por continuidad (cpc). Se trata de un ajuste consistente habitualmente en desplazar los límites en ±0.5 para mejorar la precisión de la aproximación.

Test de hipótesis y test de diagnóstico clínico

Se puede establecer una analogía entre los contrastes de hipótesis y los test de diagnóstico clínico que permite ganar en comprensión conceptual.

(c) Pedro Femia bajo licencia

CC-BY-SA

Contraste de hipótesis (Estadística)	Test diagnóstico (Clínica / Enfermería)	Interpretación
Población de estudio	Conjunto de pacientes	El ámbito donde se quiere tomar una decisión
Muestra	Paciente individual	Unidad sobre la que se aplica el test
Hipótesis nula (\(\small \text{H}_0\))	Paciente sano (ausencia de enfermedad)	Situación asumida por defecto
Hipótesis alternativa (\(\small \text{H}_1\))	Paciente enfermo	Situación que requiere evidencia para ser aceptada
Estadístico de contraste	Resultado del test (biomarcador, prueba)	Información observada para tomar la decisión
Región de aceptación	Valores que se consideran clínicamente normales	Valores aceptables para lo que se asume por defecto
Región crítica	Valores que se consideran patológicos	Valores discrepantes con lo que se asume por defecto
Nivel de significación (\(\small \alpha\))	Probabilidad de falso positivo	Riesgo aceptado de diagnosticar enfermedad en un sano
Error tipo I	Falso positivo	Declarar enfermo a un sano / declarar un efecto cuando no lo hay
Error tipo II (\(\small \beta\,\))	Falso negativo	No detectar la enfermedad/efecto cuando realmente existe
Potencia (\(\small \theta=1-\beta\,\))	Sensibilidad diagnóstica	Capacidad para detectar un efecto/enfermedad real
Valor p	Evidencia contra el estado sano	Compatibilidad de los datos con la ausencia de enfermedad
Decisión estadística	Decisión clínica	El test informa, pero no decide por sí solo

Un contraste de hipótesis no “demuestra” nada, igual que un test no diagnostica por sí solo: ambos aportan evidencia para una decisión clínica o científica.

5 Referencias y lecturas recomendadas

Agresti, A., & Kateri, M. (2022). Foundations of Statistics for Data Scientists With R and Python (1st Ed.). Chapman & Hall/CRC Texts in Statistical Science.

Martín Andrés, A., & Luna del Castillo, J. de D. (2004). Bioestadística para las Ciencias de la Salud. Madrid: Norma.

Martín Andrés, A., & Luna del Castillo, J. de D. (2013). 40 ± 10 horas de Bioestadística. Madrid: Ed. Norma-Capitel.

Rosner, B. (2016). Fundamentals of Biostatistics (8.ª ed.). Boston: Brooks/Cole.

Song, M., Choe, M.-A., Kim, K. S., Yi, M. S., Lee, I., Kim, J., … Shim, Y. S. (2009). An evaluation of Web-based education as an alternative to group lectures for diabetes self-management. Nursing & Health Sciences, 11(3), 277-284. https://doi.org/10.1111/j.1442-2018.2009.00458.x

Tema 4 Introducción al contraste de hipótesis

1 Introducción

2 Las hipótesis estadísticas

3 Elementos de un test de hipótesis

3.1 Decisión basada en la magnitud del estadístico de contraste

3.2 Decisión basada en la probabilidad asociada al estadístico de contraste

3.3 Error de tipo II y potencia de un test

4 Relación de los test de hipótesis con otros métodos inferenciales

5 Referencias y lecturas recomendadas

6 Material de este proyecto

Tema 4
Introducción al contraste de hipótesis