Práctica 7

Autor/a

Pedro Femia

Objetivos de la práctica

Al finalizar esta sesión, el alumnado será capaz de:

Establecer la relación conceptual entre la homogeneidad de las muestras y la independencia de las variables
Identificar el tipo de diseño en estudios comparativos con dos muestras de variables cuantitativas
Identificar el tipo de método de contraste requerido en cada situación (paramétrico o no paramétrico)
Comparar dos muestras de variables cuantitativas en los siguientes casos
- Muestras independientes en el caso paramétrico: test de Student / Welch
- Muestras independientes en el caso no paramétrico: test de Wilcoxon / Mann-Whitney
- Muestras apareadas en el caso paramétrico: test de Student
- Muestras apareadas en el caso no paramétrico: test de los rangos con signo de Wilcoxon
Utilizar el código base de R para resolver los casos anteriores y recursos alternativos, como la implementación BioestadisticaR2
En los casos paramétricos (muestras independientes y apareadas):
- Estudiar la significación clínica de los resultados
- Estudiar la potencia del test cuando el resultado no es significativo
- Determinar el tamaño de muestra para detectar un efecto mínimo con la potencia deseada

Instrucciones de inicio

Preparación de la sesión.

Selecciona la carpeta de trabajo (recuerda que lo puedes hacer usando el atajo ‘Ctrl’ + ‘Mayús’ + ‘H’ y la conveniencia de que uses tu pen-drive).
Crea un nuevo script para realizar esta práctica
Pon un título adecuado a la práctica para que aparezca en el índice de RStudio
Guarda el script y recuerda volver a guardarlo de vez en cuando para actualizar el trabajo que vas haciendo.

Instalación de los paquetes necesarios

Comprueba en el listado de paquetes si ya está instalado ggplot2. Si lo está, no hace falta reinstalarlo. En caso contrario hazlo desde el botón del panel packages, o bien, utilizando el código del siguiente cuadro desplegable.

Instalación de ggplot2

install.packages("ggplot2")

Instalación de BioestadisticaR2. Esto siempre tendremos que hacerlo en el aula. Copia, pega en el script y ejecuta el código siguiente

Instalación de BioestadisticaR2

install.packages(
  "https://digibug.ugr.es/bitstream/handle/10481/84535/BioestadisticaR2_2.5.0.zip",
  repos = NULL
)
library(BioestadisticaR2)

Si has tenido problemas, avisa al profesor o profesora responsable.
Otras opciones de instalación: web de BioestadisticaR2

Como en prácticas anteriores, algunas de las cuestiones de esta práctica requieren hacer cálculos, pero otras son puramente conceptuales. Recuerda que lo importante es que entiendas lo que se pregunta y sepas razonar la respuesta. Como siempre, toma nota de todo aquello que consideres relevante.

Recursos de ayuda

Los siguientes recursos se abren en una nueva pestaña del navegador:

1 Comparación de dos muestras independientes

1.1 Métodos paramétricos

1.1.1 Presión arterial de oxígeno en pacientes con infección respiratoria aguda

En una unidad de neumología, se desea evaluar si la aplicación de un programa de fisioterapia respiratoria intensiva mejora la oxigenación en pacientes con infección respiratoria aguda.

Para ello, se mide la presión arterial de oxígeno (PaO₂, expresada en mmHg) a las 48 horas del ingreso hospitalario en dos grupos independientes de pacientes: un grupo control de 16 pacientes que han recibido únicamente los cuidados estándar, y un grupo de intervención, con 18 pacientes que, además de los cuidados estándar, han recibido un programa de fisioterapia respiratoria intensiva.

A continuación se resumen los resultados de la PaO₂ en cada grupo con su media y desviación típica:

Grupo	n	media (mmHg)	desviación típica (mmHg)
Control	16	72.4	8.5
Intervención	18	80.1	7.9

Plantea las hipótesis estadísticas implicadas justificando la uni– o bilateralidad del test y si es necesario comprobar la compatibilidad de la información muestral con alguna de las hipótesis planteadas.
¿Qué método, o métodos, de análisis se pueden emplear para contrastar las hipótesis anteriores? Indica los supuestos básicos y si sería posible considerar, con la información dada, un método no paramétrico.
Utilizando la función testt() del paquete BioestadisticaR2, realiza el contraste de hipótesis para un nivel de significación del 5%. Explica los resultados. ¿Por qué en la salida dada por ttest() no aparecen los dos test unilaterales posibles en la comparación de las medias?
Interpreta el valor \(p\) obtenido en la comparación de las medias y a qué decisión conduce.
Interpreta la diferencia de medias como estimador del tamaño bruto del efecto. Justifica si es coherente el intervalo para la diferencia de medias con la significación del test.
En la literatura médica, se considera que la mínima diferencia clínicamente importante (MCID, del inglés Minimal Clinically Important Difference) es \(\delta = 5\) mmHg. Interpreta el resultado en términos estadísticos y también clínicos, indicando si el efecto detectado tiene relevancia clínica.
Se desea repetir este estudio en otro centro hospitalario ¿qué tamaño de muestra sería recomendable considerar para tener ciertas garantías de poder detectar un efecto de 5 mmHg con, al menos, un 80% de potencia?

Solución

Se trata de un test de homogeneidad para las medias de una variable cuantitativa observada en dos muestras independientes. El contraste coherente es el unilateral (o a una cola), ya que se trata de comprobar si el programa de fisioterapia mejora la oxigenación (no si la cambia). Por tanto: \[ \begin{cases} \text{H}_0: & \mu_1 \ge \mu_2 \\ \text{H}_1: & \mu_1 < \mu_2 \end{cases} \]

con \(\mu_1\) y \(\mu_2\) las medias poblacionales de la PaO₂ en pacientes que reciben solo los cuidados estándar y los que, además, reciben la fisioterapia intensiva.

Dado que el contraste es unilateral, la información muestral debe ser compatible con la hipótesis alternativa; en caso contrario, el resultado se declara no significativo sin necesidad de realizar cálculos adicionales. Observamos que esta compatibilidad se cumple, puesto que \(\bar{x}_1<\bar{x}_2\).

Con la información resumida no se puede aplicar un método no paramétrico. Necesariamente, se debe asumir que la PaO₂ tiene distribución normal y utilizar un test de la t. La validez de los resultados descansa en que las distribuciones sean aceptablemente normales.
La función ttest() ya la hemos utilizado para el test con una muestra, pero admite que indiquemos dos muestras. A continuación se presenta el código a utilizar cuando la información está resumida:

Código de BioestadisticaR2

library(BioestadisticaR2)

testt(
  n1 = 16,
  m1 = 72.4,
  s1 = 8.5, # resumen de la muestra del grupo 1
  n2 = 18,
  m2 = 80.1,
  s2 = 7.9, # resumen de la muestra del grupo 2
  grf = FALSE
) # <- anula la salida gráfica

La literatura clásica distingue entre el test t de Student cuando se asume igualdad de varianzas (homocedasticidad) y el test de Welch cuando dicha suposición no se cumple (heterocedasticidad). Esta decisión suele basarse en el resultado previo del test F de Fisher–Snedecor. En nuestro caso, no seguiremos este enfoque y utilizaremos sistemáticamente el test de Welch.

Vamos a ver por qué: En este problema, el test F no resulta significativo \((p=0.765)\). La comparación de medias con el test de Student da lugar a \(t_{\text{exp}}=2.74,\,\, 32\, gl\), mientras que con el test de Welch se tiene \(t_{\text{exp}}=2.72,\,\, 30.8\, gl\). En ambos casos, el valor \(p\) es el mismo \(p=0.005\) (test unilateral).

Recordemos que el test F es muy sensible a desviaciones de la normalidad, mientras que el test de Welch constituye una alternativa más robusta para la comparación de medias y coincide con el test de Student cuando las varianzas son homogéneas. Por este motivo, adoptaremos el test de Welch como procedimiento estándar.

El valor \(p\) representa la probabilidad, bajo la hipótesis nula, de obtener un resultado tan extremo o más que el observado, referido al valor del estadístico de contraste \(t_{\text{exp}}\). Asimismo, puede interpretarse como el menor nivel de significación para el cual se rechazaría la hipótesis nula.

En particular, un valor \(t_{\text{exp}}=2.72\) con \(30.8\) grados de libertad da lugar a un valor \(p=0.005\), es decir, una probabilidad del 5 por mil. Esto significa que, si la hipótesis nula fuera cierta, en promedio solo en 5 de cada 1000 repeticiones del experimento se observaría —por puro azar— un resultado tan extremo como el obtenido. Dado que no esperamos observar un resultado tan poco probable bajo la hipótesis nula, procedemos a rechazarla.

De manera coherente con la significación del test, el intervalo \((1.94, 13.46)\) no contiene al valor \(\mu_1-\mu_2=0\), que es el propuesto por la hipótesis nula de homogeneidad. Por otra parte, el límite superior del intervalo tiene una magnitud aparentemente grande, dado el valor medio de la PaO₂, por lo que cabe pensar que este efecto debe tener relevancia clínica.
La significación estadística \((p=0.005<\alpha=0.05)\) indica que el método analítico detecta que hay un efecto de la intervención \((\mu_1-\mu_2)\) cuya magnitud no es cero. Por otra parte, la fisioterapia respiratoria intensiva produce una mejora media en la PaO₂ que supera la mínima diferencia clínicamente importante (MCID): el intervalo al 95% de confianza es \((1.94, 13.46)\), lo que sugiere un beneficio con significación clínica, más allá de la significación estadística.
Repetimos el código añadiendo los argumentos delta=5 para indicar el MCID y potencia=0.80 para especificar la potencia:

Código de BioestadisticaR2

library(BioestadisticaR2)

testt(
  n1 = 16,
  m1 = 72.4,
  s1 = 8.5, # resumen de la muestra del grupo 1
  n2 = 18,
  m2 = 80.1,
  s2 = 7.9, # resumen de la muestra del grupo 2
  delta = 5, # <-- indicamos la diferencia mínima a detectar
  potencia = 0.80, # <-- potencia deseada
  grf = FALSE
) # <- anula la salida gráfica

Observemos que la salida sugiere dos alternativas de tamaños muestrales: (1) cuando las varianzas son homogéneas, y (2) cuando no son homogéneas. En el primer caso, las dos muestras se escogen del mismo tamaño, pero en el segundo no, ¿por qué? ¿A qué grupo correspondería la muestra más grande? ¿Por qué aquí son prácticamente iguales? (intenta contestar a estas cuestiones y discútelas en clase si lo ves necesario).

1.1.2 Nivel de colesterol en hombres y mujeres

Utilizando la base de datos “colesterol01”, que ya hemos manejado en prácticas anteriores, se trata ahora de contrastar si el nivel de colesterol total está relacionado con el sexo.

Código para leer la base de datos

datos <- readRDS(url("https://www.ugr.es/~pfemia/BSRLab/dat/colesterol_01.rds"))

Plantea las hipótesis a contrastar, justificando si el contraste a realizar es unilateral o bilateral.
Indica el método estadístico que permite resolver la pregunta clínica formulada en el enunciado.
Utiliza la función testt() del paquete BioestadisticaR2 para analizar los datos, teniendo en cuenta que, de acuerdo con la literatura, se considera una diferencia mínima clínicamente relevante una diferencia de 10 mg/dL en el colesterol total entre hombres y mujeres, ya que supera la variabilidad biológica y analítica habitual y se asocia a cambios relevantes en el riesgo cardiovascular a nivel poblacional. Interpreta los resultados.

Solución

La asociación entre el nivel de colesterol y el sexo puede evaluarse mediante un contraste de hipótesis que compare el nivel medio de colesterol entre hombres y mujeres. La ausencia de diferencias estadísticamente significativas entre ambos grupos indicaría que el nivel de colesterol no depende del sexo, en el sentido de que sus distribuciones (o medias) pueden considerarse similares en ambos grupos.

Por tanto, las hipótesis a contrastar son

\[ \begin{cases} \text{H}_0: & \mu_M = \mu_H \\ \text{H}_1: & \mu_M \ne \mu_H \end{cases} \]

donde \(\mu_M\) y \(\mu_H\) representan los niveles medios de colesterol en la población de mujeres y de hombres, respectivamente. El contraste planteado es bilateral, ya que el objetivo es determinar si ambos sexos presentan niveles de colesterol homogéneos, sin formular a priori ninguna hipótesis direccional que sugiera que el colesterol sea mayor en uno de los sexos.

Si se cumplen las condiciones para aplicar el teorema del límite central, puede utilizarse un test t de Student para comparar el nivel medio de colesterol entre hombres y mujeres.

Vamos a preparar los datos y comprobar los tamaños muestrales y el supuesto de normalidad.

Preparación de los datos

# Para ganar en comodidad, generamos un vector con la selección
# del nivel de colesterol para cada sexo:
colh <- datos[datos$sexo == "hombre", ]$colesterol
colm <- datos[datos$sexo == "mujer", ]$colesterol
# tamaños muestrales
length(colh)
length(colm)

Los tamaños muestrales son de 90 y 60 individuos, respectivamente, lo que permite asumir que la distribución de la media muestral se aproxima a la normalidad, incluso aunque la variable original no lo sea estrictamente.

Hacemos la comparación utilizando testt(). Añadimos el argumento delta=10 para evaluar la significación clínica del resultado.

testt(m1 = colh, m2 = colm, delta = 10, grf = FALSE) # <-- anula la salida gráfica

Aunque el test de Shapiro–Wilk resulta significativo en ambos grupos, indicando desviaciones de la normalidad, el tamaño muestral es suficientemente grande para que el test t de Student sea robusto frente a dichas desviaciones, por lo que consideramos que su aplicación es adecuada.

Observemos que el test de Fisher de homogeneidad de varianzas no es significativo \((p=0.409)\) lo que indica que la variabilidad del nivel de colesterol se puede considerar la misma en hombres y mujeres
* Observación: como el test de Shapiro-Wilk es significativo y el test F es sensible a la falta de normalidad, podemos utilizar un test más robusto para contrastar que las varianzas son homogéneas. Una opción es usar el test de Fligner-Killeen, el código para ello se da a continuación (podemos comprobar que no es significativo y avala el resultado dado por el test F de Fisher)

Test de homocedasticidad de Fligner-Killeen

fligner.test(colesterol ~ sexo, data = datos)

Comprobamos que el test de Student no es significativo (recordemos que vamos a usar siempre la versión de Welch, aunque las varianzas sean homogéneas), con \(p=0.181\). Para un nivel de significación del 5% (\(\alpha=0.05\)), este valor de \(p\) no permite rechazar la hipótesis nula de homogeneidad en las medias, sin embargo, tampoco es un valor muy alto, lo que hace pensar que el efecto del sexo sobre el nivel medio de colesterol puede ser importante y no lo estamos detectando.

Observemos que el intervalo de confianza al 95% para la diferencia, contiene al valor cero, como cabe esperar a la vista del valor de \(p\), pero su límite superior es de \(15.2\) mg/dL. Es decir, estamos diciendo que una diferencia de 15 mg/dL “no es diferencia”. Esto no es coherente con el valor propuesto para la mínima diferencia clínicamente relevante de 10 mg/dL establecida en la literatura. Lo procedente es investigar si los tamaños de muestra son suficientemente grandes.

La función testt() evalúa por defecto una potencia (\(\theta\)) del 80%. Observamos el intervalo construido al nivel de error \(2\beta\), es decir, al nivel de confianza \(1-2\beta\), que en este caso es del 60% (si \(\theta=0.8\), \(\,\beta = 0.2\,\) y \(\,1-2\beta=0.6\)). Este es un intervalo muy estrecho. Se trata de comprobar si está contenido en el intervalo \(\pm\delta\), esto es \((-10,\,+10)\). Observamos que no, el límite superior del intervalo de confianza es mayor a 10. La conclusión es que no disponemos de una potencia del 80%. Para tenerla, hace falta aumentar el tamaño muestral a 116 casos por grupo (incluir 116-90=26 hombres y 116-60=56 mujeres más).

1.2 Métodos no paramétricos

1.2.1 Disnea en pacientes con EPOC

Se desea evaluar el efecto de una intervención de enfermería basada en la educación estructurada para el manejo de la disnea en pacientes con EPOC. Para ello, se consideran dos grupos independientes: ambos reciben los cuidados estándar, mientras que el grupo de intervención recibe además el programa educativo. La variable respuesta es el grado de disnea a las 72 horas, medido mediante la escala mMRC, que toma valores discretos de 0 a 4; valores más altos indican mayor disnea. Se trata de comprobar si la intervención educativa es efectiva para el manejo de la disnea. Los valores observados son

Teniendo en cuenta que los datos son puntuaciones discretas correspondientes a una escala de 1 a 4, formula las hipótesis a contrastar e indica el método de contraste adecuado. Justifica si se trata de un test bilateral o unilateral.
El paquete “BioestadisticaR2” implementa la función testwx() que realiza el test de Wilcoxon/Mann-Whitney para muestras independientes. Sin embargo, la salida de esta función solo proporciona el resultado para el contraste bilateral. Aplícala para analizar los datos actuales indicando qué hay que hacer para contrastar un test unilateral. Interpreta los resultados.
Prueba la función estándar de R wilcox.test(). Esta función admite el argumento alternative con valores two.sided, greater o less para especificar la lateralidad del test. Aplícala y compara la salida con la dada por testwx(),
Visualización de los datos. El diagrama de cinta, o sripchart en inglés, es un tipo de diagrama útil para representar muestras de pequeño tamaño, divididas en grupos, como las que consideramos aquí. Añadiendo el argumento method="jitter" a esta función, se evita que las observaciones se superpongan, facilitando así la interpretación de los datos. Para obtener este diagrama, hay que suministrar los datos en forma de data frame con sintáxis de fórmula. En la práctica anterior vimos cómo conseguir este formato utilizando la función rep(). Obtén el diagrama propuesto con los datos de este problema.

Solución

Dado el reducido tamaño de las muestras, y que se trata de puntuaciones discretas con valores de 1 a 4, el método de contraste debe ser de tipo no paramétrico (test de Wilcoxon / Mann-Whitney). Como es un test no paramétrico, las hipótesis no deben implicar parámetros, quedando formuladas como: \[ \begin{cases} \text{H}_0: & \text{La distribución del grado de disnea es la misma en ambos grupos} \\ \text{H}_1: & \text{La disnea es menor en el grupo que recibe la intervención educativa} \end{cases} \]

Interesa contrastar si las puntuaciones mMRC son menores en el grupo con intervención educativa (test unilateral), no si son distintas (test bilateral).

Preparamos los datos y hacemos el contraste

# generación de las variables
gcontrol <- c(3, 2, 3, 4, 2, 3, 3, 4, 1, 2, 3, 4, 2, 3, 0)
gintervencion <- c(1, 2, 2, 1, 3, 2, 1, 2, 0, 1, 2, 2, 1, 3, 1, 2)

library(BioestadisticaR2)
testwx(m1 = gcontrol, m2 = gintervencion)

En esta salida, U es el estadístico de Mann-Whitney, W el de Wilcoxon y Z su aproximación a la normal. Los tres son equivalentes (en un informe se pondría solo uno de ellos) y el valor \(\small p\) es único: \(\small p=0.009\). Este es el resultado para el test bilateral. Para obtener el relativo a un test unilateral, basta dividir este valor por dos: \(\small p=0.009/2=0.0045\).

Análisis de la significación: para un nivel de significación \(\small \alpha=0.05\), el resultado es significativo. Es decir, hay evidencias de que las puntuaciones en la escala mMRC no son homogéneas en ambos grupos. Para saber en qué grupo es mayor, podemos utilizar el rango promedio: \(\small R=20.30\) en el grupo control y \(\small R=11.97\) en el grupo de intervención. Por lo tanto, esta diferencia va en la línea de la propuesta por la hipótesis alternativa y resulta estadísticamente significativa.

La profundidad del análisis con los métodos es menor que en el caso paramétrico. No obstante, el test de Mann-Whitney tiene asociada una medida de tamaño de efecto que es el índice probabilístico \(\small PS\) (probability of superiority). La función testwx() proporciona este índice al final del informe. El valor \(\small 0.769\) obtenido, se interpreta como la probabilidad de que, elegidos al azar un sujeto de cada grupo, el perteneciente al grupo control tenga una puntuación mayor a la del perteneciente al grupo de intervención. Un valor \(\small PS=0.5\) indica que ambos grupos son indistinguibles (equivalente a lanzar una moneda al aire). Un valor \(\small PS>0.5\) indica que la intervención tiende a mejorar (menor disnea) y si fuera \(\small PS<0.5\) supondría que la intervención empeora.

Veamos este test con la función estándar de R,

wilcox.test(gcontrol, gintervencion, alternative = "greater")

Proporciona el estadístico experimental W, que es el mismo que obtuvimos antes. Al indicar la unilateralidad del test, el valor p es ahora la mitad del obtenido a dos colas. El procedimiento no proporciona más información.

La función testwx() del paquete BioestadisticaR2 ya proporcionaba dos diagramas. Vemos cómo obtener el stripchart

# creación del data.frame (recuerda el uso de rep() )
disnea <- data.frame(
  mMRC = c(gcontrol, gintervencion),
  grupo = factor(c(
    rep("control", length(gcontrol)),
    rep("intervención", length(gintervencion))
  ))
)

# función gráfica:
stripchart(
  mMRC ~ grupo, # especificación de las variables como fórmula
  data = disnea, # indicación del data.frame
  method = "jitter", # "agitado" de los puntos para dar visibilidad
  col = "blue"
) # coloreado de los puntos

2 Análisis de muestras apareadas

2.1 Métodos paramétricos

2.1.1 Movilidad precoz

La movilidad precoz del paciente es una intervención clave en la prevención de complicaciones respiratorias, la reducción de trombosis venosa y la disminución de la estancia hospitalaria. Este tipo de intervención depende directamente de los cuidados de enfermería.

En la unidad de cirugía general de un hospital, se desea evaluar el efecto de un protocolo de movilización precoz guiado por enfermería en pacientes sometidos a cirugía abdominal mayor. Para ello, se selecciona un grupo de pacientes y se mide en cada uno de ellos la capacidad funcional mediante la distancia recorrida en el test de marcha de 6 minutos (en metros) en dos momentos:

A las 48 horas postoperatorias (antes de la implementación del protocolo intensivo de movilización)
A las 96 horas postoperatorias (tras la aplicación del protocolo de movilización precoz)

A partir de los datos recogidos, y que se presenta a continuación, se trata de determinar si la implementación del protocolo de movilización precoz produce una mejora significativa en la capacidad funcional de los pacientes, medida como el aumento de la distancia recorrida en el test de marcha de 6 minutos.

Identifica el problema y formula las hipótesis adecuadas para estudiar la efectividad del protocolo de movilización. ¿Crees que el diseño empleado es adecuado?
Utiliza la función testt() del paquete BioestadisticaR2 para dar respuesta al problema clínico. A la vista de los resultados dados por esta función, ¿crees que es apropiado el uso del test paramétrico?
Se considera clínicamente relevante un aumento mínimo de 30 metros en la distancia recorrida en el test de marcha de 6 minutos, ya que dicha mejora refleja un cambio funcional perceptible y relevante en pacientes sometidos a cirugía abdominal mayor durante el postoperatorio inmediato. Explica los resultados obtenidos

Solución

Se trata de un contraste con muestras apareadas. El diseño apareado, siempre que se pueda hacer, es preferible al diseño con muestras independientes, ya que las comparaciones se hacen de manera homogénea. En este caso, el apareamiento es natural, ya que el mismo sujeto proporciona un par de medidas, una en cada instante temporal (diseño pre-post). En principio, vamos a suponer adecuado el planteamiento paramétrico, de manera que, las hipótesis vendrán dadas por

\[ \begin{cases} \text{H}_0: & \mu_{\text{dif}} \le 0 \\ \text{H}_1: & \mu_{\text{dif}} > 0 \end{cases} \]

donde se ha considerado la diferencia de las observaciones en el sentido “distancia a las 96 h – distancia a las 48 h”, de manera que \(\small \mu_{\text{dif}}\) es la diferencia poblacional en este sentido, de la distancia recorrida.

El test lógico a plantear es el unilateral, ya que se trata de contrastar que la distancia caminada aumenta, no que cambia.

Resolvemos el contraste usando la función testt(). Debemos añadir el argumento par=TRUE para que la función reconozca que el diseño es apareado.

library(BioestadisticaR2)

# Introducción de los datos
m48 <- c(127, 141, 177, 150, 159, 166, 154, 145, 129, 146)
m96 <- c(159, 165, 201, 171, 173, 204, 179, 140, 154, 161)

testt(
  m1 = m48,
  m2 = m96,
  par = TRUE, # IMPORTANTE, especificación del diseño apareado
  grf = FALSE
) # <-- suprimimos la salida gráfica

Observamos en la información inicial dada por la función, que la media de la diferencia muestral es positiva, lo que hace que la información muestral sea compatible con la hipótesis alternativa (unilateral) planteada. Comprobamos también que el test de normalidad de Shapiro-Wilk aplicado a la variable diferencia no es significativo.

Para un nivel de significación \(\small \alpha=0.05\), el test es estadísticamente significativo (\(\small p<0.001\)), lo que lleva a concluir que se ha detectado un efecto del protocolo en sentido positivo. Concretamente, la inferencia para el tamaño bruto del efecto viene dada por el intervalo \(\small 95\%\text{-}IC(\mu_{\text{dif}})=(12.97, 29.63)\) m.

Relevancia clínica: Dado que se había definido como clínicamente relevante un aumento mínimo de 30 metros, se observa que el límite inferior del intervalo de confianza se encuentra claramente por debajo de dicho umbral, mientras que el límite superior se aproxima, pero no alcanza plenamente, la diferencia considerada clínicamente relevante. Por tanto, aunque los resultados evidencian una mejoría funcional estadísticamente significativa, la evidencia sobre su relevancia clínica es limitada, ya que el intervalo de confianza no garantiza que el efecto verdadero alcance la magnitud considerada clínicamente importante.

En consecuencia, puede concluirse que el protocolo de movilización precoz produce una mejora funcional real, pero de magnitud moderada, cuya importancia clínica debería interpretarse con cautela. Estos resultados sugieren un efecto beneficioso, aunque posiblemente insuficiente por sí solo para asegurar una mejora clínicamente relevante en todos los pacientes, siendo recomendable confirmar estos hallazgos en estudios con mayor tamaño muestral o con intervenciones más intensivas.

2.2 Métodos no paramétricos

2.2.1 Escala de dolor

La intensidad del dolor postoperatorio es un aspecto clave en los cuidados de enfermería, ya que influye directamente en la movilidad, el descanso y la recuperación del paciente.

En una unidad de traumatología, se desea evaluar el efecto de una intervención enfermera basada en la aplicación protocolizada de medidas no farmacológicas de alivio del dolor (cambios posturales, frío local y técnicas de relajación guiadas) en pacientes intervenidos de cirugía ortopédica.

Para ello, se selecciona un grupo de pacientes y se mide en cada uno de ellos la intensidad del dolor mediante la Escala Numérica del Dolor (END), con valores enteros de 0 a 10, donde 0 indica ausencia de dolor y 10 el peor dolor imaginable, en dos momentos:

Antes de la aplicación de la intervención enfermera
30 minutos después de la aplicación de la intervención

A partir de los datos recogidos, que se presentan a continuación, se pretende determinar si la intervención enfermera produce una disminución significativa del dolor percibido por los pacientes.

Identifica el problema formulando las hipótesis, su lateralidad y el método de resolución más adecuado.
Realiza el contraste utilizando la función testwx() del paquete BioestadisticaR2. Igual que hicimos en el ejercicio anterior con la función testt(), aquí también debemos añadir el argumento par=TRUE para indicar que el diseño es con muestras apareadas. Interpreta los resultados obtenidos.
Repite el análisis con la función estándar del lenguaje base de R: wilcox.test(). En este caso, la indicación de que el diseño es apareado se hace a través del argumento paired=TRUE. También podemos indicar aquí la lateralidad del test a través del argumento alternative que puede tomar valores "two.sided" (valor por defecto), "greater" o "less".

Solución

Se trata de un contraste unilateral con dos muestras apareadas. Al tratarse de un conjunto reducido de observaciones (n=15 pacientes) de puntuaciones de una escala, planteamos un test no paramétrico: el test de los rangos con signo de Wilcoxon. Las hipótesis vendrán dadas por

\[\small \begin{cases} \text{H}_0: & \text{Las puntuaciones son homogéneas antes y después de la intervención} \\ \text{H}_1: & \text{Las puntuaciones tras la intervención son menores que antes de aplicarla} \end{cases} \]

Introducción de datos y aplicación del test con BioestadisticaR2

library(BioestadisticaR2)

# Introducción de los datos
antes <- c(7, 6, 8, 7, 5, 6, 9, 8, 7, 6, 5, 7, 8, 6, 7)
despues <- c(5, 4, 6, 6, 3, 5, 7, 8, 5, 4, 4, 6, 7, 5, 5)

# Wilcoxon para muestras apareadas
testwx(
  m1 = antes,
  m2 = despues,
  par = TRUE, # especificación del diseño apareado
  grf = FALSE
) # <-- suprimimos la salida gráfica

Para un nivel de significación \(\small \alpha=0.05\) comprobamos que el test ha sido significativo. Las diferencias positivas son mayores que las negativas (realmente no hay negativas), por tanto, la significación se da en el sentido de una una reducción de las puntuaciones de dolor, por lo que hay evidencia de que la intervención reduce estas puntuaciones.

La función suministra una estimación del tamaño de efecto en términos de la pseudomediana de las diferencias, una medida de localización robusta muy próxima a la mediana y que, en la práctica, puede interpretarse como tal. En este caso, la estimación indica que, en términos medianos, ha habido una reducción de 1.5 puntos en la escala. El intervalo de confianza asociado se interpreta de forma análoga, como un rango plausible para dicha reducción mediana.

Resolución con la función del lenguaje base de R wilcox.test():

wilcox.test(antes, despues, alternative = "greater", paired = TRUE)

3 Cuestiones

3.0.1 Resuelve razonadamente las siguientes cuestiones

Justifica si son correctos los siguientes enunciados:

En un test bilateral, el valor de \(\small p\) es la mitad que en un test unilateral.
En los contrastes de homogeneidad con dos muestras de variable cuantitativa, la hipótesis nula siempre afirma que las medias poblacionales son iguales.
El test de Wilcoxon para muestras independientes puede aplicarse aunque las distribuciones sean asimétricas.
Rechazar la hipótesis nula implica que el tratamiento tiene un efecto relevante desde el punto de vista clínico.
En un diseño apareado, el contraste se realiza sobre las diferencias individuales, por lo que es equivalente a un test con una muestra.
Aplicar un test para muestras independientes a datos apareados puede reducir la potencia del contraste.
Con tamaños muestrales grandes, la normalidad deja de ser un requisito importante para el test t.
Un valor \(\small p = 0.049\) indica una evidencia contra la hipótesis nula mucho mayor que un valor \(\small p = 0.051\).
El resultado de un contraste depende tanto del tamaño del efecto como de la variabilidad de los datos.
Si el test t y el de Wilcoxon, aplicados sobre los mismos datos, dan conclusiones distintas, uno de los dos debe estar mal aplicado.
Si, a partir de un estudio piloto, se estima el tamaño muestral necesario para alcanzar una potencia determinada en un estudio ampliado y dicho tamaño resulta mayor que el del piloto, ello indica que el estudio piloto no disponía del nivel de potencia especificado para detectar el efecto de interés.
Elegir entre el test t de Student y el de Wilcoxon es una decisión puramente mecánica basada en un test de normalidad (por ejemplo Shapiro-Wilk).
Dos estudios con el mismo tamaño del efecto pueden producir conclusiones distintas si los tamaños muestrales son diferentes.
En un test de homogeneidad con dos muestras de variable cuantitativa, si los tamaños de muestra son iguales, las muestras son apareadas.
El uso de un test no paramétrico garantiza conclusiones más seguras.
Si el resultado de un test t bilateral es \(\small p=0.060\), conviene replantear el test de forma unilateral para así obtener \(\small p=0.030\) y ganar potencia.
Un efecto pequeño puede ser estadísticamente significativo y clínicamente irrelevante.
El tamaño del efecto es más informativo para la relevancia clínica que el valor \(\small p\).
Un tamaño del efecto grande garantiza relevancia clínica.
Los intervalos de confianza permiten evaluar simultáneamente significación estadística y relevancia clínica
Si un intervalo de confianza incluye valores clínicamente irrelevantes, el resultado debe interpretarse con cautela.
Un resultado no significativo puede ser clínicamente relevante si el intervalo de confianza incluye efectos importantes.
Con tamaños muestrales muy grandes, casi cualquier diferencia acaba siendo estadísticamente significativa.
La relevancia clínica debe considerarse ya en la fase de planificación del estudio.
Un estudio con baja potencia estadística puede detectar solo efectos clínicamente grandes.

Justifica si crees que es apropiado el siguiente enunciado: La estadística responde a “¿existe efecto?”, mientras que la clínica responde a “¿merece la pena?”.
En pacientes con hipercolesterolemia familiar, se ha realizado un estudio piloto para evaluar el efecto de un programa de promoción de la actividad física así como de seguimiento de unas pautas dietéticas. A raíz de los resultados de este estudio, indica qué elementos se deben considerar para hacer una previsión del tamaño de muestra necesario para llevar a cabo un estudio ampliado y que aporte mayor evidencia sobre la efectividad del mencionado programa.
Al realizar un test paramétrico para contrastar la homogeneidad de dos medias, es habitual comparar también las varianzas ¿Crees que enriquece el estudio el resultado de este último test? ¿En qué sentido? (ilustralo con un ejemplo)
¿De qué depende la potencia de un test de comparación de medias como el test de Student?
Explica si es lo mismo contrastar “la diferencia de medias vale cero” que “la media de las diferencias vale cero”. Indica en qué contexto puede ser pertinente uno u otro enunciado, o si da igual.
Cuando se plantea un test unilateral se debe comprobar la compatibilidad de la información muestral con la hipótesis alternativa, explica justificadamente si esto es así y la relevancia que puede tener.
Cuando un test de homogeneidad resulta significativo \((\small p<\alpha)\), se dice que la muestra es incompatible con la hipótesis nula ¿es esto correcto? Justifica tu respuesta y compara esta cuestión con la anterior.

Soluciones a la cuestión 1

Para cada enunciado, se indica si es verdadero (V) o falso (F):

a. F; b. F (en Wilcoxon no se contrasta igualdad de medias); c. V; d. F; e. V; f. V; g. V; h. F; i. V; j. F; k. V; l. F; m. V; n. F; o. F; p. F; q. V; r. V; s. F; t. V; u. V; v. V; x. V; y. V; z. V.

4 Ejercicios propuestos

Al final aparecen soluciones resumidas, recuerda que debes intentar resolver los ejercicios por tu cuenta

4.1 Burnout en enfermería

En un hospital comarcal se desea analizar si existen diferencias en el nivel de síndrome de desgaste profesional (burnout) entre el personal de enfermería del Servicio de Urgencias y el del Servicio de Hospitalización convencional.

Para ello, se seleccionó una muestra de profesionales de enfermería de ambos servicios, garantizando que los grupos fueran independientes (cada profesional pertenece únicamente a un servicio).

El nivel de burnout se evaluó mediante una escala breve de agotamiento emocional, compuesta por un único ítem tipo Likert con 5 categorías ordinales:

0 = Nunca
1 = Rara vez
2 = Algunas veces
3 = A menudo
4 = Siempre

Los datos son:

Analiza los datos indicando adecuadamente todos los elementos del análisis (tipo de diseño, hipótesis, método) y su conclusión.

Introducción de los datos

uci <- c(3, 2, 3, 1, 2, 3, 2, 1, 2, 3, 2, 1, 3, 2, 2)
planta <- c(2, 1, 2, 3, 2, 1, 3, 2, 1, 2, 3, 2, 1, 2, 3)

4.2 Efecto de corticoides sistémicos en NAC

En pacientes hospitalizados por neumonía adquirida en la comunidad (NAC) de moderada gravedad, se ha descrito que el uso de corticoides sistémicos puede acelerar la resolución de la respuesta inflamatoria, lo que se refleja en una disminución de la proteína C reactiva (PCR), un biomarcador inflamatorio ampliamente utilizado en este contexto clínico.

El personal de Enfermería desempeña un papel clave en la administración del tratamiento, la monitorización del paciente y la evaluación de la respuesta clínica. En este marco, se lleva a cabo un estudio piloto con una muestra de n = 12 pacientes, con el objetivo de explorar la efectividad de los corticoides sistémicos sobre la respuesta inflamatoria.

El estudio consiste en la determinación de la PCR basal al ingreso hospitalario y en una segunda medición tras la administración de dexametasona intravenosa a dosis de 6 mg/24 h durante 3 días. Se define como efecto clínicamente relevante una reducción de al menos 10 mg/L en los niveles de PCR tras el tratamiento.

Los resultados de este estudio piloto servirán como base para estimar el tamaño muestral necesario en un estudio posterior, con el fin de alcanzar una potencia estadística de al menos el 80% para la detección de la citada diferencia clínicamente relevante.

Los datos son:

Identifica completamente el problema en la línea de los ejercicios anteriores (tipo de diseño, hipótesis a contrastar, método)
Analiza los datos justificando la validez del método utilizado
Analiza el tamaño del efecto y justifica si la muestra actual es suficiente para detectar la diferencia mínima clínicamente relevante de 10 mg/dL de reducción de la PCR.

Introducción de los datos

PCR_basal <- c(
  87.4,
  74.4,
  71.4,
  50.7,
  89.0,
  75.6,
  62.3,
  56.1,
  57.1,
  63.3,
  61.1,
  47.7
)
PCR_72h <- c(
  71.5,
  47.6,
  67.3,
  41.7,
  76.7,
  55.6,
  57.0,
  57.0,
  11.4,
  97.5,
  57.9,
  47.1
)

4.3 Efecto de corticoides sistémicos en NAC (enfoque no paramétrico)

Analiza los datos del ejercicio anterior mediante un test de Wilcoxon y compara los resultados obtenidos con el método paramétrico y el no paramétrico.

4.4 Tiempo de recuperación funcional

Se pretende evaluar el efecto de una intervención enfermera basada en la movilización precoz sobre la recuperación funcional. Para ello, se comparan dos grupos independientes de 15 pacientes cada uno, tras su ingreso por reagudización respiratoria. Los pacientes se asignan de forma aleatoria al grupo control, que recibe cuidados estándar, o al grupo experimental, que recibe dichos cuidados junto con un programa de movilización precoz supervisado por enfermería. La variable respuesta es el tiempo transcurrido desde el ingreso hasta la deambulación autónoma, medido en horas.

Se considera clínicamente relevante una diferencia mínima de 12 horas en el tiempo hasta la deambulación autónoma entre el grupo experimental y el grupo control, ya que dicho adelanto supone una mejoría funcional perceptible y potencialmente relevante en el proceso de recuperación del paciente hospitalizado por reagudización respiratoria.

Haz una identificación exhaustiva del problema (diseño, hipótesis, lateralidad, enfoque analítico). Analiza los datos y comenta los resultados.

Introducción de datos

gcontrol <- c(72, 85, 90, 60, 78, 110, 95, 88, 76, 102, 68, 120, 80, 92, 105)
gexperimental <- c(68, 72, 80, 75, 82, 90, 65, 78, 84, 70, 73, 95, 88, 77, 69)

5 Soluciones a los ejercicios propuestos

Soluciones

5.1 Burnout en enfermería

Diseño con muestras independientes. Contraste bilateral, no paramétrico (Mann-Whitney/Wilcoxon). \(\small W=101.5, p=0.638\) No significativo. No hay evidencias de que el desgaste profesional sea mayor en uno de los servicios.

5.2 Efecto de corticoides sistémicos en NAC

Código con testt() de BioestadisticaR2

library(BioestadisticaR2)
#
testt(m1 = PCR_basal, m2 = PCR_72h, par = TRUE, delta = 10, grf = FALSE)

Diseño con muestras apareadas. Contraste unilateral, se trata de comprobar que hay una reducción en la PCR. El test de normalidad de Shapiro-Wilk no es significativo (\(\small P=0.316\)), aunque la muestra es de pequeño tamaño, asumimos inicialmente que el método paramétrico es aplicable.

Test de Student unilateral: \(\small t_{\text{exp}}=1.64,\,\,11\, gl;\quad p=0.064\). Para un nivel de significación \(\small \alpha=0.05\) no podemos rechazar la hipótesis nula de homogeneidad, pero hay indicios de significación. El intervalo al 95% de confianza \(\small 95\%\text{-}IC(\mu_{\text{dif}}) = (-3.06, 21.02)\) pone de manifiesto que el efecto puede ser superior a \(\small \delta=10\) y no lo estamos declarando significativo.

Análisis de la potencia y determinación del tamaño muestral para detectar un efecto \(\small \delta=10\) con \(\small \theta=0.80\): El intervalo de confianza a nivel \(\small 1-2\beta = 0.60\) es \(\small 60\%\text{-}IC(\mu_{\text{dif}}) = (4.19, 13.77)\), lo que corrobora que el test no tiene una potencia del 80%. El tamaño muestral para disponer de dicha potencia es \(\small n \ge 34\) casos.

5.3 Efecto de corticoides sistémicos en NAC (enfoque no paramétrico)

Código base de R

wilcox.test(PCR_basal, PCR_72h, paired = TRUE, alternative = "greater")

Observamos que el test de Wilcoxon unilateral da un resultado significativo \(\small(p = 0.021)\). ¿Cómo se explica esta discrepancia con el test de Student?

Este estudio piloto con diseño apareado, presenta un tamaño muestral muy reducido \(\small (n = 12)\). En estas condiciones, la obtención de resultados aparentemente discrepantes entre la t de Student para muestras apareadas \(\small (p = 0.064)\) y el test no paramétrico de Wilcoxon \(\small(p = 0.021)\) es un fenómeno totalmente explicable desde el punto de vista metodológico.

La t de Student contrasta diferencias en términos de media y se basa en el supuesto de normalidad de la variable diferencia, un supuesto difícil de verificar con fiabilidad en muestras pequeñas y, sensible a la presencia de asimetrías o valores extremos.
El test de Wilcoxon evalúa si existe un desplazamiento sistemático de la distribución de las diferencias respecto al valor nulo, no asume normalidad y resulta más robusto frente a desviaciones de esta distribución.
Cuando el tamaño muestral es limitado o la distribución de las diferencias no es claramente normal, también puede resultar más potente que el método paramétrico.

En realidad, ambos contrastes apuntan en la misma dirección clínica, es decir, hacia un descenso de la PCR tras el tratamiento, y la discrepancia se limita únicamente al umbral de significación estadística (en un caso \(\small p\) es ligeramente superior a un \(\small \alpha\) del 5% y en el otro es inferior a este umbral).

Consecuentemente, estos resultados deben interpretarse de forma complementaria: la significación obtenida con Wilcoxon sugiere un efecto consistente a nivel individual, mientras que la falta de significación de la t refleja la limitación de potencia propia de un estudio piloto con un tamaño muestral tan reducido. Por tanto, los resultados no son contradictorios, sino coherentes con la naturaleza exploratoria del estudio y refuerzan la necesidad de un tamaño muestral mayor para confirmar el efecto con métodos paramétricos en un estudio definitivo.

5.4 Tiempo de recuperación funcional

Contraste de homogeneidad entre dos muestras independientes. El contraste de interés es el unilateral, en el sentido de una reducción del tiempo del grupo experimental respecto al grupo control.

Código con BioestadisticaR2

library(BioestadisticaR2)

testt(m1 = gcontrol, m2 = gexperimental, grf = F)

No hay significación del test de normalidad en ninguno de los dos grupos. Asumimos que el enfoque paramétrico es correcto. Se detecta una mayor heterogeneidad en el grupo control (esto induce a pensar que el tratamiento regulariza más el tiempo de recuperación). La información muestral es compatible con la hipótesis unilateral de interés \((\small \bar{x}_{\text{control}} > \bar{x}_{\text{exp}})\) El test de Student (versión de Welch) es significativo con \(\small p=0.022\). Además de ser estadísticamente significativo, el efecto del programa de movilización precoz es clínicamente relevante, ya que \(\small 95\%\text-IC(\mu_{\text{control}}-\mu_{\text{exp}}) = (0.305, 20.362)\) toma valores más allá de la reducción umbral \(\small \delta=12\) horas.