Instalación de ggplot2
install.packages("ggplot2")Al finalizar esta sesión, el alumnado será capaz de:
Preparación de la sesión.
Instalación de los paquetes necesarios
Si has tenido problemas, avisa al profesor o profesora responsable.
Otras opciones de instalación: web de BioestadisticaR2
Como en prácticas anteriores, algunas de las cuestiones de esta práctica requieren hacer cálculos, pero otras son puramente conceptuales. Recuerda que lo importante es que entiendas lo que se pregunta y sepas razonar la respuesta. Como siempre, toma nota de todo aquello que consideres relevante.
Los siguientes recursos se abren en una nueva pestaña del navegador:
En una unidad de neumología, se desea evaluar si la aplicación de un programa de fisioterapia respiratoria intensiva mejora la oxigenación en pacientes con infección respiratoria aguda.
Para ello, se mide la presión arterial de oxígeno (PaO₂, expresada en mmHg) a las 48 horas del ingreso hospitalario en dos grupos independientes de pacientes: un grupo control de 16 pacientes que han recibido únicamente los cuidados estándar, y un grupo de intervención, con 18 pacientes que, además de los cuidados estándar, han recibido un programa de fisioterapia respiratoria intensiva.
A continuación se resumen los resultados de la PaO₂ en cada grupo con su media y desviación típica:
| Grupo | n | media (mmHg) | desviación típica (mmHg) |
|---|---|---|---|
| Control | 16 | 72.4 | 8.5 |
| Intervención | 18 | 80.1 | 7.9 |
testt() del paquete BioestadisticaR2, realiza el contraste de hipótesis para un nivel de significación del 5%. Explica los resultados. ¿Por qué en la salida dada por ttest() no aparecen los dos test unilaterales posibles en la comparación de las medias?con \(\mu_1\) y \(\mu_2\) las medias poblacionales de la PaO₂ en pacientes que reciben solo los cuidados estándar y los que, además, reciben la fisioterapia intensiva.
Dado que el contraste es unilateral, la información muestral debe ser compatible con la hipótesis alternativa; en caso contrario, el resultado se declara no significativo sin necesidad de realizar cálculos adicionales. Observamos que esta compatibilidad se cumple, puesto que \(\bar{x}_1<\bar{x}_2\).
Con la información resumida no se puede aplicar un método no paramétrico. Necesariamente, se debe asumir que la PaO₂ tiene distribución normal y utilizar un test de la t. La validez de los resultados descansa en que las distribuciones sean aceptablemente normales.
La función ttest() ya la hemos utilizado para el test con una muestra, pero admite que indiquemos dos muestras. A continuación se presenta el código a utilizar cuando la información está resumida:
La literatura clásica distingue entre el test t de Student cuando se asume igualdad de varianzas (homocedasticidad) y el test de Welch cuando dicha suposición no se cumple (heterocedasticidad). Esta decisión suele basarse en el resultado previo del test F de Fisher–Snedecor. En nuestro caso, no seguiremos este enfoque y utilizaremos sistemáticamente el test de Welch.
Vamos a ver por qué: En este problema, el test F no resulta significativo \((p=0.765)\). La comparación de medias con el test de Student da lugar a \(t_{\text{exp}}=2.74,\,\, 32\, gl\), mientras que con el test de Welch se tiene \(t_{\text{exp}}=2.72,\,\, 30.8\, gl\). En ambos casos, el valor \(p\) es el mismo \(p=0.005\) (test unilateral).
Recordemos que el test F es muy sensible a desviaciones de la normalidad, mientras que el test de Welch constituye una alternativa más robusta para la comparación de medias y coincide con el test de Student cuando las varianzas son homogéneas. Por este motivo, adoptaremos el test de Welch como procedimiento estándar.
En particular, un valor \(t_{\text{exp}}=2.72\) con \(30.8\) grados de libertad da lugar a un valor \(p=0.005\), es decir, una probabilidad del 5 por mil. Esto significa que, si la hipótesis nula fuera cierta, en promedio solo en 5 de cada 1000 repeticiones del experimento se observaría —por puro azar— un resultado tan extremo como el obtenido. Dado que no esperamos observar un resultado tan poco probable bajo la hipótesis nula, procedemos a rechazarla.
De manera coherente con la significación del test, el intervalo \((1.94, 13.46)\) no contiene al valor \(\mu_1-\mu_2=0\), que es el propuesto por la hipótesis nula de homogeneidad. Por otra parte, el límite superior del intervalo tiene una magnitud aparentemente grande, dado el valor medio de la PaO₂, por lo que cabe pensar que este efecto debe tener relevancia clínica.
La significación estadística \((p=0.005<\alpha=0.05)\) indica que el método analítico detecta que hay un efecto de la intervención \((\mu_1-\mu_2)\) cuya magnitud no es cero. Por otra parte, la fisioterapia respiratoria intensiva produce una mejora media en la PaO₂ que supera la mínima diferencia clínicamente importante (MCID): el intervalo al 95% de confianza es \((1.94, 13.46)\), lo que sugiere un beneficio con significación clínica, más allá de la significación estadística.
Repetimos el código añadiendo los argumentos delta=5 para indicar el MCID y potencia=0.80 para especificar la potencia:
library(BioestadisticaR2)
testt(
n1 = 16,
m1 = 72.4,
s1 = 8.5, # resumen de la muestra del grupo 1
n2 = 18,
m2 = 80.1,
s2 = 7.9, # resumen de la muestra del grupo 2
delta = 5, # <-- indicamos la diferencia mínima a detectar
potencia = 0.80, # <-- potencia deseada
grf = FALSE
) # <- anula la salida gráficaObservemos que la salida sugiere dos alternativas de tamaños muestrales: (1) cuando las varianzas son homogéneas, y (2) cuando no son homogéneas. En el primer caso, las dos muestras se escogen del mismo tamaño, pero en el segundo no, ¿por qué? ¿A qué grupo correspondería la muestra más grande? ¿Por qué aquí son prácticamente iguales? (intenta contestar a estas cuestiones y discútelas en clase si lo ves necesario).
Utilizando la base de datos “colesterol01”, que ya hemos manejado en prácticas anteriores, se trata ahora de contrastar si el nivel de colesterol total está relacionado con el sexo.
testt() del paquete BioestadisticaR2 para analizar los datos, teniendo en cuenta que, de acuerdo con la literatura, se considera una diferencia mínima clínicamente relevante una diferencia de 10 mg/dL en el colesterol total entre hombres y mujeres, ya que supera la variabilidad biológica y analítica habitual y se asocia a cambios relevantes en el riesgo cardiovascular a nivel poblacional. Interpreta los resultados.Por tanto, las hipótesis a contrastar son
\[ \begin{cases} \text{H}_0: & \mu_M = \mu_H \\ \text{H}_1: & \mu_M \ne \mu_H \end{cases} \]
donde \(\mu_M\) y \(\mu_H\) representan los niveles medios de colesterol en la población de mujeres y de hombres, respectivamente. El contraste planteado es bilateral, ya que el objetivo es determinar si ambos sexos presentan niveles de colesterol homogéneos, sin formular a priori ninguna hipótesis direccional que sugiera que el colesterol sea mayor en uno de los sexos.
Vamos a preparar los datos y comprobar los tamaños muestrales y el supuesto de normalidad.
Los tamaños muestrales son de 90 y 60 individuos, respectivamente, lo que permite asumir que la distribución de la media muestral se aproxima a la normalidad, incluso aunque la variable original no lo sea estrictamente.
testt(). Añadimos el argumento delta=10 para evaluar la significación clínica del resultado.Aunque el test de Shapiro–Wilk resulta significativo en ambos grupos, indicando desviaciones de la normalidad, el tamaño muestral es suficientemente grande para que el test t de Student sea robusto frente a dichas desviaciones, por lo que consideramos que su aplicación es adecuada.
Observemos que el test de Fisher de homogeneidad de varianzas no es significativo \((p=0.409)\) lo que indica que la variabilidad del nivel de colesterol se puede considerar la misma en hombres y mujeres
* Observación: como el test de Shapiro-Wilk es significativo y el test F es sensible a la falta de normalidad, podemos utilizar un test más robusto para contrastar que las varianzas son homogéneas. Una opción es usar el test de Fligner-Killeen, el código para ello se da a continuación (podemos comprobar que no es significativo y avala el resultado dado por el test F de Fisher)
Comprobamos que el test de Student no es significativo (recordemos que vamos a usar siempre la versión de Welch, aunque las varianzas sean homogéneas), con \(p=0.181\). Para un nivel de significación del 5% (\(\alpha=0.05\)), este valor de \(p\) no permite rechazar la hipótesis nula de homogeneidad en las medias, sin embargo, tampoco es un valor muy alto, lo que hace pensar que el efecto del sexo sobre el nivel medio de colesterol puede ser importante y no lo estamos detectando.
Observemos que el intervalo de confianza al 95% para la diferencia, contiene al valor cero, como cabe esperar a la vista del valor de \(p\), pero su límite superior es de \(15.2\) mg/dL. Es decir, estamos diciendo que una diferencia de 15 mg/dL “no es diferencia”. Esto no es coherente con el valor propuesto para la mínima diferencia clínicamente relevante de 10 mg/dL establecida en la literatura. Lo procedente es investigar si los tamaños de muestra son suficientemente grandes.
La función testt() evalúa por defecto una potencia (\(\theta\)) del 80%. Observamos el intervalo construido al nivel de error \(2\beta\), es decir, al nivel de confianza \(1-2\beta\), que en este caso es del 60% (si \(\theta=0.8\), \(\,\beta = 0.2\,\) y \(\,1-2\beta=0.6\)). Este es un intervalo muy estrecho. Se trata de comprobar si está contenido en el intervalo \(\pm\delta\), esto es \((-10,\,+10)\). Observamos que no, el límite superior del intervalo de confianza es mayor a 10. La conclusión es que no disponemos de una potencia del 80%. Para tenerla, hace falta aumentar el tamaño muestral a 116 casos por grupo (incluir 116-90=26 hombres y 116-60=56 mujeres más).
testwx() que realiza el test de Wilcoxon/Mann-Whitney para muestras independientes. Sin embargo, la salida de esta función solo proporciona el resultado para el contraste bilateral. Aplícala para analizar los datos actuales indicando qué hay que hacer para contrastar un test unilateral. Interpreta los resultados.wilcox.test(). Esta función admite el argumento alternative con valores two.sided, greater o less para especificar la lateralidad del test. Aplícala y compara la salida con la dada por testwx(),method="jitter" a esta función, se evita que las observaciones se superpongan, facilitando así la interpretación de los datos. Para obtener este diagrama, hay que suministrar los datos en forma de data frame con sintáxis de fórmula. En la práctica anterior vimos cómo conseguir este formato utilizando la función rep(). Obtén el diagrama propuesto con los datos de este problema.Interesa contrastar si las puntuaciones mMRC son menores en el grupo con intervención educativa (test unilateral), no si son distintas (test bilateral).
En esta salida, U es el estadístico de Mann-Whitney, W el de Wilcoxon y Z su aproximación a la normal. Los tres son equivalentes (en un informe se pondría solo uno de ellos) y el valor \(\small p\) es único: \(\small p=0.009\). Este es el resultado para el test bilateral. Para obtener el relativo a un test unilateral, basta dividir este valor por dos: \(\small p=0.009/2=0.0045\).
Análisis de la significación: para un nivel de significación \(\small \alpha=0.05\), el resultado es significativo. Es decir, hay evidencias de que las puntuaciones en la escala mMRC no son homogéneas en ambos grupos. Para saber en qué grupo es mayor, podemos utilizar el rango promedio: \(\small R=20.30\) en el grupo control y \(\small R=11.97\) en el grupo de intervención. Por lo tanto, esta diferencia va en la línea de la propuesta por la hipótesis alternativa y resulta estadísticamente significativa.
La profundidad del análisis con los métodos es menor que en el caso paramétrico. No obstante, el test de Mann-Whitney tiene asociada una medida de tamaño de efecto que es el índice probabilístico \(\small PS\) (probability of superiority). La función testwx() proporciona este índice al final del informe. El valor \(\small 0.769\) obtenido, se interpreta como la probabilidad de que, elegidos al azar un sujeto de cada grupo, el perteneciente al grupo control tenga una puntuación mayor a la del perteneciente al grupo de intervención. Un valor \(\small PS=0.5\) indica que ambos grupos son indistinguibles (equivalente a lanzar una moneda al aire). Un valor \(\small PS>0.5\) indica que la intervención tiende a mejorar (menor disnea) y si fuera \(\small PS<0.5\) supondría que la intervención empeora.
Proporciona el estadístico experimental W, que es el mismo que obtuvimos antes. Al indicar la unilateralidad del test, el valor p es ahora la mitad del obtenido a dos colas. El procedimiento no proporciona más información.
testwx() del paquete BioestadisticaR2 ya proporcionaba dos diagramas. Vemos cómo obtener el stripchart# creación del data.frame (recuerda el uso de rep() )
disnea <- data.frame(
mMRC = c(gcontrol, gintervencion),
grupo = factor(c(
rep("control", length(gcontrol)),
rep("intervención", length(gintervencion))
))
)
# función gráfica:
stripchart(
mMRC ~ grupo, # especificación de las variables como fórmula
data = disnea, # indicación del data.frame
method = "jitter", # "agitado" de los puntos para dar visibilidad
col = "blue"
) # coloreado de los puntosLa movilidad precoz del paciente es una intervención clave en la prevención de complicaciones respiratorias, la reducción de trombosis venosa y la disminución de la estancia hospitalaria. Este tipo de intervención depende directamente de los cuidados de enfermería.
En la unidad de cirugía general de un hospital, se desea evaluar el efecto de un protocolo de movilización precoz guiado por enfermería en pacientes sometidos a cirugía abdominal mayor. Para ello, se selecciona un grupo de pacientes y se mide en cada uno de ellos la capacidad funcional mediante la distancia recorrida en el test de marcha de 6 minutos (en metros) en dos momentos:
A partir de los datos recogidos, y que se presenta a continuación, se trata de determinar si la implementación del protocolo de movilización precoz produce una mejora significativa en la capacidad funcional de los pacientes, medida como el aumento de la distancia recorrida en el test de marcha de 6 minutos.
testt() del paquete BioestadisticaR2 para dar respuesta al problema clínico. A la vista de los resultados dados por esta función, ¿crees que es apropiado el uso del test paramétrico?\[ \begin{cases} \text{H}_0: & \mu_{\text{dif}} \le 0 \\ \text{H}_1: & \mu_{\text{dif}} > 0 \end{cases} \]
donde se ha considerado la diferencia de las observaciones en el sentido “distancia a las 96 h – distancia a las 48 h”, de manera que \(\small \mu_{\text{dif}}\) es la diferencia poblacional en este sentido, de la distancia recorrida.
El test lógico a plantear es el unilateral, ya que se trata de contrastar que la distancia caminada aumenta, no que cambia.
testt(). Debemos añadir el argumento par=TRUE para que la función reconozca que el diseño es apareado.library(BioestadisticaR2)
# Introducción de los datos
m48 <- c(127, 141, 177, 150, 159, 166, 154, 145, 129, 146)
m96 <- c(159, 165, 201, 171, 173, 204, 179, 140, 154, 161)
testt(
m1 = m48,
m2 = m96,
par = TRUE, # IMPORTANTE, especificación del diseño apareado
grf = FALSE
) # <-- suprimimos la salida gráficaPara un nivel de significación \(\small \alpha=0.05\), el test es estadísticamente significativo (\(\small p<0.001\)), lo que lleva a concluir que se ha detectado un efecto del protocolo en sentido positivo. Concretamente, la inferencia para el tamaño bruto del efecto viene dada por el intervalo \(\small 95\%\text{-}IC(\mu_{\text{dif}})=(12.97, 29.63)\) m.
Relevancia clínica: Dado que se había definido como clínicamente relevante un aumento mínimo de 30 metros, se observa que el límite inferior del intervalo de confianza se encuentra claramente por debajo de dicho umbral, mientras que el límite superior se aproxima, pero no alcanza plenamente, la diferencia considerada clínicamente relevante. Por tanto, aunque los resultados evidencian una mejoría funcional estadísticamente significativa, la evidencia sobre su relevancia clínica es limitada, ya que el intervalo de confianza no garantiza que el efecto verdadero alcance la magnitud considerada clínicamente importante.
En consecuencia, puede concluirse que el protocolo de movilización precoz produce una mejora funcional real, pero de magnitud moderada, cuya importancia clínica debería interpretarse con cautela. Estos resultados sugieren un efecto beneficioso, aunque posiblemente insuficiente por sí solo para asegurar una mejora clínicamente relevante en todos los pacientes, siendo recomendable confirmar estos hallazgos en estudios con mayor tamaño muestral o con intervenciones más intensivas.
La intensidad del dolor postoperatorio es un aspecto clave en los cuidados de enfermería, ya que influye directamente en la movilidad, el descanso y la recuperación del paciente.
En una unidad de traumatología, se desea evaluar el efecto de una intervención enfermera basada en la aplicación protocolizada de medidas no farmacológicas de alivio del dolor (cambios posturales, frío local y técnicas de relajación guiadas) en pacientes intervenidos de cirugía ortopédica.
Para ello, se selecciona un grupo de pacientes y se mide en cada uno de ellos la intensidad del dolor mediante la Escala Numérica del Dolor (END), con valores enteros de 0 a 10, donde 0 indica ausencia de dolor y 10 el peor dolor imaginable, en dos momentos:
A partir de los datos recogidos, que se presentan a continuación, se pretende determinar si la intervención enfermera produce una disminución significativa del dolor percibido por los pacientes.
testwx() del paquete BioestadisticaR2. Igual que hicimos en el ejercicio anterior con la función testt(), aquí también debemos añadir el argumento par=TRUE para indicar que el diseño es con muestras apareadas. Interpreta los resultados obtenidos.wilcox.test(). En este caso, la indicación de que el diseño es apareado se hace a través del argumento paired=TRUE. También podemos indicar aquí la lateralidad del test a través del argumento alternative que puede tomar valores "two.sided" (valor por defecto), "greater" o "less".\[\small \begin{cases} \text{H}_0: & \text{Las puntuaciones son homogéneas antes y después de la intervención} \\ \text{H}_1: & \text{Las puntuaciones tras la intervención son menores que antes de aplicarla} \end{cases} \]
library(BioestadisticaR2)
# Introducción de los datos
antes <- c(7, 6, 8, 7, 5, 6, 9, 8, 7, 6, 5, 7, 8, 6, 7)
despues <- c(5, 4, 6, 6, 3, 5, 7, 8, 5, 4, 4, 6, 7, 5, 5)
# Wilcoxon para muestras apareadas
testwx(
m1 = antes,
m2 = despues,
par = TRUE, # especificación del diseño apareado
grf = FALSE
) # <-- suprimimos la salida gráficaPara un nivel de significación \(\small \alpha=0.05\) comprobamos que el test ha sido significativo. Las diferencias positivas son mayores que las negativas (realmente no hay negativas), por tanto, la significación se da en el sentido de una una reducción de las puntuaciones de dolor, por lo que hay evidencia de que la intervención reduce estas puntuaciones.
La función suministra una estimación del tamaño de efecto en términos de la pseudomediana de las diferencias, una medida de localización robusta muy próxima a la mediana y que, en la práctica, puede interpretarse como tal. En este caso, la estimación indica que, en términos medianos, ha habido una reducción de 1.5 puntos en la escala. El intervalo de confianza asociado se interpreta de forma análoga, como un rango plausible para dicha reducción mediana.
wilcox.test():a. F; b. F (en Wilcoxon no se contrasta igualdad de medias); c. V; d. F; e. V; f. V; g. V; h. F; i. V; j. F; k. V; l. F; m. V; n. F; o. F; p. F; q. V; r. V; s. F; t. V; u. V; v. V; x. V; y. V; z. V.
Al final aparecen soluciones resumidas, recuerda que debes intentar resolver los ejercicios por tu cuenta
En un hospital comarcal se desea analizar si existen diferencias en el nivel de síndrome de desgaste profesional (burnout) entre el personal de enfermería del Servicio de Urgencias y el del Servicio de Hospitalización convencional.
Para ello, se seleccionó una muestra de profesionales de enfermería de ambos servicios, garantizando que los grupos fueran independientes (cada profesional pertenece únicamente a un servicio).
El nivel de burnout se evaluó mediante una escala breve de agotamiento emocional, compuesta por un único ítem tipo Likert con 5 categorías ordinales:
0 = Nunca
1 = Rara vez
2 = Algunas veces
3 = A menudo
4 = Siempre
Analiza los datos indicando adecuadamente todos los elementos del análisis (tipo de diseño, hipótesis, método) y su conclusión.
En pacientes hospitalizados por neumonía adquirida en la comunidad (NAC) de moderada gravedad, se ha descrito que el uso de corticoides sistémicos puede acelerar la resolución de la respuesta inflamatoria, lo que se refleja en una disminución de la proteína C reactiva (PCR), un biomarcador inflamatorio ampliamente utilizado en este contexto clínico.
El personal de Enfermería desempeña un papel clave en la administración del tratamiento, la monitorización del paciente y la evaluación de la respuesta clínica. En este marco, se lleva a cabo un estudio piloto con una muestra de n = 12 pacientes, con el objetivo de explorar la efectividad de los corticoides sistémicos sobre la respuesta inflamatoria.
El estudio consiste en la determinación de la PCR basal al ingreso hospitalario y en una segunda medición tras la administración de dexametasona intravenosa a dosis de 6 mg/24 h durante 3 días. Se define como efecto clínicamente relevante una reducción de al menos 10 mg/L en los niveles de PCR tras el tratamiento.
Los resultados de este estudio piloto servirán como base para estimar el tamaño muestral necesario en un estudio posterior, con el fin de alcanzar una potencia estadística de al menos el 80% para la detección de la citada diferencia clínicamente relevante.
Los datos son:
Analiza los datos del ejercicio anterior mediante un test de Wilcoxon y compara los resultados obtenidos con el método paramétrico y el no paramétrico.
Se pretende evaluar el efecto de una intervención enfermera basada en la movilización precoz sobre la recuperación funcional. Para ello, se comparan dos grupos independientes de 15 pacientes cada uno, tras su ingreso por reagudización respiratoria. Los pacientes se asignan de forma aleatoria al grupo control, que recibe cuidados estándar, o al grupo experimental, que recibe dichos cuidados junto con un programa de movilización precoz supervisado por enfermería. La variable respuesta es el tiempo transcurrido desde el ingreso hasta la deambulación autónoma, medido en horas.
Se considera clínicamente relevante una diferencia mínima de 12 horas en el tiempo hasta la deambulación autónoma entre el grupo experimental y el grupo control, ya que dicho adelanto supone una mejoría funcional perceptible y potencialmente relevante en el proceso de recuperación del paciente hospitalizado por reagudización respiratoria.
Haz una identificación exhaustiva del problema (diseño, hipótesis, lateralidad, enfoque analítico). Analiza los datos y comenta los resultados.
Diseño con muestras independientes. Contraste bilateral, no paramétrico (Mann-Whitney/Wilcoxon). \(\small W=101.5, p=0.638\) No significativo. No hay evidencias de que el desgaste profesional sea mayor en uno de los servicios.
Diseño con muestras apareadas. Contraste unilateral, se trata de comprobar que hay una reducción en la PCR. El test de normalidad de Shapiro-Wilk no es significativo (\(\small P=0.316\)), aunque la muestra es de pequeño tamaño, asumimos inicialmente que el método paramétrico es aplicable.
Test de Student unilateral: \(\small t_{\text{exp}}=1.64,\,\,11\, gl;\quad p=0.064\). Para un nivel de significación \(\small \alpha=0.05\) no podemos rechazar la hipótesis nula de homogeneidad, pero hay indicios de significación. El intervalo al 95% de confianza \(\small 95\%\text{-}IC(\mu_{\text{dif}}) = (-3.06, 21.02)\) pone de manifiesto que el efecto puede ser superior a \(\small \delta=10\) y no lo estamos declarando significativo.
Análisis de la potencia y determinación del tamaño muestral para detectar un efecto \(\small \delta=10\) con \(\small \theta=0.80\): El intervalo de confianza a nivel \(\small 1-2\beta = 0.60\) es \(\small 60\%\text{-}IC(\mu_{\text{dif}}) = (4.19, 13.77)\), lo que corrobora que el test no tiene una potencia del 80%. El tamaño muestral para disponer de dicha potencia es \(\small n \ge 34\) casos.
Observamos que el test de Wilcoxon unilateral da un resultado significativo \(\small(p = 0.021)\). ¿Cómo se explica esta discrepancia con el test de Student?
Este estudio piloto con diseño apareado, presenta un tamaño muestral muy reducido \(\small (n = 12)\). En estas condiciones, la obtención de resultados aparentemente discrepantes entre la t de Student para muestras apareadas \(\small (p = 0.064)\) y el test no paramétrico de Wilcoxon \(\small(p = 0.021)\) es un fenómeno totalmente explicable desde el punto de vista metodológico.
En realidad, ambos contrastes apuntan en la misma dirección clínica, es decir, hacia un descenso de la PCR tras el tratamiento, y la discrepancia se limita únicamente al umbral de significación estadística (en un caso \(\small p\) es ligeramente superior a un \(\small \alpha\) del 5% y en el otro es inferior a este umbral).
Consecuentemente, estos resultados deben interpretarse de forma complementaria: la significación obtenida con Wilcoxon sugiere un efecto consistente a nivel individual, mientras que la falta de significación de la t refleja la limitación de potencia propia de un estudio piloto con un tamaño muestral tan reducido. Por tanto, los resultados no son contradictorios, sino coherentes con la naturaleza exploratoria del estudio y refuerzan la necesidad de un tamaño muestral mayor para confirmar el efecto con métodos paramétricos en un estudio definitivo.
Contraste de homogeneidad entre dos muestras independientes. El contraste de interés es el unilateral, en el sentido de una reducción del tiempo del grupo experimental respecto al grupo control.
No hay significación del test de normalidad en ninguno de los dos grupos. Asumimos que el enfoque paramétrico es correcto. Se detecta una mayor heterogeneidad en el grupo control (esto induce a pensar que el tratamiento regulariza más el tiempo de recuperación). La información muestral es compatible con la hipótesis unilateral de interés \((\small \bar{x}_{\text{control}} > \bar{x}_{\text{exp}})\) El test de Student (versión de Welch) es significativo con \(\small p=0.022\). Además de ser estadísticamente significativo, el efecto del programa de movilización precoz es clínicamente relevante, ya que \(\small 95\%\text-IC(\mu_{\text{control}}-\mu_{\text{exp}}) = (0.305, 20.362)\) toma valores más allá de la reducción umbral \(\small \delta=12\) horas.