[1] 0.2030717
[1] 0.1014185
[1] 4.009259
22/mayo/2026
\(\tiny \blacksquare \,\,\) En las ciencias de la salud, los estudios comparativos ocupan un lugar central, ya que permiten evaluar diferencias entre grupos en relación con una variable respuesta de interés.
En este tipo de estudios, se comparan dos o más grupos con el objetivo de determinar si presentan un comportamiento similar o si, por el contrario, existen diferencias que sugieran que proceden de poblaciones con características distintas.
Algunos ejemplos:
Este tipo de situaciones da lugar a los llamados contrastes de homogeneidad para dos muestras, cuyo objetivo general es responder a preguntas del tipo:
¿Podemos considerar que ambas muestras proceden de poblaciones con la misma distribución; o, más concretamente, cuyo parámetro característico (\(\small \mu, \,\pi,...\,\)) toma el mismo valor?
\(\tiny \blacksquare \,\,\) Contenido de este tema 7 y del tema 8:
Muestras independientes
Cada observación pertenece solo a un grupo y las observaciones entre grupos son estadísticamente independientes, sin relación natural entre los sujetos.
Ejemplos
Muestras apareadas o relacionadas. Cada observación del primer grupo está emparejada con una (y solo una) del segundo, formando pares de datos dependientes.
Ejemplos
Interés del diseño apareado
CC-BY-SA
\(\tiny \blacksquare \,\,\) Introducimos la notación que usaremos para describir una variable de interés en distintos grupos. Este tipo de notación será recurrente en el resto del curso:
\(\tiny \blacksquare \,\,\) Condicionamiento por grupos
Cuando se escribe \[ X|G=1,\qquad X|G=2 \qquad \]
se alude a la misma variable aleatoria \(\small X\) pero restringida a cada uno de los grupos.
El símbolo “\(\small ∣\) ” se lee como “condicionado a” o “cuando”, de manera que \(\small X|G=g \,\,\) significa “la variable aleatoria \(\small X\) cuando sabemos que el sujeto pertenece al grupo \(\small g\)”
Análogamente \[ \qquad F_{X|G=1},\qquad F_{X|G=2} \] son las funciones de distribución condicionadas al grupo, es decir, las funciones que describen cómo se distribuye \(\small X\) dentro de cada grupo.
En este contexto, se alude a \(\small F_X\) como la función de distribución marginal (“distribución de \(\small X\) al margen de \(\small G\)”).
Homogeneidad entre dos muestras significa que las dos muestras proceden de poblaciones con la misma distribución respecto a la variable respuesta.
En términos más concretos:
\[ F_{X|G=1} = F_{X|G=2} \tag{1}\]
La hipótesis de homogeneidad es una hipótesis sobre las distribuciones condicionadas
Que La variable respuesta \(\small X\) sea independiente de la variable de agrupación \(\small 𝐺\) implica que
\[ F_{X|G=1} = F_{X|G=2}=F_X \tag{2}\]
es decir, las distribuciones condicionadas son equivalentes entre sí e iguales a la distribución global, es decir, a la distribución marginal (se la llama así por ser la distribución de \(\small X\) “al margen” del grupo al que pertenezca el sujeto).
La hipótesis de independencia alude a la relación conjunta entre las dos variables
En general, al tratar con dos grupos asumiremos que
Independencia de la respuesta respecto a la variable de agrupación \(\quad \Leftrightarrow \quad\) igualdad (homogeneidad) de distribuciones entre grupos
Homogeneidad e independencia no son conceptos idénticos
| Contexto clínico | Homogeneidad (comparación entre grupos) | Independencia (enfoque probabilístico) | Hipótesis en términos de parámetros |
|---|---|---|---|
| Nivel medio de hemoglobina en pacientes con y sin suplemento de hierro | La distribución de la hemoglobina es igual en ambos grupos | La hemoglobina es independiente del tratamiento | \(\small \text{H}_0: \mu_1 = \mu_2\) |
| Nivel de glucosa según tipo de dieta (A vs B) | La distribución de glucosa es igual entre dietas | La glucosa es independiente del tipo de dieta | \(\small \text{H}_0: \mu_1 = \mu_2\) |
| Variabilidad de la presión arterial según tratamiento antihipertensivo | La variabilidad es igual en ambos grupos | La presión arterial es independiente del tratamiento en términos de dispersión | \(\small \text{H}_0: \sigma_1^2 = \sigma_2^2\) |
| Variabilidad del tiempo de estancia hospitalaria según protocolo de cuidados | Igual dispersión en ambos grupos | La estancia es independiente del protocolo en términos de variabilidad | \(\small \text{H}_0: \sigma_1^2 = \sigma_2^2\) |
| Proporción de infección nosocomial según tipo de unidad (UCI vs planta) | La proporción de infección es igual en ambos grupos | La infección es independiente del tipo de unidad | \(\small \text{H}_0: \pi_1 = \pi_2\) |
| Proporción de úlceras por presión según uso de colchón especial | Igual proporción en ambos grupos | La aparición de úlceras es independiente del uso del colchón | \(\small \text{H}_0: \pi_1 = \pi_2\) |
| Nivel medio de dolor según técnica analgésica | Igual media de dolor en ambos grupos | El dolor es independiente de la técnica analgésica | \(\small \text{H}_0: \mu_1 = \mu_2\) |
| Proporción de reingresos según programa de educación sanitaria | Igual proporción de reingresos | El reingreso es independiente del programa | \(\small \text{H}_0: \pi_1 = \pi_2\) |
El objetivo de esta sección es evaluar si dos grupos presentan la misma variabilidad
\(\large ^{*}\) Etimología de homocedasticidad y heterocedasticidad: homo- (del griego ὁμός homos) igual, mismo; hetero- (del griego ἕτερος, héteros) otro, diferente; -cedasticidad (del griego σκεδασις, skédasis) dispersión.
En un servicio de nefrología se comparan dos estrategias de manejo de fármacos potencialmente nefrotóxicos en pacientes hospitalizados:
Aunque ambas estrategias mantienen valores medios similares de creatinina sérica durante el ingreso, se plantea analizar otro aspecto clínicamente relevante: la estabilidad de la función renal entre pacientes.
Desde el punto de vista clínico, una menor variabilidad en la creatinina indicaría una respuesta renal más homogénea y controlada, mientras que una mayor variabilidad reflejaría mayor riesgo de inestabilidad renal en ciertos pacientes.
Se desea contrastar si ambas estrategias presentan la misma variabilidad en los niveles de creatinina sérica. Para ello, se analizaron dos muestras independientes de 15 pacientes cada una, correspondientes a cada estrategia. Los niveles de creatinina observados se presentan a continuación:

| Método | Grupos | Supuesto clave |
Comando en R
|
|---|---|---|---|
| F de Fisher (cociente de varianzas) | 2 | Normalidad estricta en ambas poblaciones; muestras independientes |
var.test(x, y)
|
| Bartlett | ≥ 2 | Normalidad en todos los grupos; muy sensible a no normalidad |
bartlett.test(x ~ g)
|
| Fligner–Killeen | ≥ 2 | No paramétrico; muy robusto frente a asimetría y colas pesadas |
fligner.test(x ~ g)
|
| Levene | ≥ 2 | No requiere normalidad; basado en desviaciones respecto a la media o mediana |
car::leveneTest(x ~ g)(no en R base) |
| Brown–Forsythe | ≥ 2 | No requiere normalidad; basado en desviaciones respecto a la mediana (robusto a outliers) |
onewaytests::bf.test(x ~ g)(no en R base) |
\(\tiny \blacksquare \,\,\) Es el test más clásico y canónico para comparar varianzas. Fue introducido en 1920 por Ronald A. Fisher (estadístico y biólogo, uno de los padres –para muchos “el padre”– de la estadística moderna). De este test se deriva la distribución F de Snedecor.
Hipótesis: \(\begin{cases} \text{H}_0: & \sigma_{1}^2 = \sigma_{2}^2 \\ \text{H}_1: & \sigma_{1}^2 \ne \sigma_{2}^2 \end{cases} \qquad\) estas hipótesis son equivalentes a \(\begin{cases} \text{H}_0: & \sigma_{1}^2/\sigma_{2}^2=1 \\ \text{H}_1: & \sigma_{1}^2/\sigma_{2}^2\ne 1 \end{cases} \qquad\)
Nivel de significación: si no hay motivos para establecer otro valor, se considera \(\alpha=0.05\).
Información muestral:
Estadístico de contraste: \(F_{\text{exp}}=\large{\frac{s_1^2}{s_2^2}}\), es el cociente de las varianzas muestrales.
Distribución del estadístico de contraste: \(F_{\text{exp}} \sim F_{n_1-1,\, n_2-1}\) (Distribución F de Fisher-Snedecor). Observemos que la distribución F depende de los grados de libertad de la varianza del numerador y de los de la varianza del denominador. Será necesario indicar siempre los dos.
Intervalo de confianza para el cociente de varianzas
\[
IC_{1-\alpha}\left( \frac{\sigma_1^2}{\sigma_2^2}\right) =
\left(
\frac{s_1^2}{s_2^2}\,
F_{\alpha/2,\;n_2-1,\;n_1-1}
\;,\;
\frac{s_1^2}{s_2^2}\,
F_{1-\alpha/2,\;n_2-1,\;n_1-1}
\right)
\] En coherencia con el contraste de hipótesis, el intervalo de confianza a nivel \(1-\alpha\), incluirá el valor \(F=1\) cuando \(p>\alpha\), y lo excluirá cuando \(p\le\alpha\).
Conclusión: Indicar el valor de \(p\) obtenido y, si el objetivo final es comparar las variabilidades, los límites del intervalo.
Hipótesis: \(\begin{cases} \text{H}_0: & \sigma_{A}^2 = \sigma_{B}^2 \\ \text{H}_1: & \sigma_{A}^2 \ne \sigma_{B}^2 \end{cases} \qquad\)
Nivel de significación: establecemos \(\alpha=0.05\)
Información muestral y estimaciones puntuales:
Estrategia A: \(n=15,\qquad s_{A}^2=0.0412\)
Estrategia B: \(n=15,\qquad s_{B}^2=0.0103\)
Cociente de varianzas: \(F_{\text{exp}}=\frac{0.0412}{0.0103}=4.0093\)
Resolución: Test de Fisher para el cociente de varianzas
Conclusión:
A un nivel de significación del 5%, se observan diferencias significativas en la variabilidad de ambas estrategias (\(F_{14,\,14}=4.01;\quad p=0.014\)). En particular, la aplicación del ajuste dinámico con monitorización intensiva genera resultados más homogéneos que el ajuste estándar de la dosis, lo que se traduce en una respuesta renal más controlada.
La magnitud de la diferencia en variabilidad entre ambos grupos, medida mediante el cociente de varianzas, se estima mediante el intervalo de confianza \(95\%\text{-}IC=(1.35, 11.94)\), lo que indica que la variabilidad real con la estrategia A puede ser entre 1.35 y 11.94 veces mayor que la correspondiente a la estrategia B.
Observaciones. Apreciaciones y normas de redacción científica:
\(\tiny \blacksquare \,\,\) En el análisis de dos grupos independientes es habitual plantear si proceden de poblaciones con la misma media. Este objetivo se aborda mediante el contraste de homogeneidad de medias, cuya elección depende de los supuestos asumidos sobre los datos, dando lugar a métodos paramétricos y no paramétricos.
\(\tiny \blacksquare \,\,\) El test t de Student para dos muestras independientes permite contrastar la igualdad de medias entre dos poblaciones independientes bajo supuestos de normalidad. Dependiendo de si puede asumirse o no la homogeneidad de varianzas, se distinguirá entre la formulación clásica del test y su versión con corrección de Welch.
Hipótesis: En el test t para muestras independientes, contrastar la homogeneidad de medias \[ \large \text{H}_0: \mu_1=\mu_2 \] es equivalente a contrastar que la diferencia de medias poblacionales es nula. \[ \large \text{H}_0: \mu_1-\mu_2=0 \] La diferencia de medias \(\delta = \mu_1-\mu_2\) representa el tamaño del efecto en la escala original de la variable (es el efecto bruto). De manera que podemos expresar a la hipótesis nula como una hipótesis de ausencia de efecto de la variable explicativa binaria que define los dos grupos sobre la media de la variable cuantitativa analizada \[ \large \text{H}_0: \delta=0 \]
Consecuentemente, la hipótesis alternativa se podrá formular en cada caso como el suceso complementario al formulado en la hipótesis nula de forma bilateral o unilateral (en este caso, la desigualdad que no interesa se incorpora a la hipótesis nula)
Se desea evaluar la eficacia de un nuevo fármaco hipolipemiante sobre el colesterol LDL (mg/dL) en pacientes con hipercolesterolemia primaria. Para ello, se diseña un estudio con dos grupos independientes de pacientes:
Al final del estudio se mide el colesterol LDL en todos los pacientes.
Queda por resolver la identidad de \(\small SE\left(\bar{x}_1-\bar{x}_2\right)\), y esto tiene que ver con que se verifique, o no, la hipótesis de homogeneidad de varianzas. Lo abordamos en la siguiente sección.
Ambos criterios utilizan la misma diferencia de medias como estadístico básico. La diferencia fundamental reside en la estimación de la varianza de la diferencia de medias:
Esta diferencia se traduce en una formulación distinta del error estándar y, como consecuencia, en distintos grados de libertad.
Tradicionalmente, la elección entre el test t de Student y el de Welch se realizaba en función de la significación de un test previo de igualdad de varianzas (usualmente el test F de Fisher). En la práctica actual, este enfoque ya no se recomienda.

La recomendación actual es utilizar siempre el test de Welch
El test de Student se conserva por motivos históricos y didácticos. No obstante, el supuesto de homogeneidad de varianzas y el tratamiento con varianzas agrupadas subyace a otras técnicas inferenciales, como el ANOVA clásico.
\(\tiny \blacksquare \,\,\) Una vez realizado el test para contrastar si las medias de los dos grupos son iguales, debe darse una estimación del tamaño bruto del efecto: \[ \delta = (\mu_1-\mu_2) \]
Como ya hemos visto, el estimador puntual del tamaño bruto del efecto es la diferencia de medias muestrales: \[ \hat \delta = (\bar{x}_1-\bar{x}_2) \]
El intervalo de confianza para \(\delta\) se obtiene directamente de los elementos que constituyen el estadístico de contraste \[ t_{\text{exp}}=\frac{(\bar{x}_1 - \bar{x}_2)}{SE(\bar{x}_-\bar{x}_2)} \quad \rightarrow \quad (\bar{x}_1 - \bar{x}_2)\pm t_{\alpha/2,\, f}\,\, SE(\bar{x}_-\bar{x}_2) \]
de manera que \[ (1-\alpha)\text{-}IC(\mu_1-\mu_2)=(\bar{x}_1 - \bar{x}_2)\pm t_{\alpha/2,\, f}\,\, SE(\bar{x}_-\bar{x}_2) \]
en donde los grados de libertad \(f\) y el error estándar de la diferencia de medias son los que se hayan utilizado en el test (en general los del método de Welch).
El interés de este intervalo es fundamental:

Como el test de interés es unilateral, comenzamos comprobando que la información muestral es compatible con la hipótesis alternativa: efectivamente \(\bar{x}_{\text{ctrl}} < \bar{x}_{\text{tto}}\) (la desigualdad de las medias se da en la dirección de H₁)
Creamos un data frame con estos datos:
ctrl <- c(
127.4,
126.7,
156.1,
154.7,
161,
124.2,
136.3,
140.4,
147.9,
172.1,
167,
126.6,
154.7,
152.2,
115.3
)
tto <- c(
125.4,
143.9,
133.1,
133,
153.6,
131,
115.9,
128.4,
124.8,
126.6,
143.2,
138.8,
127.6,
124.1,
129.7
)
# definimos tamaños muestrales
n_ctrl <- length(ctrl)
n_tto <- length(tto)
# creacion del data.frame
datos <- data.frame(
LDL = c(ctrl, tto),
Grupo = factor(rep(c("Control", "Tratamiento"), times = c(n_ctrl, n_tto)))
)
Resolución:
Shapiro-Wilk normality test
data: ctrl
W = 0.94819, p-value = 0.4965
Shapiro-Wilk normality test
data: tto
W = 0.94146, p-value = 0.401
Welch Two Sample t-test
data: LDL by Grupo
t = 2.391, df = 21.694, p-value = 0.01296
alternative hypothesis: true difference in means between group Control and group Tratamiento is greater than 0
95 percent confidence interval:
3.442216 Inf
sample estimates:
mean in group Control mean in group Tratamiento
144.1733 131.9400
# t-test para 2 Muestras Independientes
# -------------------------------------
# Información muestral y estimación de las medias
Niveles de agrupación: Control, Tratamiento
n media dt sem IC
datos$LDL [Control] 15 144.173 17.383 4.488 (134.547, 153.8)
datos$LDL [Tratamiento] 15 131.940 9.512 2.456 (126.672, 137.208)
____
* IC elaborados al 95% de confianza para estimar μ₁ y μ₂ respectivamente
# Pruebas de normalidad (test de Shapiro-Wilk)
[1] Para grupo = Control, W = 0.948, gl = 15, p = 0.496
[2] Para grupo = Tratamiento, W = 0.941, gl = 15, p = 0.401
# Test de homogeneidad de varianzas. Fexp = (Var₁/var₂)
Fexp = 3.340, gl₁ = 14, gl₂ = 14, p = 0.031
# Diferencia de medias (datos$LDL [Control] - datos$LDL [Tratamiento])
Hipótesis a contrastar: H₀:μ₁=μ₂ (μ₁-μ₂=0)
a) Test de Student (varianzas homogéneas)
texp = 2.391, gl = 28
p = 0.024 para la alternativa bilateral H₁:μ₁≠μ₂
p = 0.012 para la alternativa unilateral H₁:μ₁>μ₂
95%-IC(μ₁-μ₂) = (1.753, 22.714)
b) Test de Welch (varianzas no homogéneas)
texp = 2.391, gl = 21.69
p = 0.026 para la alternativa bilateral H₁:μ₁≠μ₂
p = 0.013 para la alternativa unilateral H₁:μ₁>μ₂
95%-IC(μ₁-μ₂) = (1.614, 22.853)
\(\tiny \blacksquare \,\,\) El análisis estadístico debe complementarse con la interpretación clínica: no basta con detectar diferencias, es necesario valorar su importancia.
Significación estadística
Significación clínica
Puede haber:
Ejemplos:
Ya sabemos que la potencia de un test está condicionada por el tamaño de la muestra, o muestras, implicadas en el análisis.
Es posible determinar el tamaño muestral necesario para que un test, resuelto con un nivel de significación \(\alpha\) declare significativa una diferencia \(\delta\) el \(\theta = (1-\beta)\times 100\%\) de las veces.
Es decir, la determinación del tamaño muestral requiere especificar:
En el caso actual, de la comparación de medias mediante test de la t
Es necesario disponer de muestras piloto para poder inferir su variabilidad (como ocurría con el IC, hay que tener una estimación de la varianza para poder inferir el tamaño de muestra)
Cuando las varianzas son homogéneas (muestras homocedásticas), es preferible (pero no necesario) que las dos muestras tengan igual tamaño.
En una situación heterocedástica, es preferible que la muestra con mayor variabilidad tenga más observaciones (mayor variabilidad requiere mayor información para poder caracterizar a la población)
La función testt() del paquete BioestadisticaR2 automatiza el cálculo del tamaño muestral, como veremos en los ejemplos del final de esta sección.

Hemos llamado \(\delta\) a la diferencia mínima clínicamente relevante (DMCR) (en inglés Minimal Clinically Important Difference, MCID), que es el menor cambio que importa clínicamente y que debe ser fijado a priori para guiar el diseño, el tamaño muestral y la interpretación de los resultados.
Se establece combinando tres fuentes principales:
Reducción del nivel de colesterol LDL (continuación)
En el informe de resultados, se incluiría un texto en la línea del siguiente:
La diferencia mínima clínicamente relevante se definió a priori como una reducción de 10 mg/dL en los niveles de colesterol LDL entre el grupo tratado y el grupo placebo. Esta elección se basa en evidencia consistente procedente del metaanálisis de Silverman et al. (2016), que muestra que reducciones del LDL de esta magnitud se asocian con una disminución mensurable del riesgo cardiovascular, y se consideran el umbral mínimo para un beneficio clínico relevante en prevención primaria e intermedia.
Con la muestra original, presentada al inicio de la sección, obtuvimos que el efecto del fármaco era estadísticamente significativo (\(p=0.013\) en el test unilateral.). Para una diferencia mínima clínicamente relevante \(\small \delta=10\) mg/dL, el efecto detectado también fue clínicamente relevante, ya que el intervalo para el efecto bruto \(\small 95\%\text{-}IC\left(\mu_{\text{ctrl}}-\mu_{\text{tto}}\right)=(1.61, 22.85)\) toma valores más allá de \(\small (-10,\,+10)\).
Para ganar en interpretación, vamos a ver dos situaciones diferentes para este mismo enunciado. Las dos dan lugar a un resultado no significativo estadísticamente. En la primera (caso a), el efecto detectado tampoco es clínicamente relevante, pero en la segunda (caso b) sí que lo es.
Utilizamos la función testt() del paquete BioestadisticaR2. Mantenemos la diferencia mínima clínicamente relevante (DMCR) en 10 mg/dL y deseamos tener una potencia de, al menos, el 80% en el test. En ambos casos, indicamos el valor de DMCR en el argumento delta y la potencia deseada en el argumento potencia.
# t-test para 2 Muestras Independientes
# -------------------------------------
# Información muestral y estimación de las medias
Niveles de agrupación: 1, 2
n media dt sem IC
Muestra 1 15 139.7 14.200 3.666 (131.836, 147.564)
Muestra 2 15 135.8 11.300 2.918 (129.542, 142.058)
____
* IC elaborados al 95% de confianza para estimar μ₁ y μ₂ respectivamente
# Test de homogeneidad de varianzas. Fexp = (Var₁/var₂)
Fexp = 1.579, gl₁ = 14, gl₂ = 14, p = 0.403
# Diferencia de medias (Muestra 1 - Muestra 2)
Hipótesis a contrastar: H₀:μ₁=μ₂ (μ₁-μ₂=0)
a) Test de Student (varianzas homogéneas)
texp = 0.832, gl = 28
p = 0.412 para la alternativa bilateral H₁:μ₁≠μ₂
p = 0.206 para la alternativa unilateral H₁:μ₁>μ₂
95%-IC(μ₁-μ₂) = (-5.698, 13.498)
b) Test de Welch (varianzas no homogéneas)
texp = 0.832, gl = 26.66
p = 0.413 para la alternativa bilateral H₁:μ₁≠μ₂
p = 0.206 para la alternativa unilateral H₁:μ₁>μ₂
95%-IC(μ₁-μ₂) = (-5.720, 13.520)
# Estudio de la potencia: δ = 10 -> [-10, 10], potencia θ =80%
60%-IC(μ₁-μ₂) = (-0.108, 7.908)
---[-(-|-)-]---- potencia > 80%
Leyenda: --(---)-- --[---|---]--
IC- IC+ -δ 0 +δ
# Estimación del tamaño muestral para detectar una diferencia δ=10 con potencia θ=80%
(1) Considerando las varianzas homogéneas:
(n1 = n2) ⩾ 28 casos en cada grupo
(2) Considerando las varianzas heterogéneas: k=s₁/s₂=1.257, (gl'=27.64)
n₁ ⩾ 31 casos en el grupo [1]
n₂ ⩾ 25 casos en el grupo [2]
# t-test para 2 Muestras Independientes
# -------------------------------------
# Información muestral y estimación de las medias
Niveles de agrupación: 1, 2
n media dt sem IC
Muestra 1 15 139.7 16.200 4.183 (130.729, 148.671)
Muestra 2 15 132.8 11.300 2.918 (126.542, 139.058)
____
* IC elaborados al 95% de confianza para estimar μ₁ y μ₂ respectivamente
# Test de homogeneidad de varianzas. Fexp = (Var₁/var₂)
Fexp = 2.055, gl₁ = 14, gl₂ = 14, p = 0.190
# Diferencia de medias (Muestra 1 - Muestra 2)
Hipótesis a contrastar: H₀:μ₁=μ₂ (μ₁-μ₂=0)
a) Test de Student (varianzas homogéneas)
texp = 1.353, gl = 28
p = 0.187 para la alternativa bilateral H₁:μ₁≠μ₂
p = 0.093 para la alternativa unilateral H₁:μ₁>μ₂
95%-IC(μ₁-μ₂) = (-3.547, 17.347)
b) Test de Welch (varianzas no homogéneas)
texp = 1.353, gl = 25.02
p = 0.188 para la alternativa bilateral H₁:μ₁≠μ₂
p = 0.094 para la alternativa unilateral H₁:μ₁>μ₂
95%-IC(μ₁-μ₂) = (-3.603, 17.403)
# Estudio de la potencia: δ = 10 -> [-10, 10], potencia θ =80%
60%-IC(μ₁-μ₂) = (2.533, 11.267)
---[---|-(-]-)-- potencia < 80%
Leyenda: --(---)-- --[---|---]--
IC- IC+ -δ 0 +δ
# Estimación del tamaño muestral para detectar una diferencia δ=10 con potencia θ=80%
(1) Considerando las varianzas homogéneas:
(n1 = n2) ⩾ 33 casos en cada grupo
(2) Considerando las varianzas heterogéneas: k=s₁/s₂=1.434, (gl'=27.14)
n₁ ⩾ 38 casos en el grupo [1]
n₂ ⩾ 27 casos en el grupo [2]
Como vemos, la indicación de valores para la potencia y para la DMCR provoca que la función testt() genere el análisis del intervalo para la diferencia (a nivel \(\small 1-\alpha\) si en el test fue \(\small p \le \alpha\) y a nivel \(\small 1-2\beta\) si fue \(\small p \ge \alpha\)) y estime el tamaño de muestra necesario para declarar significativa la DMCR indicada con la potencia deseada.
\(\tiny \blacksquare \,\,\) En muchos estudios biomédicos no se cumplen los supuestos del test t de Student:
En estos casos se utilizan tests no paramétricos, que no requieren normalidad ni estimación de parámetros poblacionales.
Hay diferentes estrategias. Aquí vemos solo los test U de Mann-Whitney y W de Wilcoxon, que son equivalentes.
Hipótesis: Dadas dos muestras independientes, \(A\) y \(B\), la hipótesis nula es ambas proceden de la misma distribución \[ \large \text{H}_0: F_A=F_B \]
Método:
CC-BY-SA
Una vez determinadas las sumas de rangos, basta con considerar solo una para construir el estadístico de contraste:
El test W de Wilcoxon se basa en la suma de rangos de uno de los grupos \(W_{\text{exp}}=\sum{R_A}\).
El test U de Mann–Whitney se basa en el número de veces que una observación de un grupo supera a una del otro. Esto se determina también a partir de la suma de rangos: \[ U_{\text{exp}} = \sum{R_A}− \frac{n_A(n_A+1)}{2} \]
Hay una relación entre ambos estadísticos: \[ \large U_{\text{exp}} = W_{\text{exp}} − n_A (n_A+1)/2 \]
Los dos test son equivalentes. En la literatura aplicada se alude normalmente al test de Mann-Whitney
Se quiere evaluar si un nuevo protocolo de cuidados de enfermería reduce el dolor postoperatorio en pacientes intervenidos de cirugía menor. El dolor se mide a las 24 horas mediante la escala visual analógica (EVA) de valoración de la intensidad de dolor (se trata de una escala que toma valores de intensidad de 0 a 10).
Observamos que se trata de muestras pequeñas de valores en una escala. Además, las distribuciones no parecen presentar simetría. No debemos usar un test de Student.
Pregunta clínica: ¿Presentan los pacientes con el nuevo protocolo menor dolor postoperatorio que los pacientes con cuidados habituales?
Hipótesis: La hipótesis nula es que ambos grupos proceden de la misma distribución de dolor. La alternativa de interés es unilateral, la distribución del dolor en el grupo al que se aplica el nuevo protocolo toma valores más bajos que la del grupo al que se aplica el protocolo tradicional. Formalmente: \[ \begin{cases} \text{H}_0: & F_{\text{nuevo}} \ge F_{\text{trad}} \\ \text{H}_1: & F_{\text{nuevo}} < F_{\text{trad}} \end{cases} \] pero lo importante es tener clara la formulación literal de las hipótesis.
Nivel de significación: Establecemos \(\alpha = 0.05\)
Resolución: La función de R que permite realizar el test de Wilcoxon es wilcox.test() (no existe un procedimiento específico para el test de Mann-Whitney). En el paquete BioestadisticaR2 se implementa la función testwx() (hace solo el test bilateral, el valor p del unilateral se obtiene dividiendo la bilateral por dos). Vemos la salida de ambos métodos:
Test de Wilcoxon/Mann-Whithney para dos muestras independientes
----------------------------------------------------------------
# Información muestral ---
Muestra n min Q1 Q2 Q3 max RIQ
1 grupo_n 8 3.000 3.750 4.000 5.000 6.000 1.250
2 grupo_t 7 5.000 6.000 7.000 7.500 8.000 1.500
# Rangos ---
Muestra n Suma_rangos Rango_medio U
1 grupo_n 8 39 4.875 53.000
2 grupo_t 7 81 11.571 3.000
# Test ---
U = 3.000; Z = 2.893; W = 3.000; p = 0.003
# Tamaño del efecto ---
Diferencia de localización: -2.500 95%-IC = (-4.000, -1.000)
r = 0.747 (criterio: 0.1 pequeño; 0.3 mediano; >0.5 grande)
Probabilidad de superioridad PS = 0.946
(probabilidad de que un valor al azar de M1 sea < a un valor al azar de M2)
El test no paramétrico de Mann‑Whitney, aplicado de forma unilateral, mostró que los pacientes atendidos con el nuevo protocolo de cuidados de enfermería presentaron niveles de dolor postoperatorio significativamente menores a las 24 horas que aquellos que recibieron cuidados habituales \((\small U=3, p=0.002)\). Estos resultados indican que el nuevo protocolo se asocia a una menor intensidad de dolor, sugiriendo un beneficio clínico relevante en el manejo postoperatorio del paciente.
| Aspecto inferencial | Mann‑Whitney / Wilcoxon | t de Student (muestras independientes) |
|---|---|---|
| Tipo de test | No paramétrico, basado en rangos | Paramétrico, basado en medias |
| Supuestos de distribución | No asume normalidad | Asume normalidad (o aproximación. Los t-test son robustos frente a una no normalidad moderada) |
| Robustez frente a valores extremos | Alta | Baja–moderada |
| Hipótesis nula | Igualdad de distribuciones | Igualdad de medias poblacionales |
| Potencia relativa | Menor que en los t-test | Alta si se cumple la normalidad |
| Parámetro inferido | No explícito | Diferencia de medias |
| Interpretación clínica directa | Limitada | Alta |
| Intervalos de confianza | No naturales; requieren supuestos adicionales | Sí, directos y fácilmente interpretables |
| Tamaño del efecto | Indirecto (probabilístico o basado en rangos) | Directo (diferencia de medias, y medidas estandarizadas, como la d de Cohen) |
| Tipo de inferencia | Principalmente basada en el valor p | Inferencia completa (estimación + contraste) |
| Uso recomendado | Muestras pequeñas, no normalidad, datos ordinales | Datos continuos con supuestos razonables |
Como alternativa a los tests paramétricos y no paramétricos clásicos, los métodos de bootstrap permiten estimar intervalos de confianza y tamaños de efecto sin asumir una forma específica de la distribución.
No obstante, la validez de los métodos bootstrap depende de la representatividad real de la muestra (si hay sesgos de selección, el bootstrap los hereda), de que el tamaño muestral sea suficientemente grande y su interpretación puede ser menos directa en contextos clínicos.
Hablamos de muestras apareadas cuando cada observación de una muestra puede emparejarse de forma natural con una observación de la otra, existiendo una relación directa uno a uno.
Recordemos que este tipo de muestreo se presenta cuando
Debe cumplirse la correspondencia 1:1 de las observaciones de cada muestra: Cada observación del primer par (instante o condición) debe corresponderse con una única observación del segundo.
Los pares de observaciones deben ser independientes entre sí.
En este contexto no es válido comparar las muestras como si fueran independientes, ya que se violaría –precisamente– el supuesto de independencia.
El análisis se centra en las diferencias dentro de cada par, no en las medias marginales de cada muestra.
Por ejemplo, en un diseño pretest-postest se analiza la variable diferencia\(^{*}\) \[
\large
D_i=X_i^{\text{post}} - X_i^{\text{pre}}
\] De este modo, el análisis se reduce al de una sola muestra (la de las diferencias \(D_i\)).
El apareamiento permite reducir la variabilidad debida a factores individuales, aumentando la potencia estadística del contraste.
__________
\(\large ^{*}\) El orden en que se consideren las diferencias es trivial, pero hay que tenerlo en cuenta en el momento de interpretar los resultados.
Una vez planteadas las diferencias entre pares, la elección del test depende fundamentalmente de los supuestos sobre la distribución de dichas diferencias:
Cuando las muestras son grandes:
\[ \large X_{\text{dif}}=X_{\text{A}}-X_{\text{B}} \]
de manera que:
\[ \large \text{H}_0: \mu_{\text{dif}}=0 \]
en donde \(\mu_{\text{dif}}\) es la media poblacional de la diferencia \(X_{\text{dif}}\).
La hipótesis que se plantea en el test t para muestras apareadas no coincide con la del test para muestras independientes \(\small \mu_\text{A} = \mu_{\text{B}}\), ya que el análisis se formula sobre la variable diferencia.
Desde el punto de vista teórico, el t-test para muestras apareadas puede interpretarse como un t-test para una muestra —el aplicado a las diferencias—, tal y como se introdujo en el tema 5 y se desarrolló con mayor detalle en el tema tema 6. En este contexto, al tratarse de un contraste de homogeneidad, el valor que se somete a contraste es \(\small \mu_0=0\).
\[\large \qquad \begin{cases} \text{H}_0: & \mu_{\text{dif}} = 0 \\ \text{H}_1: & \mu_{\text{dif}} \ne 0 \end{cases}, \qquad \begin{cases} \text{H}_0: & \mu_{\text{dif}} \ge 0 \\ \text{H}_1: & \mu_{\text{dif}} < 0 \end{cases}, \qquad \begin{cases} \text{H}_0: & \mu_{\text{dif}} \le 0 \\ \text{H}_1: & \mu_{\text{dif}} > 0 \end{cases} \]
La primera contrasta si hay un cambio medio, y la segunda y tercera si hay un cambio medio direccional, es decir, una reducción o un aumento (aquí es determinante la forma como se definen las diferencias).
Como siempre, que el test sea unilateral o bilateral es algo que debe asumirse y justificarse a priori.
\[\large \begin{cases} n & \text{tamaño muestral} \\ \bar{x}_{\text{dif}} & \text{media de las diferencias} \\ s_{\text{dif}} & \text{desviación típica de las diferencias} \end{cases} \]
obtenidas a partir de la variable \(x_{\text{dif}}=x_{\text{A}}-x_{\text{B}}\)
\[ \large t_{\text{exp}}=\frac{\bar{x}_{\text{dif}}}{{s_{\text{dif}}/\sqrt{n}}} \]
Bajo la hipótesis nula, este estadístico se distribuye como una t de Student con \(n-1\) grados de libertad
\[ \large t_{\text{exp}} \sim t_{n-1} \]
de manera que el valor p resultante es la probabilidad de obtener un resultado de esta magnitud –o más extrema– si la hipótesis nula es cierta.
\[ \large \bar{x}_{\text{dif}} \pm \,t_{\alpha/2;\,n-1} \frac{s_{\text{dif}}}{\sqrt{n}} \]
que es, precisamente, el intervalo de confianza para la media de una variable normal (ahora, la variable diferencia).
Como ya hemos visto:
En ambos casos, si la diferencia mínima clínicamente relevante (DMCR) considerada, tiene una magnitud superior a los límites del intervalo de confianza para la diferencia, diremos que no hay significación clínica.
Tamaño muestral
Si el test no es significativo pero el efecto detectado es potencialmente grande, la determinación del tamaño muestral sigue los mismos principios que los expuestos para el caso de muestras independientes. Se debe fijar
En un estudio clínico se evalúa el efecto de un programa de rehabilitación respiratoria en pacientes con EPOC leve–moderada.
En 14 pacientes, se mide el volumen espiratorio forzado en el primer segundo (FEV₁, medido en litros) antes de iniciar el programa y tras 8 semanas de intervención. El objetivo es determinar si el programa mejora el FEV₁ medio.
Aunque no existe un valor universal, en pacientes con EPOC se acepta que un incremento del FEV₁ ≥ 100 mL representa una diferencia clínicamente importante, asociada a una mejoría sintomática y un menor riesgo de exacerbaciones. La American Thoracic Society señala, además, que cambios del orden de 50–100 mL pueden ser clínicamente relevantes.
Los datos observados son:

\[ \large \begin{cases} \text{H}_0: & \mu_{\text{dif}} \le 0 \\ \text{H}_1: & \mu_{\text{dif}} > 0 \end{cases} \]
Como la media de la diferencia es positiva, sí que es compatible con la hipótesis \(\mu_{\text{dif}}>0\).
Observemos que \(\bar{x}_{\text{dif}}=\hat{\mu}_{\text{dif}}=\hat{\delta}\), es decir, la media de la diferencia es el estimador del tamaño bruto del efecto del protocolo sobre el FEV₁.
Resolución: Tanto con el código base de R, como con el paquete BioestadisticaR2, hay dos formas equivalentes de resolver este problema: (1) utilizando las dos muestras e indicando que el test es para muestras apareadas y (2) calculando la variable diferencia y realizando el test para una sola muestra:
# Test de normalidad de Shapiro-Wilk
-------------------------------------
n = 14, W = 0.942, p = 0.44

Recordemos que con muestras pequeñas, los diagramas de normalidad pueden exhibir patrones aparentes que son debidos al azar muestral y no reflejan necesariamente la estructura real de la distribución. En principio, podemos asumir que la diferencia entre los valores de FEV₁ tiene una distribución aceptablemente normal.
One Sample t-test
data: diferencia
t = 2.9045, df = 13, p-value = 0.00615
alternative hypothesis: true mean is greater than 0
95 percent confidence interval:
0.09227479 Inf
sample estimates:
mean of x
0.2364286
# t-test para dos muestras relacionadas
# -------------------------------------
# Información muestral y estimación de las medias
n media dt sem IC
post 14 2.314 0.290 0.078 (2.146, 2.481)
pre 14 2.077 0.123 0.033 (2.006, 2.148)
Diferencia 14 0.236 0.305 0.081 (0.061, 0.412)
____
* IC elaborados al 95% de confianza para estimar μ₁, μ₂ y μ₁-μ₂ respectivamente
# Correlación de Pearson entre post y pre:
r = 0.093
# Normalidad de la diferencia (Test de Shapiro-Wilk)
W = 0.942, gl = 14, p = 0.440
# t-test H₀:μ₁=μ₂ (test de homogeneidad)
texp = 2.905, gl = 13
p = 0.012 para la alternativa bilateral H₁:μ₁≠μ₂
p = 0.006 para la alternativa unilateral H₁:μ₁>μ₂
95%-IC(μ₁-μ₂) = (0.061, 0.412)
# t-Test con una muestra
# ----------------------
# Resumen de 'diferencia'
n = 14.000
media = 0.236
d.t. = 0.305
sem = 0.081
# Estimación de la media μ:
95%-IC(μ) = (0.061, 0.412)
# Test de normalidad de Shapiro-Wilk:
W = 0.942, gl = 14, p = 0.440
# Test de Student para contrastar H₀:μ=μ₀ con μ₀=0.000
texp = 2.905, gl = 13
p = 0.012 para la alternativa bilateral H₁:μ≠μ₀
p = 0.006 para la alternativa unilateral H₁:μ>μ₀
Estimación del efecto bruto
95%-IC(μ) = (0.061, 0.412)
En este estudio, el programa de rehabilitación respiratoria se asoció con una mejoría estadísticamente significativa del FEV₁ (\(t(13 gl)=2.90; p=0.006\) en el contraste unilateral), evidenciada por un incremento medio de 0.236 L tras la intervención (\(95\%\text{-}IC=(0.061, 0.412)\) L). Este cambio no solo alcanzó significación estadística en el análisis con muestras apareadas, sino que además superó el umbral habitualmente aceptado como diferencia mínima clínicamente importante, lo que respalda su relevancia clínica. En conjunto, estos resultados sugieren que el programa de rehabilitación produce una mejora funcional pulmonar apreciable y potencialmente beneficiosa para los pacientes.

\(\tiny \blacksquare \,\,\) En la práctica, en los estudios con muestras apareadas, es frecuente encontrarse con alguna de estas situaciones
En estos casos, el test t apareado deja de ser adecuado. Como alternativa no paramétrica se utiliza el test de Wilcoxon para muestras apareadas, también llamado test de los rangos con signo de Wilcoxon, que es el análogo no paramétrico del test t apareado.
Hipótesis: La hipótesis nula es que no hay diferencia entre las dos condiciones (las diferencias se distribuyen simétricamente alrededor de 0). La alternativa se puede plantear bilateral o unilateral y supone que existe diferencia, incremento o disminución entre las dos condiciones.
Procedimiento del test
El test sigue una lógica basada en rangos:
CC-BY-SA
Ventajas
Limitaciones
Se desea evaluar si un tratamiento analgésico reduce el nivel de dolor percibido por los pacientes. Para ello, se selecciona una muestra de 12 pacientes, a los que se les pide que valoren su dolor en una escala ordinal de 1 a 5 (1 = nada de dolor, 5 = dolor muy intenso). La valoración del dolor se realiza en dos momentos:
Las puntuaciones observadas son las siguientes:

Hipótesis: Formulamos un test unilateral:
Obsérvese que en las hipótesis no se involucran parámetros.
Nivel de significación: Establecemos el nivel de significación \(\alpha=0.05\)
Resolución:
Wilcoxon signed rank exact test
data: dolor_post and dolor_pre
V = 6.5, p-value = 0.008789
alternative hypothesis: true location shift is less than 0
Test de Wilcoxon para dos muestras apareadas
----------------------------------------------
# Información muestral ---
Muestra n min Q1 Q2 Q3 max RIQ
1 dolor_post 12 2.000 2.000 3.000 3.250 5.000 1.250
2 dolor_pre 12 2.000 3.000 4.000 4.250 5.000 1.250
# Rangos ---
Se obtienen las diferencias como dolor_post - dolor_pre
Pares de datos efectivos para los rangos: 10 de 12
Muestra n Suma_rangos Rango_medio
1 dif.negativas 9 45 5.000
2 dif.positivas 1 10 10.000
# Test ---
V = 6.500; p = 0.018
z = 2.550; p = 0.011
# Correlación de Spearman ---
rho-Spearman = 0.686; p = 0.014
# Tamaño del efecto ---
Diferencia de localización: (pseudo)mediana = -1.000 95%-IC = (-1.500, -0.500)
r = 0.520; p = 0.018
Se evaluó el efecto del tratamiento analgésico sobre el nivel de dolor percibido mediante una escala ordinal de 5 puntos aplicada antes y después de la intervención. La mejora analgésica se contrasto mediante un test (unilateral) de Wilcoxon para muestras apareadas.
Los resultados del test ponen en evidencia que existen diferencias estadísticamente significativas entre las puntuaciones de dolor antes y después del tratamiento (\(\small V=4.5, p=0.007\)), observándose una disminución significativa del dolor tras la intervención (el intervalo al 95% de confianza para la variación de la mediana de la diferencia es (0.5, 1.5) puntos de reducción en la escala de dolor).
Consecuentemente, hay indicios para asumir que el tratamiento analgésico produce una reducción significativa del dolor percibido en los pacientes estudiados.
Bioestadística Aplicada a la Enfermería © 2026 por Pedro Femia, bajo licencia Creative Commons BY-NC-ND 4.0
.