Tema 7
Estudios comparativos con dos muestras de una variable cuantitativa

Pedro Femia

22/mayo/2026

1 Introducción

\(\tiny \blacksquare \,\,\) En las ciencias de la salud, los estudios comparativos ocupan un lugar central, ya que permiten evaluar diferencias entre grupos en relación con una variable respuesta de interés.

En este tipo de estudios, se comparan dos o más grupos con el objetivo de determinar si presentan un comportamiento similar o si, por el contrario, existen diferencias que sugieran que proceden de poblaciones con características distintas.

Algunos ejemplos:

¿Pesan igual hombres y mujeres?
¿Cambia la presión arterial después de recibir un tratamiento?
¿Se reduce la prevalencia de una enfermedad infecciosa tras una campaña de vacunación?
¿Se puede considerar que los niveles de marcadores inflamatorios son los mismos en un grupo tratado que un grupo sin tratar (control)?
¿Aumenta la respuesta a un tratamiento al ser administrado con un coadyuvante?

Este tipo de situaciones da lugar a los llamados contrastes de homogeneidad para dos muestras, cuyo objetivo general es responder a preguntas del tipo:

¿Podemos considerar que ambas muestras proceden de poblaciones con la misma distribución; o, más concretamente, cuyo parámetro característico (\(\small \mu, \,\pi,...\,\)) toma el mismo valor?

\(\tiny \blacksquare \,\,\) Contenido de este tema 7 y del tema 8:

En este tema 7 vamos a considerar el caso en que la variable respuesta es cuantitativa y los grupos a comparar son solo dos.
En el tema 8 se abordará el análisis de variables cualitativas; veremos un contexto más general en el que los grupos a comparar podrán ser más de dos.

2 Diseño del estudio

Muestras independientes

Muestras independientes
Cada observación pertenece solo a un grupo y las observaciones entre grupos son estadísticamente independientes, sin relación natural entre los sujetos.

Ejemplos

¿Tienen el mismo volumen espiratorio forzado en el primer segundo (FEV₁, medido en litros) sujetos fumadores activos y no fumadores?.
¿Son homogéneas las distribuciones de hemoglobina en mujeres embarazadas y no embarazadas?
Pacientes diagnosticados de cefalea tensional se asignan de forma aleatorizada a un grupo tratado con un analgésico estándar o a un grupo tratado con una nueva formulación. Se investiga si ambos tratamientos presentan una eficacia equivalente.

Muestras apareadas

Muestras apareadas o relacionadas. Cada observación del primer grupo está emparejada con una (y solo una) del segundo, formando pares de datos dependientes.

Autoapareamiento: El mismo sujeto aporta una pareja de observaciones (dependencia intra-sujeto). Son los diseños de medidas repetidas; para el caso de dos medidas repetidas se habla de diseños pretest-postest
Apareamiento natural: no se repiten observaciones sobre el mismo sujeto, pero hay un vínculo natural entre los datos de la pareja (por ejemplo, estudios con hermanos gemelos, paciente-cuidador, madre-hijo).
Apareamiento artificial (matching): establecido por el investigador en términos de las variables que considere de interés cuando no es viable otro tipo de apareamiento. Se persigue que las parejas sean comparables respecto a variables relevantes (control de confusión) Se debe diseñar bien, un apareamiento inadecuado puede introducir sesgo o reducir la eficiencia del análisis.

Ejemplos

Diseño pre-post: Un conjunto de pacientes con hipercolesterolemia familiar se somete a un protocolo de promoción de la actividad física aeróbica. ¿Es efectivo el protocolo?, es decir, ¿cambian los niveles de colesterol antes y después de la intervención?
Pares biológicos: Un grupo de pacientes con patología ocular bilateral se somete a un tratamiento en uno de los dos ojos, el otro actúa como control. la variable respuesta es la presión intraocular. Una vez aplicado el tratamiento ¿son homogéneas las presiones intraoculares entre ambos ojos?
Apareamiento artificial en estudios farmacocinéticos: Se estudia la biodisponibilidad de un fármaco comparando dos formulaciones alternativas. Para controlar la variabilidad interindividual, cada paciente se empareja con otro de igual sexo, IMC similar y edad comparable (± 2 años). La variable respuesta es la concentración plasmática máxima (Cmax) del principio activo. La pregunta clínica de interés es si las distribuciones farmacocinéticas son homogéneas entre ambas formulaciones.

Interés del diseño apareado

Permite controlar la variabilidad interindividual, facilitando comparaciones más homogéneas. Por ejemplo, en el autoapareamiento, cada sujeto sirve como su propio control.
En el diseño apareado, la unidad de análisis es la diferencia dentro de cada pareja, no las observaciones por separado.
En general, la potencia del contraste es mayor que en un diseño con muestras independientes (cuando el apareamiento reduce la variabilidad de la variable analizada).

Formato de los datos

Figura 1: Formato computacional de los datos para la comparación de dos muestras independientes y de dos muestras apareadas según un diseño pretest-postest. En el diseño apareado se analizará la diferencia de la respuesta entre el pre- y el postest

CC-BY-SA

3 Homogeneidad entre muestras vs. independencia entre variables

Notación

\(\tiny \blacksquare \,\,\) Introducimos la notación que usaremos para describir una variable de interés en distintos grupos. Este tipo de notación será recurrente en el resto del curso:

Denotamos por \(\small X\) a la variable aleatoria a analizar, que juega el papel de variable respuesta (observada)
Denotamos por \(\small G\) a la variable de agrupación, que identifica el grupo al que pertenece cada individuo.
En la práctica actúa como un factor, con niveles \(\small G=1\) y \(\small G=2\) cuando solo hay dos grupos. Según el contexto, \(\small G\) puede modelizarse como una variable aleatoria binaria.
\(\small F_X\) representa a la función de distribución que caracteriza a la variable respuesta \(\small X\) en la población total.

\(\tiny \blacksquare \,\,\) Condicionamiento por grupos

Cuando se escribe \[ X|G=1,\qquad X|G=2 \qquad \]

se alude a la misma variable aleatoria \(\small X\) pero restringida a cada uno de los grupos.

El símbolo “\(\small ∣\) ” se lee como “condicionado a” o “cuando”, de manera que \(\small X|G=g \,\,\) significa “la variable aleatoria \(\small X\) cuando sabemos que el sujeto pertenece al grupo \(\small g\)”

Análogamente \[ \qquad F_{X|G=1},\qquad F_{X|G=2} \] son las funciones de distribución condicionadas al grupo, es decir, las funciones que describen cómo se distribuye \(\small X\) dentro de cada grupo.

En este contexto, se alude a \(\small F_X\) como la función de distribución marginal (“distribución de \(\small X\) al margen de \(\small G\)”).

Homogeneidad entre dos muestras

Homogeneidad entre dos muestras significa que las dos muestras proceden de poblaciones con la misma distribución respecto a la variable respuesta.

En términos más concretos:

Igualdad de medias (si asumimos normalidad)
Igualdad de proporciones (en variables binarias)
O más fuerte: igualdad de las distribuciones completas

\[ F_{X|G=1} = F_{X|G=2} \tag{1}\]

La hipótesis de homogeneidad es una hipótesis sobre las distribuciones condicionadas

Independencia entre la respuesta \(\small X\) y el grupo \(\small G\)

Que La variable respuesta \(\small X\) sea independiente de la variable de agrupación \(\small 𝐺\) implica que

\[ F_{X|G=1} = F_{X|G=2}=F_X \tag{2}\]

es decir, las distribuciones condicionadas son equivalentes entre sí e iguales a la distribución global, es decir, a la distribución marginal (se la llama así por ser la distribución de \(\small X\) “al margen” del grupo al que pertenezca el sujeto).

La hipótesis de independencia alude a la relación conjunta entre las dos variables

Relación entre homogeneidad (entre grupos) e independencia (entre variables)

En general, al tratar con dos grupos asumiremos que

Independencia de la respuesta respecto a la variable de agrupación \(\quad \Leftrightarrow \quad\) igualdad (homogeneidad) de distribuciones entre grupos

Homogeneidad e independencia no son conceptos idénticos

La Homogeneidad
- Es un concepto condicional
- Se centra en comparar \(\small X\) entre niveles de \(\small G\)
- Es el supuesto más específico del contexto comparativo
La Independencia
- Es un concepto más general que el de homogeneidad
- Se trata de un concepto probabilístico que requiere dos variables aleatorias. Cuando \(\small G\) no es aleatoria, sino un factor fijado por el diseño, no se plantea independencia en sentido estricto, sino la comparación de la distribución de \(\small X\) dentro de cada grupo (homogeneidad):
  - Si \(\small G\) es una variable aleatoria → independencia \(\Leftrightarrow\) homogeneidad
  - Si \(\small G\) es fija → solo tiene sentido hablar de homogeneidad; la independencia es una reinterpretación teórica
En la práctica, en estudios comparativos en Ciencias de la Salud, \(\small G\) suele representar el tratamiento, sexo o la exposición. Estas variables se interpretan habitualmente como aleatorias al considerar una población en la que los sujetos pueden pertenecer a distintos grupos, lo que permite formular el problema en términos de independencia.

Ejemplos

Contexto clínico	Homogeneidad (comparación entre grupos)	Independencia (enfoque probabilístico)	Hipótesis en términos de parámetros
Nivel medio de hemoglobina en pacientes con y sin suplemento de hierro	La distribución de la hemoglobina es igual en ambos grupos	La hemoglobina es independiente del tratamiento	\(\small \text{H}_0: \mu_1 = \mu_2\)
Nivel de glucosa según tipo de dieta (A vs B)	La distribución de glucosa es igual entre dietas	La glucosa es independiente del tipo de dieta	\(\small \text{H}_0: \mu_1 = \mu_2\)
Variabilidad de la presión arterial según tratamiento antihipertensivo	La variabilidad es igual en ambos grupos	La presión arterial es independiente del tratamiento en términos de dispersión	\(\small \text{H}_0: \sigma_1^2 = \sigma_2^2\)
Variabilidad del tiempo de estancia hospitalaria según protocolo de cuidados	Igual dispersión en ambos grupos	La estancia es independiente del protocolo en términos de variabilidad	\(\small \text{H}_0: \sigma_1^2 = \sigma_2^2\)
Proporción de infección nosocomial según tipo de unidad (UCI vs planta)	La proporción de infección es igual en ambos grupos	La infección es independiente del tipo de unidad	\(\small \text{H}_0: \pi_1 = \pi_2\)
Proporción de úlceras por presión según uso de colchón especial	Igual proporción en ambos grupos	La aparición de úlceras es independiente del uso del colchón	\(\small \text{H}_0: \pi_1 = \pi_2\)
Nivel medio de dolor según técnica analgésica	Igual media de dolor en ambos grupos	El dolor es independiente de la técnica analgésica	\(\small \text{H}_0: \mu_1 = \mu_2\)
Proporción de reingresos según programa de educación sanitaria	Igual proporción de reingresos	El reingreso es independiente del programa	\(\small \text{H}_0: \pi_1 = \pi_2\)

4 Contrastes de homogeneidad entre dos muestras independientes

4.1 Contraste de homogeneidad de varianzas

¿Por qué comparar varianzas?

Hasta ahora, hemos centrado las inferencias sobre los parámetros
- Media \(\mu\) (variable cuantitativa)
- Proporción \(\pi\) (variable binaria)

La varianza \(\sigma^2\) ha tenido un papel secundario, pero clave:
- Determina la precisión de los intervalos
- Influye en la potencia de los contrastes

Su estudio aislado tiene interés clínico limitado: No suele ser relevante estimar o contrastar una única varianza
Pero en estudios comparativos, su papel es fundamental.
Desde el punto de vista
- Clínico: identifica situaciones más o menos homogéneas (predictibilidad)
- Estadístico: condiciona la comparación de medias
  - Varianzas homogéneas (homocedasticidad\(^{*}\)) → se pueden combinar en forma de promedio
  - Varianzas no homogéneas (heterocedasticidad) → requieren métodos alternativos

El objetivo de esta sección es evaluar si dos grupos presentan la misma variabilidad

________

\(\large ^{*}\) Etimología de homocedasticidad y heterocedasticidad: homo- (del griego ὁμός homos) igual, mismo; hetero- (del griego ἕτερος, héteros) otro, diferente; -cedasticidad (del griego σκεδασις, skédasis) dispersión.

Ejemplo clínico: creatinina sérica

En un servicio de nefrología se comparan dos estrategias de manejo de fármacos potencialmente nefrotóxicos en pacientes hospitalizados:

Estrategia A: ajuste estándar de la dosis según la función renal basal
Estrategia B: ajuste dinámico con monitorización intensiva

Aunque ambas estrategias mantienen valores medios similares de creatinina sérica durante el ingreso, se plantea analizar otro aspecto clínicamente relevante: la estabilidad de la función renal entre pacientes.

Desde el punto de vista clínico, una menor variabilidad en la creatinina indicaría una respuesta renal más homogénea y controlada, mientras que una mayor variabilidad reflejaría mayor riesgo de inestabilidad renal en ciertos pacientes.

Se desea contrastar si ambas estrategias presentan la misma variabilidad en los niveles de creatinina sérica. Para ello, se analizaron dos muestras independientes de 15 pacientes cada una, correspondientes a cada estrategia. Los niveles de creatinina observados se presentan a continuación:

Contrastes de homogeneidad de varianzas más comunes

Método	Grupos	Supuesto clave	Comando en R
F de Fisher (cociente de varianzas)	2	Normalidad estricta en ambas poblaciones; muestras independientes	`var.test(x, y) var.test(x ~ g)`
Bartlett	≥ 2	Normalidad en todos los grupos; muy sensible a no normalidad	`bartlett.test(x ~ g)`
Fligner–Killeen	≥ 2	No paramétrico; muy robusto frente a asimetría y colas pesadas	`fligner.test(x ~ g)`
Levene	≥ 2	No requiere normalidad; basado en desviaciones respecto a la media o mediana	`car::leveneTest(x ~ g)` (no en R base)
Brown–Forsythe	≥ 2	No requiere normalidad; basado en desviaciones respecto a la mediana (robusto a outliers)	`onewaytests::bf.test(x ~ g)` (no en R base)

Test de Fisher para el cociente de varianzas

\(\tiny \blacksquare \,\,\) Es el test más clásico y canónico para comparar varianzas. Fue introducido en 1920 por Ronald A. Fisher (estadístico y biólogo, uno de los padres –para muchos “el padre”– de la estadística moderna). De este test se deriva la distribución F de Snedecor.

Hipótesis: \(\begin{cases} \text{H}_0: & \sigma_{1}^2 = \sigma_{2}^2 \\ \text{H}_1: & \sigma_{1}^2 \ne \sigma_{2}^2 \end{cases} \qquad\) estas hipótesis son equivalentes a \(\begin{cases} \text{H}_0: & \sigma_{1}^2/\sigma_{2}^2=1 \\ \text{H}_1: & \sigma_{1}^2/\sigma_{2}^2\ne 1 \end{cases} \qquad\)
Nivel de significación: si no hay motivos para establecer otro valor, se considera \(\alpha=0.05\).
Información muestral:
- Muestra 1: \(n_1,\, s_1^2\)
- Muestra 2: \(n_2,\, s_2^2\)
Estadístico de contraste: \(F_{\text{exp}}=\large{\frac{s_1^2}{s_2^2}}\), es el cociente de las varianzas muestrales.
Distribución del estadístico de contraste: \(F_{\text{exp}} \sim F_{n_1-1,\, n_2-1}\) (Distribución F de Fisher-Snedecor). Observemos que la distribución F depende de los grados de libertad de la varianza del numerador y de los de la varianza del denominador. Será necesario indicar siempre los dos.

Figura 2: Distribución F de Fisher-Snedecor con indicación de las regiones críticas correspondientes a un nivel de significación bilateral del 5%. La región de aceptación no es simétrica respecto al valor \(F=1\), que representa la igualdad de varianzas.

Intervalo de confianza para el cociente de varianzas
\[ IC_{1-\alpha}\left( \frac{\sigma_1^2}{\sigma_2^2}\right) = \left( \frac{s_1^2}{s_2^2}\, F_{\alpha/2,\;n_2-1,\;n_1-1} \;,\; \frac{s_1^2}{s_2^2}\, F_{1-\alpha/2,\;n_2-1,\;n_1-1} \right) \] En coherencia con el contraste de hipótesis, el intervalo de confianza a nivel \(1-\alpha\), incluirá el valor \(F=1\) cuando \(p>\alpha\), y lo excluirá cuando \(p\le\alpha\).
Conclusión: Indicar el valor de \(p\) obtenido y, si el objetivo final es comparar las variabilidades, los límites del intervalo.

Ejemplo clínico: creatinina sérica (continuación)

Hipótesis: \(\begin{cases} \text{H}_0: & \sigma_{A}^2 = \sigma_{B}^2 \\ \text{H}_1: & \sigma_{A}^2 \ne \sigma_{B}^2 \end{cases} \qquad\)
Nivel de significación: establecemos \(\alpha=0.05\)
Información muestral y estimaciones puntuales:

crA <- c(
  1.3,
  0.9,
  1.4,
  1.3,
  1.5,
  1,
  1.3,
  1.2,
  1.4,
  1.2,
  1.1,
  1.7,
  1.2,
  1.3,
  1.5
)
crB <- c(
  1.4,
  1.3,
  1.1,
  1.3,
  1.4,
  1.4,
  1.3,
  1.2,
  1.4,
  1.3,
  1.2,
  1.3,
  1.1,
  1.3,
  1.2
)

sd(crA)

[1] 0.2030717

sd(crB)

[1] 0.1014185

Fexp <- sd(crA)^2 / sd(crB)^2
Fexp

[1] 4.009259

Estrategia A: \(n=15,\qquad s_{A}^2=0.0412\)
Estrategia B: \(n=15,\qquad s_{B}^2=0.0103\)
Cociente de varianzas: \(F_{\text{exp}}=\frac{0.0412}{0.0103}=4.0093\)
Resolución: Test de Fisher para el cociente de varianzas

var.test(crA, crB)


    F test to compare two variances

data:  crA and crB
F = 4.0093, num df = 14, denom df = 14, p-value = 0.01386
alternative hypothesis: true ratio of variances is not equal to 1
95 percent confidence interval:
  1.346027 11.941930
sample estimates:
ratio of variances 
          4.009259

Figura 3: Izquierda: Densidad empírica de la creatinina serica de los dos grupos. Derecha: función de densidad de la distribución F de Fisher-Snedecor; se indican las regiones críticas correspondientes a un nivel de significación bilateral del 5% y la localización del estadístico de contraste con el valor p (bilateral).

Conclusión:

A un nivel de significación del 5%, se observan diferencias significativas en la variabilidad de ambas estrategias (\(F_{14,\,14}=4.01;\quad p=0.014\)). En particular, la aplicación del ajuste dinámico con monitorización intensiva genera resultados más homogéneos que el ajuste estándar de la dosis, lo que se traduce en una respuesta renal más controlada.

La magnitud de la diferencia en variabilidad entre ambos grupos, medida mediante el cociente de varianzas, se estima mediante el intervalo de confianza \(95\%\text{-}IC=(1.35, 11.94)\), lo que indica que la variabilidad real con la estrategia A puede ser entre 1.35 y 11.94 veces mayor que la correspondiente a la estrategia B.

Observaciones. Apreciaciones y normas de redacción científica:
- Si el nivel de significación se ha indicado en un apartado anterior del informe o del trabajo, no hay que reiterarlo.
- En un informe, las hipótesis no se presentan en el formato estadístico, sino que se enuncian de forma implícita en la conclusión.
- Cuando se indica si el resultado es significativo o no, hay que informar del valor que ha tomado el estadístico de contraste, sus grados de libertad y el valor p este último siempre con tres decimales (normas APA). Se puede hacer entre paréntesis, dentro del texto o bien en forma de tabla junto a otros resultados. Si se presenta en una tabla, no se reitera en el texto.
- Además del resultado del test, hay que informar del tamaño del efecto. El cociente de varianzas no es un tamaño del efecto de tipo estandarizado, pero sí que proporciona una medida de la magnitud de la diferencia en variabilidad entre las dos estrategias. El intervalo se puede omitir cuando este test se hace como un paso intermedio en la comparación de medias.
- De forma coherente con el resultado del test, el valor 1, que indica homogeneidad, no está incluido en el intervalo de confianza.

Comentario final:
- El test F de Fisher fija el marco teórico para la comparación de varianzas y la derivación del intervalo de confianza; sin embargo, es un test sensible a la falta de normalidad. Cuando no es asumible esta distribución, es más recomendable emplear el test de Fligner–Killeen, no asume ninguna distribución teórica (es un test no paramétrico) y resulta muy robusto, pero es menos potente cuando se verifica la normalidad y no proporciona intervalos de confianza.

4 Contrastes de homogeneidad entre dos muestras independientes

\(\tiny \blacksquare \,\,\) En el análisis de dos grupos independientes es habitual plantear si proceden de poblaciones con la misma media. Este objetivo se aborda mediante el contraste de homogeneidad de medias, cuya elección depende de los supuestos asumidos sobre los datos, dando lugar a métodos paramétricos y no paramétricos.

4.2 Contrastes de homogeneidad de medias. Métodos paramétricos

Test de Student para dos muestras independientes. 1. Las hipótesis

\(\tiny \blacksquare \,\,\) El test t de Student para dos muestras independientes permite contrastar la igualdad de medias entre dos poblaciones independientes bajo supuestos de normalidad. Dependiendo de si puede asumirse o no la homogeneidad de varianzas, se distinguirá entre la formulación clásica del test y su versión con corrección de Welch.

Hipótesis: En el test t para muestras independientes, contrastar la homogeneidad de medias \[ \large \text{H}_0: \mu_1=\mu_2 \] es equivalente a contrastar que la diferencia de medias poblacionales es nula. \[ \large \text{H}_0: \mu_1-\mu_2=0 \] La diferencia de medias \(\delta = \mu_1-\mu_2\) representa el tamaño del efecto en la escala original de la variable (es el efecto bruto). De manera que podemos expresar a la hipótesis nula como una hipótesis de ausencia de efecto de la variable explicativa binaria que define los dos grupos sobre la media de la variable cuantitativa analizada \[ \large \text{H}_0: \delta=0 \]

Consecuentemente, la hipótesis alternativa se podrá formular en cada caso como el suceso complementario al formulado en la hipótesis nula de forma bilateral o unilateral (en este caso, la desigualdad que no interesa se incorpora a la hipótesis nula)

Ejemplo clínico. Efecto de un fármaco hipolipemiante

Se desea evaluar la eficacia de un nuevo fármaco hipolipemiante sobre el colesterol LDL (mg/dL) en pacientes con hipercolesterolemia primaria. Para ello, se diseña un estudio con dos grupos independientes de pacientes:

Grupo 1 (tratamiento): pacientes que reciben el nuevo fármaco durante 12 semanas
Grupo 2 (control): pacientes que reciben placebo durante el mismo periodo

Al final del estudio se mide el colesterol LDL en todos los pacientes.

Hipótesis:
- Llamamos \(\mu_{\text{tto}}\) y \(\mu_{\text{ctrl}}\) a las medias poblacionales del nivel de colesterol LDL de los pacientes con tratamiento y con placebo, respectivamente.
- El contraste a realizar es unilateral, ya que interesa comprobar si el tratamiento “reduce” el nivel medio de colesterol LDL: \(\mu_{\text{tto}} < \mu_{\text{ctrl}}\).
- Si definimos el efecto bruto \(\delta = \mu_{\text{ctrl}} - \mu_{\text{tto}}\) (hacemos “control–tratamiento” y no al revés porque, si el tratamiento es efectivo, manejaremos el efecto con signo positivo)
  Las formulaciones siguientes son equivalentes: \[ \begin{cases} \text{H}_0: & \mu_{\text{ctrl}} \le \mu_{\text{tto}} \\ \text{H}_1: & \mu_{\text{ctrl}} > \mu_{\text{tto}} \end{cases}, \qquad \begin{cases} \text{H}_0: & \mu_{\text{ctrl}} - \mu_{\text{tto}} \le 0 \\ \text{H}_1: & \mu_{\text{ctrl}} - \mu_{\text{tto}} > 0 \end{cases}, \qquad \begin{cases} \text{H}_0: & \delta \le 0 \\ \text{H}_1: & \delta > 0 \end{cases} \]

2. Información muestral y estadístico de contraste

La información muestral necesaria para elaborar el test, es
- Grupo 1: \(\, n_1,\quad \bar{x}_1,\quad s_1\)
- Grupo 2: \(\, n_2,\quad \bar{x}_2,\quad s_2\)
Estadístico de contraste
- El efecto bruto observado vendrá dado por \(d=\, \hat{\delta} = \bar{x}_1-\bar{x}_2\)
- El estadístico de contraste \(t_{\text{exp}}\) se obtiene al estandarizar este efecto con el valor propuesto por la hipótesis nula (\(\delta_0=0\)): \[ t_{\text{exp}}=\frac{(\bar{x}_1-\bar{x}_2)}{SE\left(\bar{x}_1-\bar{x}_2\right)}\,\,=\,\,\frac{\hat{\delta}}{SE(\hat{\delta})} \] En esta expresión, \(\small \,SE\left(\bar{x}_1-\bar{x}_2\right)=SE(\hat\delta)\) es el error estándar de la diferencia de medias, esto es, el error estándar del estimador del efecto bruto. Más adelante abordaremos en qué consiste.
- En muchos textos, la diferencia de medias se expresa en valor absoluto. Esto es una herencia del uso de las tablas y no tiene mayor relevancia de cara a la significación del test, que viene dada por la magnitud de la diferencia, no por su signo.
Significación del test
- Observemos que si la hipótesis nula es cierta, entonces debe ser \(\bar{x}_1 \approx \bar{x}_2\), y consecuentemente \(\bar{x}_1 - \bar{x}_2 \approx 0\), de manera que también será \(t_{\text{exp}} \approx 0\), generando así un valor \(p > \alpha\)
- Cuando el efecto bruto observado sea grande, la diferencia de medias será distinta de cero, dando lugar a un valor \(t_{\text{exp}}\) de magnitud grande que tendrá asociada una probabilidad hacia la cola de la distribución \(p \le \alpha\)

Queda por resolver la identidad de \(\small SE\left(\bar{x}_1-\bar{x}_2\right)\), y esto tiene que ver con que se verifique, o no, la hipótesis de homogeneidad de varianzas. Lo abordamos en la siguiente sección.

3. Estadístico de Student y corrección de Welch

Ambos criterios utilizan la misma diferencia de medias como estadístico básico. La diferencia fundamental reside en la estimación de la varianza de la diferencia de medias:
- El test de Student combina las varianzas de los dos grupos bajo el supuesto de homogeneidad.
- El test de Welch las trata por separado.
Esta diferencia se traduce en una formulación distinta del error estándar y, como consecuencia, en distintos grados de libertad.
Tradicionalmente, la elección entre el test t de Student y el de Welch se realizaba en función de la significación de un test previo de igualdad de varianzas (usualmente el test F de Fisher). En la práctica actual, este enfoque ya no se recomienda.

Distribución de \(t_{\text{exp}}\): En cualquiera de los dos casos \(t_{\text{exp}} \sim t_{f}\) siendo \(f\) los grados de libertad correspondientes.

La recomendación actual es utilizar siempre el test de Welch

Es una opción más general y robusta que el de Student.
Cuando las varianzas son homogéneas, el test de Welch aproxima bien al de Student (que solo es aplicable en este caso particular) y, en general, los dos dan el mismo resultado.
En la literatura aplicada (medicina, biología, ciencias sociales), se usan los términos “t-test”, “Student’s t-test” o “two-sample t-test” de forma genérica para referirse a contrastes de medias basados en la distribución t, sin discriminar entre los dos métodos expuestos.
La función estándar de R para este test utiliza el método de Welch.

El test de Student se conserva por motivos históricos y didácticos. No obstante, el supuesto de homogeneidad de varianzas y el tratamiento con varianzas agrupadas subyace a otras técnicas inferenciales, como el ANOVA clásico.

Intervalo de confianza para la diferencia de medias

\(\tiny \blacksquare \,\,\) Una vez realizado el test para contrastar si las medias de los dos grupos son iguales, debe darse una estimación del tamaño bruto del efecto: \[ \delta = (\mu_1-\mu_2) \]

Como ya hemos visto, el estimador puntual del tamaño bruto del efecto es la diferencia de medias muestrales: \[ \hat \delta = (\bar{x}_1-\bar{x}_2) \]

El intervalo de confianza para \(\delta\) se obtiene directamente de los elementos que constituyen el estadístico de contraste \[ t_{\text{exp}}=\frac{(\bar{x}_1 - \bar{x}_2)}{SE(\bar{x}_-\bar{x}_2)} \quad \rightarrow \quad (\bar{x}_1 - \bar{x}_2)\pm t_{\alpha/2,\, f}\,\, SE(\bar{x}_-\bar{x}_2) \]

de manera que \[ (1-\alpha)\text{-}IC(\mu_1-\mu_2)=(\bar{x}_1 - \bar{x}_2)\pm t_{\alpha/2,\, f}\,\, SE(\bar{x}_-\bar{x}_2) \]

en donde los grados de libertad \(f\) y el error estándar de la diferencia de medias son los que se hayan utilizado en el test (en general los del método de Welch).

El interés de este intervalo es fundamental:

Si el test ha sido significativo, se ha rechazado la hipótesis nula de homogeneidad, cuantifica la diferencia entre los dos grupos.
Si el test ha resultado no significativo, permite estudiar si la potencia ha sido suficiente; es decir, la fiabilidad de esta decisión.

Ejemplo clínico. Efecto de un fármaco hipolipemiante (continuación)

Datos observados En el estudio participaron 15 pacientes en cada grupo. Los registros de colesterol LDL son:

Como el test de interés es unilateral, comenzamos comprobando que la información muestral es compatible con la hipótesis alternativa: efectivamente \(\bar{x}_{\text{ctrl}} < \bar{x}_{\text{tto}}\) (la desigualdad de las medias se da en la dirección de H₁)

Creamos un data frame con estos datos:

Código

ctrl <- c(
  127.4,
  126.7,
  156.1,
  154.7,
  161,
  124.2,
  136.3,
  140.4,
  147.9,
  172.1,
  167,
  126.6,
  154.7,
  152.2,
  115.3
)
tto <- c(
  125.4,
  143.9,
  133.1,
  133,
  153.6,
  131,
  115.9,
  128.4,
  124.8,
  126.6,
  143.2,
  138.8,
  127.6,
  124.1,
  129.7
)

# definimos tamaños muestrales
n_ctrl <- length(ctrl)
n_tto <- length(tto)

# creacion del data.frame
datos <- data.frame(
  LDL = c(ctrl, tto),
  Grupo = factor(rep(c("Control", "Tratamiento"), times = c(n_ctrl, n_tto)))
)

Información muestral y estimaciones puntuales:

Resolución:

Código base de R

# pruebas de normalidad
# Por brevedad, omitimos el diagrama Q-Q
shapiro.test(ctrl)


    Shapiro-Wilk normality test

data:  ctrl
W = 0.94819, p-value = 0.4965

shapiro.test(tto)


    Shapiro-Wilk normality test

data:  tto
W = 0.94146, p-value = 0.401

# test de Welch (unilateral)
t.test(LDL ~ Grupo, data = datos, alternative = "greater")


    Welch Two Sample t-test

data:  LDL by Grupo
t = 2.391, df = 21.694, p-value = 0.01296
alternative hypothesis: true difference in means between group Control and group Tratamiento is greater than 0
95 percent confidence interval:
 3.442216      Inf
sample estimates:
    mean in group Control mean in group Tratamiento 
                 144.1733                  131.9400

BioestadisticaR2

library(BioestadisticaR2)
testt(m = datos$LDL, grupos = datos$Grupo, grf = F)

 

# t-test para 2 Muestras Independientes
# -------------------------------------

# Información muestral y estimación de las medias
  Niveles de agrupación: Control, Tratamiento 

                           n   media     dt   sem                 IC
  datos$LDL [Control]     15 144.173 17.383 4.488   (134.547, 153.8)
  datos$LDL [Tratamiento] 15 131.940  9.512 2.456 (126.672, 137.208)
  ____ 
  * IC elaborados al 95% de confianza para estimar μ₁ y μ₂ respectivamente 


# Pruebas de normalidad (test de Shapiro-Wilk)
[1] Para grupo = Control, W = 0.948, gl = 15, p = 0.496
[2] Para grupo = Tratamiento, W = 0.941, gl = 15, p = 0.401

# Test de homogeneidad de varianzas. Fexp = (Var₁/var₂)
  Fexp = 3.340, gl₁ = 14, gl₂ = 14, p = 0.031 

# Diferencia de medias (datos$LDL [Control] - datos$LDL [Tratamiento])
  Hipótesis a contrastar: H₀:μ₁=μ₂ (μ₁-μ₂=0) 

  a) Test de Student (varianzas homogéneas) 
  texp = 2.391, gl = 28 
    p = 0.024 para la alternativa bilateral H₁:μ₁≠μ₂ 
    p = 0.012 para la alternativa unilateral H₁:μ₁>μ₂ 
  95%-IC(μ₁-μ₂) = (1.753, 22.714) 

  b) Test de Welch (varianzas no homogéneas) 
  texp = 2.391, gl = 21.69 
    p = 0.026 para la alternativa bilateral H₁:μ₁≠μ₂ 
    p = 0.013 para la alternativa unilateral H₁:μ₁>μ₂ 
  95%-IC(μ₁-μ₂) = (1.614, 22.853)

Conclusión:

La comparación entre grupos se realizó mediante una prueba t de Welch con hipótesis unilateral, planteada a priori para detectar una reducción de los niveles de LDL en el grupo tratado frente al grupo placebo. El contraste mostró que el tratamiento produce una disminución significativa del nivel de LDL en comparación con placebo (t = 2.39 con 21.7 gl; p = 0.013).

El intervalo de confianza del 95% para la diferencia de medias (Placebo − Tratamiento) fue (1.61, 22.85) mg/dL. Los resultados indican que la reducción media del LDL atribuible al tratamiento es positiva y estadísticamente significativa, con una magnitud potencialmente relevante desde el punto de vista clínico (se considera que el umbral mínimo clínicamente relevante se sitúa en ≈ 10 mg/dL de reducción de LDL, Silverman et al. (2016)).

4.3 Análisis de la significación y tamaños de muestra

Significación clínica y significación estadística

\(\tiny \blacksquare \,\,\) El análisis estadístico debe complementarse con la interpretación clínica: no basta con detectar diferencias, es necesario valorar su importancia.

Significación estadística

Se evalúa mediante el valor p
Indica si el resultado observado es compatible con el azar
Depende del tamaño muestral y de la variabilidad
Se traduce en una decisión: rechazar o no H₀

Significación clínica

Evalúa la importancia real del efecto observado
Considera el contexto clínico (beneficio, riesgo, coste, aplicabilidad)
Se basa en la magnitud del efecto (por ahora, la diferencia de medias)
Se apoya en el intervalo de confianza
De manera generalizada, se suele hablar de significación sustantiva

Puede haber:

Significación estadística y clínica ← el efecto detectado es clínicamente relevante y la potencia estadística ha sido suficiente.
Significación estadística sin relevancia clínica ← efectos pequeños con muestras grandes. El test es muy potente
Relevancia clínica sin significación estadística ← muestra insuficiente que no aporta la potencia necesaria, la aceptación de la hipótesis nula no es fiable.
No significación, ni clínica ni estadística ← se detecta un efecto pequeño, clínicamente irrelevante, y el test no lo declara significativo.

Ejemplos:

Un nuevo fármaco reduce la presión arterial en −0,9 mmHg (\(p<0.001\)) ← Diferencia detectada estadísticamente, pero el impacto clínico es prácticamente irrelevante.
Cierta intervención reduce la estancia hospitalaria en −2,5 días (\(p=0.090\)) ← Magnitud clínicamente importante, pero falta potencia estadística (el tamaño muestral es reducido).
Un tratamiento reduce el dolor postoperatorio en −3 puntos de la escala EVA (0–10) (\(p=0.013\)) ← Diferencia estadísticamente significativa y efecto clínicamente relevante.

Tamaños de muestra

Ya sabemos que la potencia de un test está condicionada por el tamaño de la muestra, o muestras, implicadas en el análisis.

Es posible determinar el tamaño muestral necesario para que un test, resuelto con un nivel de significación \(\alpha\) declare significativa una diferencia \(\delta\) el \(\theta = (1-\beta)\times 100\%\) de las veces.

Es decir, la determinación del tamaño muestral requiere especificar:

El nivel de significación del test (\(\alpha\))
La potencia deseada (\(\theta\)), o equivalentemente, el nivel de error de tipo II asumible (\(\beta\))
La diferencia mínima a detectar (\(\delta\))

En el caso actual, de la comparación de medias mediante test de la t

Es necesario disponer de muestras piloto para poder inferir su variabilidad (como ocurría con el IC, hay que tener una estimación de la varianza para poder inferir el tamaño de muestra)
Cuando las varianzas son homogéneas (muestras homocedásticas), es preferible (pero no necesario) que las dos muestras tengan igual tamaño.
En una situación heterocedástica, es preferible que la muestra con mayor variabilidad tenga más observaciones (mayor variabilidad requiere mayor información para poder caracterizar a la población)
La función testt() del paquete BioestadisticaR2 automatiza el cálculo del tamaño muestral, como veremos en los ejemplos del final de esta sección.

Estrategia de análisis de la significación

Ejemplo clínico. El valor de \(\delta\)

Hemos llamado \(\delta\) a la diferencia mínima clínicamente relevante (DMCR) (en inglés Minimal Clinically Important Difference, MCID), que es el menor cambio que importa clínicamente y que debe ser fijado a priori para guiar el diseño, el tamaño muestral y la interpretación de los resultados.

Se establece combinando tres fuentes principales:

Evidencia clínica previa. Resultados de ensayos, revisiones sistemáticas y, sobre todo, metaanálisis.
Juicio clínico experto. Magnitud mínima del cambio que los clínicos consideran suficiente para modificar decisiones terapéuticas.
Perspectiva del paciente. Cambio mínimo percibido como beneficioso o relevante para el paciente (síntomas, calidad de vida).

Reducción del nivel de colesterol LDL (continuación)

En el informe de resultados, se incluiría un texto en la línea del siguiente:

La diferencia mínima clínicamente relevante se definió a priori como una reducción de 10 mg/dL en los niveles de colesterol LDL entre el grupo tratado y el grupo placebo. Esta elección se basa en evidencia consistente procedente del metaanálisis de Silverman et al. (2016), que muestra que reducciones del LDL de esta magnitud se asocian con una disminución mensurable del riesgo cardiovascular, y se consideran el umbral mínimo para un beneficio clínico relevante en prevención primaria e intermedia.

Ejemplo clínico. Efecto de un fármaco hipolipemiante

Con la muestra original, presentada al inicio de la sección, obtuvimos que el efecto del fármaco era estadísticamente significativo (\(p=0.013\) en el test unilateral.). Para una diferencia mínima clínicamente relevante \(\small \delta=10\) mg/dL, el efecto detectado también fue clínicamente relevante, ya que el intervalo para el efecto bruto \(\small 95\%\text{-}IC\left(\mu_{\text{ctrl}}-\mu_{\text{tto}}\right)=(1.61, 22.85)\) toma valores más allá de \(\small (-10,\,+10)\).

Para ganar en interpretación, vamos a ver dos situaciones diferentes para este mismo enunciado. Las dos dan lugar a un resultado no significativo estadísticamente. En la primera (caso a), el efecto detectado tampoco es clínicamente relevante, pero en la segunda (caso b) sí que lo es.

Utilizamos la función testt() del paquete BioestadisticaR2. Mantenemos la diferencia mínima clínicamente relevante (DMCR) en 10 mg/dL y deseamos tener una potencia de, al menos, el 80% en el test. En ambos casos, indicamos el valor de DMCR en el argumento delta y la potencia deseada en el argumento potencia.

Caso a

Código

library(BioestadisticaR2)
n_ctrl <- 15
m_ctrl <- 139.7
s_ctrl <- 14.2
n_tto <- 15
m_tto <- 135.8
s_tto <- 11.3
mcid <- 10
testt(
  n1 = n_ctrl,
  m1 = m_ctrl,
  s1 = s_ctrl,
  n2 = n_tto,
  m2 = m_tto,
  s2 = s_tto,
  delta = mcid,
  grf = FALSE
) # <- evita la salida gráfica

 

# t-test para 2 Muestras Independientes
# -------------------------------------

# Información muestral y estimación de las medias
  Niveles de agrupación: 1, 2 

             n media     dt   sem                 IC
  Muestra 1 15 139.7 14.200 3.666 (131.836, 147.564)
  Muestra 2 15 135.8 11.300 2.918 (129.542, 142.058)
  ____ 
  * IC elaborados al 95% de confianza para estimar μ₁ y μ₂ respectivamente 

# Test de homogeneidad de varianzas. Fexp = (Var₁/var₂)
  Fexp = 1.579, gl₁ = 14, gl₂ = 14, p = 0.403 

# Diferencia de medias (Muestra 1 - Muestra 2)
  Hipótesis a contrastar: H₀:μ₁=μ₂ (μ₁-μ₂=0) 

  a) Test de Student (varianzas homogéneas) 
  texp = 0.832, gl = 28 
    p = 0.412 para la alternativa bilateral H₁:μ₁≠μ₂ 
    p = 0.206 para la alternativa unilateral H₁:μ₁>μ₂ 
  95%-IC(μ₁-μ₂) = (-5.698, 13.498) 

  b) Test de Welch (varianzas no homogéneas) 
  texp = 0.832, gl = 26.66 
    p = 0.413 para la alternativa bilateral H₁:μ₁≠μ₂ 
    p = 0.206 para la alternativa unilateral H₁:μ₁>μ₂ 
  95%-IC(μ₁-μ₂) = (-5.720, 13.520) 

# Estudio de la potencia: δ = 10 -> [-10, 10], potencia θ =80%
  60%-IC(μ₁-μ₂) = (-0.108, 7.908) 

     ---[-(-|-)-]----    potencia > 80% 

    Leyenda:   --(---)--    --[---|---]--  
                IC- IC+      -δ   0  +δ 

# Estimación del tamaño muestral para detectar una diferencia δ=10 con potencia  θ=80%
(1) Considerando las varianzas homogéneas: 
  (n1 = n2)  ⩾ 28 casos en cada grupo 

(2) Considerando las varianzas heterogéneas: k=s₁/s₂=1.257, (gl'=27.64) 
  n₁ ⩾ 31 casos en el grupo [1] 
  n₂ ⩾ 25 casos en el grupo [2]

Caso b

Código

library(BioestadisticaR2)
n_ctrl <- 15
m_ctrl <- 139.7
s_ctrl <- 16.2
n_tto <- 15
m_tto <- 132.8
s_tto <- 11.3
mcid <- 10

testt(
  n1 = n_ctrl,
  m1 = m_ctrl,
  s1 = s_ctrl,
  n2 = n_tto,
  m2 = m_tto,
  s2 = s_tto,
  delta = mcid,
  grf = FALSE
) # <- evita la salida gráfica

 

# t-test para 2 Muestras Independientes
# -------------------------------------

# Información muestral y estimación de las medias
  Niveles de agrupación: 1, 2 

             n media     dt   sem                 IC
  Muestra 1 15 139.7 16.200 4.183 (130.729, 148.671)
  Muestra 2 15 132.8 11.300 2.918 (126.542, 139.058)
  ____ 
  * IC elaborados al 95% de confianza para estimar μ₁ y μ₂ respectivamente 

# Test de homogeneidad de varianzas. Fexp = (Var₁/var₂)
  Fexp = 2.055, gl₁ = 14, gl₂ = 14, p = 0.190 

# Diferencia de medias (Muestra 1 - Muestra 2)
  Hipótesis a contrastar: H₀:μ₁=μ₂ (μ₁-μ₂=0) 

  a) Test de Student (varianzas homogéneas) 
  texp = 1.353, gl = 28 
    p = 0.187 para la alternativa bilateral H₁:μ₁≠μ₂ 
    p = 0.093 para la alternativa unilateral H₁:μ₁>μ₂ 
  95%-IC(μ₁-μ₂) = (-3.547, 17.347) 

  b) Test de Welch (varianzas no homogéneas) 
  texp = 1.353, gl = 25.02 
    p = 0.188 para la alternativa bilateral H₁:μ₁≠μ₂ 
    p = 0.094 para la alternativa unilateral H₁:μ₁>μ₂ 
  95%-IC(μ₁-μ₂) = (-3.603, 17.403) 

# Estudio de la potencia: δ = 10 -> [-10, 10], potencia θ =80%
  60%-IC(μ₁-μ₂) = (2.533, 11.267) 

     ---[---|-(-]-)--    potencia < 80% 

    Leyenda:   --(---)--    --[---|---]--  
                IC- IC+      -δ   0  +δ 

# Estimación del tamaño muestral para detectar una diferencia δ=10 con potencia  θ=80%
(1) Considerando las varianzas homogéneas: 
  (n1 = n2)  ⩾ 33 casos en cada grupo 

(2) Considerando las varianzas heterogéneas: k=s₁/s₂=1.434, (gl'=27.14) 
  n₁ ⩾ 38 casos en el grupo [1] 
  n₂ ⩾ 27 casos en el grupo [2]

Como vemos, la indicación de valores para la potencia y para la DMCR provoca que la función testt() genere el análisis del intervalo para la diferencia (a nivel \(\small 1-\alpha\) si en el test fue \(\small p \le \alpha\) y a nivel \(\small 1-2\beta\) si fue \(\small p \ge \alpha\)) y estime el tamaño de muestra necesario para declarar significativa la DMCR indicada con la potencia deseada.

4.4 Métodos no paramétricos. Test U de Mann-Whitney y W de Wilcoxon

\(\tiny \blacksquare \,\,\) En muchos estudios biomédicos no se cumplen los supuestos del test t de Student:

Distribuciones no normales
Presencia de valores extremos
Tamaños muestrales pequeños
Variables de tipo ordinal

En estos casos se utilizan tests no paramétricos, que no requieren normalidad ni estimación de parámetros poblacionales.

Hay diferentes estrategias. Aquí vemos solo los test U de Mann-Whitney y W de Wilcoxon, que son equivalentes.

Test U de Mann-Whitney / W de Wilcoxon

Hipótesis: Dadas dos muestras independientes, \(A\) y \(B\), la hipótesis nula es ambas proceden de la misma distribución \[ \large \text{H}_0: F_A=F_B \]
Método:
- Se ordenan conjuntamente todas las observaciones.
- Se sustituyen los valores originales por rangos.
  El rango de una observación es su posición ordinal cuando todas las observaciones se ordenan (conjuntamente) de menor a mayor, sustituyendo el valor original por ese orden (usando rangos medios en caso de empates).
- Ahora se contabilizan las sumas de rangos

Figura 4: Fundamento de los test de Mann-Whitney / Wilcoxon

CC-BY-SA

Una vez determinadas las sumas de rangos, basta con considerar solo una para construir el estadístico de contraste:

El test W de Wilcoxon se basa en la suma de rangos de uno de los grupos \(W_{\text{exp}}=\sum{R_A}\).
El test U de Mann–Whitney se basa en el número de veces que una observación de un grupo supera a una del otro. Esto se determina también a partir de la suma de rangos: \[ U_{\text{exp}} = \sum{R_A}− \frac{n_A(n_A+1)}{2} \]
Hay una relación entre ambos estadísticos: \[ \large U_{\text{exp}} = W_{\text{exp}} − n_A (n_A+1)/2 \]
Los dos test son equivalentes. En la literatura aplicada se alude normalmente al test de Mann-Whitney

Ejemplo clínico: escala EVA de dolor

Se quiere evaluar si un nuevo protocolo de cuidados de enfermería reduce el dolor postoperatorio en pacientes intervenidos de cirugía menor. El dolor se mide a las 24 horas mediante la escala visual analógica (EVA) de valoración de la intensidad de dolor (se trata de una escala que toma valores de intensidad de 0 a 10).

Observamos que se trata de muestras pequeñas de valores en una escala. Además, las distribuciones no parecen presentar simetría. No debemos usar un test de Student.

Pregunta clínica: ¿Presentan los pacientes con el nuevo protocolo menor dolor postoperatorio que los pacientes con cuidados habituales?
Hipótesis: La hipótesis nula es que ambos grupos proceden de la misma distribución de dolor. La alternativa de interés es unilateral, la distribución del dolor en el grupo al que se aplica el nuevo protocolo toma valores más bajos que la del grupo al que se aplica el protocolo tradicional. Formalmente: \[ \begin{cases} \text{H}_0: & F_{\text{nuevo}} \ge F_{\text{trad}} \\ \text{H}_1: & F_{\text{nuevo}} < F_{\text{trad}} \end{cases} \] pero lo importante es tener clara la formulación literal de las hipótesis.
Nivel de significación: Establecemos \(\alpha = 0.05\)
Resolución: La función de R que permite realizar el test de Wilcoxon es wilcox.test() (no existe un procedimiento específico para el test de Mann-Whitney). En el paquete BioestadisticaR2 se implementa la función testwx() (hace solo el test bilateral, el valor p del unilateral se obtiene dividiendo la bilateral por dos). Vemos la salida de ambos métodos:

Código base de R

grupo_n <- c(3, 4, 5, 4, 3, 4, 6, 5)
grupo_t <- c(6, 5, 7, 8, 6, 7, 8)

wilcox.test(grupo_n, grupo_t, alternative = "less", exact = TRUE)


    Wilcoxon rank sum exact test

data:  grupo_n and grupo_t
W = 3, p-value = 0.001554
alternative hypothesis: true location shift is less than 0

Con BioestadisticaR2

library(BioestadisticaR2)

grupo_n <- c(3, 4, 5, 4, 3, 4, 6, 5)
grupo_t <- c(6, 5, 7, 8, 6, 7, 8)

testwx(grupo_n, grupo_t, grf = FALSE) # <- omite la salida gráfica


Test de Wilcoxon/Mann-Whithney para dos muestras independientes 
----------------------------------------------------------------
# Información muestral ---

  Muestra n   min    Q1    Q2    Q3   max   RIQ
1 grupo_n 8 3.000 3.750 4.000 5.000 6.000 1.250
2 grupo_t 7 5.000 6.000 7.000 7.500 8.000 1.500

# Rangos ---

  Muestra n Suma_rangos Rango_medio      U
1 grupo_n 8          39       4.875 53.000
2 grupo_t 7          81      11.571  3.000

# Test ---

  U = 3.000; Z = 2.893; W = 3.000; p = 0.003

# Tamaño del efecto ---

  Diferencia de localización: -2.500    95%-IC = (-4.000, -1.000) 
  r = 0.747  (criterio: 0.1 pequeño; 0.3 mediano; >0.5 grande)
  Probabilidad de superioridad PS = 0.946
  (probabilidad de que un valor al azar de M1 sea < a un valor al azar de M2)

Conclusión:

El test no paramétrico de Mann‑Whitney, aplicado de forma unilateral, mostró que los pacientes atendidos con el nuevo protocolo de cuidados de enfermería presentaron niveles de dolor postoperatorio significativamente menores a las 24 horas que aquellos que recibieron cuidados habituales \((\small U=3, p=0.002)\). Estos resultados indican que el nuevo protocolo se asocia a una menor intensidad de dolor, sugiriendo un beneficio clínico relevante en el manejo postoperatorio del paciente.

Ventajas y limitaciones de los test no paramétricos

Aspecto inferencial	Mann‑Whitney / Wilcoxon	t de Student (muestras independientes)
Tipo de test	No paramétrico, basado en rangos	Paramétrico, basado en medias
Supuestos de distribución	No asume normalidad	Asume normalidad (o aproximación. Los t-test son robustos frente a una no normalidad moderada)
Robustez frente a valores extremos	Alta	Baja–moderada
Hipótesis nula	Igualdad de distribuciones	Igualdad de medias poblacionales
Potencia relativa	Menor que en los t-test	Alta si se cumple la normalidad
Parámetro inferido	No explícito	Diferencia de medias
Interpretación clínica directa	Limitada	Alta
Intervalos de confianza	No naturales; requieren supuestos adicionales	Sí, directos y fácilmente interpretables
Tamaño del efecto	Indirecto (probabilístico o basado en rangos)	Directo (diferencia de medias, y medidas estandarizadas, como la d de Cohen)
Tipo de inferencia	Principalmente basada en el valor p	Inferencia completa (estimación + contraste)
Uso recomendado	Muestras pequeñas, no normalidad, datos ordinales	Datos continuos con supuestos razonables

Como alternativa a los tests paramétricos y no paramétricos clásicos, los métodos de bootstrap permiten estimar intervalos de confianza y tamaños de efecto sin asumir una forma específica de la distribución.

No obstante, la validez de los métodos bootstrap depende de la representatividad real de la muestra (si hay sesgos de selección, el bootstrap los hereda), de que el tamaño muestral sea suficientemente grande y su interpretación puede ser menos directa en contextos clínicos.

5 Contrastes de homogeneidad entre dos muestras apareadas

Hablamos de muestras apareadas cuando cada observación de una muestra puede emparejarse de forma natural con una observación de la otra, existiendo una relación directa uno a uno.

Recordemos que este tipo de muestreo se presenta cuando

La pareja de observaciones pertenece al mismo sujeto: diseños de pretest-postest, o con pares biológicos ← El sujeto actúa como su propio control (autoapareamiento).
Pares de observaciones vinculadas, de forma natural o artificial (matching) ← las observaciones pertenecen a individuos distintos, pero existe una relación biológica o estructural entre ellos.

Implicaciones del apareamiento

Debe cumplirse la correspondencia 1:1 de las observaciones de cada muestra: Cada observación del primer par (instante o condición) debe corresponderse con una única observación del segundo.
Los pares de observaciones deben ser independientes entre sí.
En este contexto no es válido comparar las muestras como si fueran independientes, ya que se violaría –precisamente– el supuesto de independencia.
El análisis se centra en las diferencias dentro de cada par, no en las medias marginales de cada muestra.
Por ejemplo, en un diseño pretest-postest se analiza la variable diferencia\(^{*}\) \[ \large D_i=X_i^{\text{post}} - X_i^{\text{pre}} \] De este modo, el análisis se reduce al de una sola muestra (la de las diferencias \(D_i\)).
El apareamiento permite reducir la variabilidad debida a factores individuales, aumentando la potencia estadística del contraste.

__________
\(\large ^{*}\) El orden en que se consideren las diferencias es trivial, pero hay que tenerlo en cuenta en el momento de interpretar los resultados.

Elección del método de contraste

Una vez planteadas las diferencias entre pares, la elección del test depende fundamentalmente de los supuestos sobre la distribución de dichas diferencias:

Si las diferencias pueden asumirse aproximadamente normales, se emplea el test t de Student para muestras apareadas.
Si este supuesto no es razonable (asimetría marcada, presencia de valores extremos, tamaño muestral pequeño o variables ordinales), se recurre al test no paramétrico de Wilcoxon de rangos con signo.

Cuando las muestras son grandes:

La distribución de \(\small \bar{D}\) tiende a la normalidad (teorema del límite central) de manera que el test t de Student es robusto frente a la no normalidad moderada de las diferencias (la robustez aumenta conforme lo hace el tamaño de muestra).
Si la asimetría es muy marcada, las colas de la distribución de las diferencias muy pesadas o hay valores extremos importantes, la convergencia a la normalidad de \(\small \bar{D}\) puede ser lenta, de manera que con muestras de tamaño moderado suele resultar mejor opción considerar el test de Wilcoxon.

5.1 Métodos paramétricos. Test de Student para muestras apareadas

Hipótesis

La hipótesis nula se establece sobre la variable diferencia definida para cada par \((\text{A},\,\text{B})\), que recoge la diferencia entre los valores de la variable observada en ambas condiciones:

\[ \large X_{\text{dif}}=X_{\text{A}}-X_{\text{B}} \]

de manera que:

\[ \large \text{H}_0: \mu_{\text{dif}}=0 \]

en donde \(\mu_{\text{dif}}\) es la media poblacional de la diferencia \(X_{\text{dif}}\).

La hipótesis que se plantea en el test t para muestras apareadas no coincide con la del test para muestras independientes \(\small \mu_\text{A} = \mu_{\text{B}}\), ya que el análisis se formula sobre la variable diferencia.

Desde el punto de vista teórico, el t-test para muestras apareadas puede interpretarse como un t-test para una muestra —el aplicado a las diferencias—, tal y como se introdujo en el tema 5 y se desarrolló con mayor detalle en el tema tema 6. En este contexto, al tratarse de un contraste de homogeneidad, el valor que se somete a contraste es \(\small \mu_0=0\).

En su formato completo, las hipótesis estadísticas obedecen a la formulación:

\[\large \qquad \begin{cases} \text{H}_0: & \mu_{\text{dif}} = 0 \\ \text{H}_1: & \mu_{\text{dif}} \ne 0 \end{cases}, \qquad \begin{cases} \text{H}_0: & \mu_{\text{dif}} \ge 0 \\ \text{H}_1: & \mu_{\text{dif}} < 0 \end{cases}, \qquad \begin{cases} \text{H}_0: & \mu_{\text{dif}} \le 0 \\ \text{H}_1: & \mu_{\text{dif}} > 0 \end{cases} \]

La primera contrasta si hay un cambio medio, y la segunda y tercera si hay un cambio medio direccional, es decir, una reducción o un aumento (aquí es determinante la forma como se definen las diferencias).

Como siempre, que el test sea unilateral o bilateral es algo que debe asumirse y justificarse a priori.

Información muestral y estadístico de contraste

La información muestral necesaria para realizar el test es

\[\large \begin{cases} n & \text{tamaño muestral} \\ \bar{x}_{\text{dif}} & \text{media de las diferencias} \\ s_{\text{dif}} & \text{desviación típica de las diferencias} \end{cases} \]

obtenidas a partir de la variable \(x_{\text{dif}}=x_{\text{A}}-x_{\text{B}}\)

Estadístico de contraste:

\[ \large t_{\text{exp}}=\frac{\bar{x}_{\text{dif}}}{{s_{\text{dif}}/\sqrt{n}}} \]

Bajo la hipótesis nula, este estadístico se distribuye como una t de Student con \(n-1\) grados de libertad

\[ \large t_{\text{exp}} \sim t_{n-1} \]

de manera que el valor p resultante es la probabilidad de obtener un resultado de esta magnitud –o más extrema– si la hipótesis nula es cierta.

Intervalo de confianza tras el test y tamaño de muestra

La formulación general del intervalo de confianza es

\[ \large \bar{x}_{\text{dif}} \pm \,t_{\alpha/2;\,n-1} \frac{s_{\text{dif}}}{\sqrt{n}} \]

que es, precisamente, el intervalo de confianza para la media de una variable normal (ahora, la variable diferencia).

Como ya hemos visto:

Si el test ha sido significativo (\(p\le\alpha\)): el intervalo de confianza se hace a nivel de error \(\alpha\) (el mismo que el nivel de significación considerado en el test)
- Su utilidad es estimar el tamaño del efecto \(\delta\,(=\mu_\text{dif})\)
- En este caso se debe cumplir que el valor cero no está contenido en el intervalo: \(0 \notin IC_{1-\alpha}(\delta)\)
Si el test no ha sido significativo (\(p > \alpha\)): una vez fijada la potencia deseada, \(\theta=1-\beta\), el intervalo de confianza se hace a nivel de error \(2\beta\)
- Su utilidad es estudiar si el test ha tenido dicha potencia para detectar un efecto de tamaño \(\delta\) fijado de antemano.

En ambos casos, si la diferencia mínima clínicamente relevante (DMCR) considerada, tiene una magnitud superior a los límites del intervalo de confianza para la diferencia, diremos que no hay significación clínica.

Tamaño muestral
Si el test no es significativo pero el efecto detectado es potencialmente grande, la determinación del tamaño muestral sigue los mismos principios que los expuestos para el caso de muestras independientes. Se debe fijar
- El nivel de error de tipo I \((\alpha)\)
- La potencia \((\theta)\) deseada (o, equivalentemente, el nivel de error de tipo II, \(\beta\,\))
- La DMCR a detectar \((\delta\,)\)

Ejemplo clínico: Efecto de un programa de rehabilitación respiratoria sobre el FEV₁

En un estudio clínico se evalúa el efecto de un programa de rehabilitación respiratoria en pacientes con EPOC leve–moderada.

En 14 pacientes, se mide el volumen espiratorio forzado en el primer segundo (FEV₁, medido en litros) antes de iniciar el programa y tras 8 semanas de intervención. El objetivo es determinar si el programa mejora el FEV₁ medio.

Aunque no existe un valor universal, en pacientes con EPOC se acepta que un incremento del FEV₁ ≥ 100 mL representa una diferencia clínicamente importante, asociada a una mejoría sintomática y un menor riesgo de exacerbaciones. La American Thoracic Society señala, además, que cambios del orden de 50–100 mL pueden ser clínicamente relevantes.

Los datos observados son:

Hipótesis: Se trata de un test unilateral, ya que interesa detectar si el protocolo mejora (aumenta) el FEV₁. Si consideramos la diferencia “post-pre”, las hipótesis serían

\[ \large \begin{cases} \text{H}_0: & \mu_{\text{dif}} \le 0 \\ \text{H}_1: & \mu_{\text{dif}} > 0 \end{cases} \]

Nivel de significación: Establecemos \(\alpha=0.05\)
Datos observados generamos dos vectores en R:

Introducción de datos

pre <- c(
  2.1,
  1.95,
  2.3,
  2.05,
  1.88,
  2.15,
  2,
  2.25,
  1.92,
  2.05,
  2.15,
  2.06,
  2.02,
  2.2
)
post <- c(
  2.64,
  1.58,
  2.15,
  2.19,
  2.54,
  2.48,
  2.17,
  2.57,
  2.36,
  2.22,
  2.51,
  2.36,
  2.62,
  2.0
)

Información muestral y estimaciones puntuales: Como es un test unilateral, debemos comprobar si la información muestral es compatible con la hipótesis alternativa:

Media de la diferencia

mean(post - pre)

[1] 0.2364286

Como la media de la diferencia es positiva, sí que es compatible con la hipótesis \(\mu_{\text{dif}}>0\).
Observemos que \(\bar{x}_{\text{dif}}=\hat{\mu}_{\text{dif}}=\hat{\delta}\), es decir, la media de la diferencia es el estimador del tamaño bruto del efecto del protocolo sobre el FEV₁.

Resolución: Tanto con el código base de R, como con el paquete BioestadisticaR2, hay dos formas equivalentes de resolver este problema: (1) utilizando las dos muestras e indicando que el test es para muestras apareadas y (2) calculando la variable diferencia y realizando el test para una sola muestra:

Normalidad de la variable diferencia

Código con BioestadisticaR2

library(BioestadisticaR2)
testnormal(post - pre, qq = TRUE)


# Test de normalidad de Shapiro-Wilk  
 ------------------------------------- 
   n = 14,  W = 0.942,  p = 0.44

Recordemos que con muestras pequeñas, los diagramas de normalidad pueden exhibir patrones aparentes que son debidos al azar muestral y no reflejan necesariamente la estructura real de la distribución. En principio, podemos asumir que la diferencia entre los valores de FEV₁ tiene una distribución aceptablemente normal.

Código base (1)

Código

t.test(post, pre, paired = TRUE, alternative = "greater")


    Paired t-test

data:  post and pre
t = 2.9045, df = 13, p-value = 0.00615
alternative hypothesis: true mean difference is greater than 0
95 percent confidence interval:
 0.09227479        Inf
sample estimates:
mean difference 
      0.2364286

Código base (2)

Código

diferencia <- post - pre

# este es el código que vimos en el tema 6
# para un test con una muestra
t.test(diferencia, mu = 0, alternative = "greater")


    One Sample t-test

data:  diferencia
t = 2.9045, df = 13, p-value = 0.00615
alternative hypothesis: true mean is greater than 0
95 percent confidence interval:
 0.09227479        Inf
sample estimates:
mean of x 
0.2364286

Paquete BioestadisticaR2 (1)

Código

library(BioestadisticaR2)

testt(
  m1 = post,
  m2 = pre,
  par = TRUE, # <- indicación de muestras apareadas
  grf = FALSE
) # <- omite salida gráfica



# t-test para dos muestras relacionadas
# -------------------------------------

# Información muestral y estimación de las medias
              n media    dt   sem             IC
  post       14 2.314 0.290 0.078 (2.146, 2.481)
  pre        14 2.077 0.123 0.033 (2.006, 2.148)
  Diferencia 14 0.236 0.305 0.081 (0.061, 0.412)
  ____ 
  * IC elaborados al 95% de confianza para estimar μ₁, μ₂ y μ₁-μ₂ respectivamente 


# Correlación de Pearson entre post y pre:
  r = 0.093 


# Normalidad de la diferencia (Test de Shapiro-Wilk)
  W = 0.942, gl = 14, p = 0.440 


# t-test H₀:μ₁=μ₂ (test de homogeneidad)
  texp = 2.905, gl = 13 
    p = 0.012 para la alternativa bilateral H₁:μ₁≠μ₂ 
    p = 0.006 para la alternativa unilateral H₁:μ₁>μ₂ 
  95%-IC(μ₁-μ₂) = (0.061, 0.412)

Paquete BioestadisticaR2 (2)

Código

library(BioestadisticaR2)

diferencia <- post - pre
testt(m = diferencia, m0 = 0, grf = FALSE) # <- omite salida gráfica


# t-Test con una muestra
# ----------------------

# Resumen de 'diferencia'
    n = 14.000 
    media = 0.236 
    d.t. = 0.305 
    sem = 0.081 

# Estimación de la media μ:
  95%-IC(μ) = (0.061, 0.412) 

# Test de normalidad de Shapiro-Wilk:
  W = 0.942, gl = 14, p = 0.440 

# Test de Student para contrastar H₀:μ=μ₀ con μ₀=0.000
  texp = 2.905, gl = 13 
    p = 0.012 para la alternativa bilateral H₁:μ≠μ₀ 
    p = 0.006 para la alternativa unilateral H₁:μ>μ₀ 

  Estimación del efecto bruto 
  95%-IC(μ) = (0.061, 0.412)

Conclusión:

En este estudio, el programa de rehabilitación respiratoria se asoció con una mejoría estadísticamente significativa del FEV₁ (\(t(13 gl)=2.90; p=0.006\) en el contraste unilateral), evidenciada por un incremento medio de 0.236 L tras la intervención (\(95\%\text{-}IC=(0.061, 0.412)\) L). Este cambio no solo alcanzó significación estadística en el análisis con muestras apareadas, sino que además superó el umbral habitualmente aceptado como diferencia mínima clínicamente importante, lo que respalda su relevancia clínica. En conjunto, estos resultados sugieren que el programa de rehabilitación produce una mejora funcional pulmonar apreciable y potencialmente beneficiosa para los pacientes.

Observaciones
- Se indica el valor del estadístico de contraste junto con sus grados de libertad y el valor p (este último con tres decimales).
- El test de Shapiro-Wilk no ha sido significativo. Esta información se puede añadir a la conclusión anterior junto con su nivel de significación.
- Puesto que el test ha sido significativo para un nivel de significación \(\alpha=0.05\), el intervalo de confianza tiene por obetivo estimar el tamaño bruto del efecto, por lo tanto se hace a un nivel de error \(\alpha=0.05\). En este intervalo no podrá estar el valor cero, que es el indicador de falta de efecto.
- Dada la significación del test, su potencia no es una cuestión que preocupe. La que sea, la ha tenido.
- Considerando una diferencia mínima relevante de \(\delta=\) 0.10 L, el efecto detectado es tanto estadística como clínicamente significativo

5.2 Métodos no paramétricos. Test de Wilcoxon para dos muestras apareadas

\(\tiny \blacksquare \,\,\) En la práctica, en los estudios con muestras apareadas, es frecuente encontrarse con alguna de estas situaciones

Muestras pequeñas
Diferencias muy asimétricas o con valores extremos
Variables de tipo ordinal (por ejemplo, escalas de tipo Likert)

En estos casos, el test t apareado deja de ser adecuado. Como alternativa no paramétrica se utiliza el test de Wilcoxon para muestras apareadas, también llamado test de los rangos con signo de Wilcoxon, que es el análogo no paramétrico del test t apareado.

Como en el t de Student, el análisis se hace sobre la variable diferencia
El test de Wilcoxon no exige normalidad, pero sí que la distribución de las diferencias sea aproximadamente simétrica alrededor de su centro.

Test de los rangos con signo de Wilcoxon

Hipótesis: La hipótesis nula es que no hay diferencia entre las dos condiciones (las diferencias se distribuyen simétricamente alrededor de 0). La alternativa se puede plantear bilateral o unilateral y supone que existe diferencia, incremento o disminución entre las dos condiciones.
Procedimiento del test

El test sigue una lógica basada en rangos:

Cálculo de las diferencias: para cada par de observaciones \(\small (\text{A}_i,\,\text{B}_i)\) se obtiene \(d_i=\text{A}_i-\text{B}_i\)
Eliminación de diferencias nulas: Los pares con \(\small d_i=0\) se excluyen del análisis.
Valor absoluto y ordenación: Se toman los valores absolutos \(\small |d_i|\) y se ordenan de menor a mayor.
Asignación de rangos. Los rangos son el número de posición si no hay empates. En caso de empates, se utilizan los promedios correspondientes.
Asignación de signo. A cada rango se le asigna el signo de la diferencia original.
Cálculo del estadístico: Se obtienen por separado \(\small \sum{R^{+}_i}\) y \(\sum{R^{-}_i}\)
El estadístico del test es el menor de estas dos sumas.
A partir de la distribución del estadístico se obtiene el valor p

Figura 6: Fundamento del test de los rangos con signo de Wilcoxon.

CC-BY-SA

Un valor p pequeño indica que las diferencias observadas no son compatibles con la hipótesis de simetría alrededor de cero.
En términos prácticos, si \(\small p<\alpha\) se concluye que existe una diferencia estadísticamente significativa entre las dos mediciones apareadas.

Ventajas y limitaciones

Ventajas

No requiere normalidad.
Es robusto frente a valores extremos. Cuando la asimetría de las diferencias es marcada, el test de Wilcoxon es robusto frente a la falta de normalidad. En estas condiciones, puede ser igual o más potente que el test t.
Es el método adecuado para variables ordinales.

Limitaciones

La potencia del test de Wilcoxon es aproximadamente el 90-95% de la del test de Student cuando se cumple la normalidad.
Requiere simetría de las diferencias.
No compara medias, sino posiciones centrales.
No permite el análisis subsiguiente propio del test de Student (estimación por intervalo del efecto o estudio de la potencia).

Ejemplo clínico: efecto de un analgésico sobre el nivel de dolor

Se desea evaluar si un tratamiento analgésico reduce el nivel de dolor percibido por los pacientes. Para ello, se selecciona una muestra de 12 pacientes, a los que se les pide que valoren su dolor en una escala ordinal de 1 a 5 (1 = nada de dolor, 5 = dolor muy intenso). La valoración del dolor se realiza en dos momentos:

Antes de iniciar el tratamiento (medidas pre).
Después de una semana de tratamiento (medidas post).

Las puntuaciones observadas son las siguientes:

Hipótesis: Formulamos un test unilateral:
- Hipótesis nula (H₀): No hay diferencias en el nivel de dolor antes y después del tratamiento.
- Hipótesis alternativa (H₁): El nivel de dolor disminuye tras el tratamiento.

Obsérvese que en las hipótesis no se involucran parámetros.

Nivel de significación: Establecemos el nivel de significación \(\alpha=0.05\)
Resolución:

Código base de R

Código

# Datos
dolor_pre <- c(4, 5, 3, 4, 2, 5, 3, 4, 5, 4, 3, 4)
dolor_post <- c(3, 4, 2, 3, 2, 4, 3, 2, 3, 5, 2, 3)

# Test de Wilcoxon para muestras apareadas
wilcox.test(
  dolor_post,
  dolor_pre,
  paired = TRUE,
  alternative = "less",
  exact = TRUE
)


    Wilcoxon signed rank exact test

data:  dolor_post and dolor_pre
V = 6.5, p-value = 0.008789
alternative hypothesis: true location shift is less than 0

BioestadisticaR2

Código

library(BioestadisticaR2)
# Datos
dolor_pre <- c(4, 5, 3, 4, 2, 5, 3, 4, 5, 4, 3, 4)
dolor_post <- c(3, 4, 2, 3, 2, 4, 3, 2, 3, 5, 2, 3)
testwx(
  m1 = dolor_post,
  m2 = dolor_pre,
  par = TRUE,
  grf = FALSE
)


Test de Wilcoxon  para dos muestras apareadas 
----------------------------------------------
# Información muestral ---

     Muestra  n   min    Q1    Q2    Q3   max   RIQ
1 dolor_post 12 2.000 2.000 3.000 3.250 5.000 1.250
2  dolor_pre 12 2.000 3.000 4.000 4.250 5.000 1.250

# Rangos ---

  Se obtienen las diferencias como dolor_post - dolor_pre
  Pares de datos efectivos para los rangos: 10 de 12

        Muestra n Suma_rangos Rango_medio
1 dif.negativas 9          45       5.000
2 dif.positivas 1          10      10.000

# Test ---

  V = 6.500; p = 0.018
  z = 2.550; p = 0.011

# Correlación de Spearman ---

  rho-Spearman = 0.686; p = 0.014

# Tamaño del efecto ---

  Diferencia de localización:  (pseudo)mediana = -1.000    95%-IC = (-1.500, -0.500) 
  r = 0.520; p = 0.018

Conclusión:

Se evaluó el efecto del tratamiento analgésico sobre el nivel de dolor percibido mediante una escala ordinal de 5 puntos aplicada antes y después de la intervención. La mejora analgésica se contrasto mediante un test (unilateral) de Wilcoxon para muestras apareadas.
Los resultados del test ponen en evidencia que existen diferencias estadísticamente significativas entre las puntuaciones de dolor antes y después del tratamiento (\(\small V=4.5, p=0.007\)), observándose una disminución significativa del dolor tras la intervención (el intervalo al 95% de confianza para la variación de la mediana de la diferencia es (0.5, 1.5) puntos de reducción en la escala de dolor).

Consecuentemente, hay indicios para asumir que el tratamiento analgésico produce una reducción significativa del dolor percibido en los pacientes estudiados.

6 Resumen final

Guía metodológica para comparar dos medias

CC-BY-SA

7 Referencias y lecturas recomendadas

Agresti, A., & Kateri, M. (2022). Foundations of Statistics for Data Scientists With R and Python (1st Ed.). Chapman & Hall/CRC Texts in Statistical Science.

Martín Andrés, A., & Luna del Castillo, J. de D. (2004). Bioestadística para las Ciencias de la Salud. Madrid: Norma.

Martín Andrés, A., & Luna del Castillo, J. de D. (2013). 40 ± 10 horas de Bioestadística. Madrid: Ed. Norma-Capitel.

Rosner, B. (2016). Fundamentals of Biostatistics (8.ª ed.). Boston: Brooks/Cole.

Silverman, M. G., Ference, B. A., Im, K., Wiviott, S. D., Giugliano, R. P., Grundy, S. M., … Sabatine, M. S. (2016). Association Between Lowering LDL-C and Cardiovascular Risk Reduction Among Different Therapeutic Interventions: A Systematic Review and Meta-analysis. JAMA, 316(12), 1289-1297. https://doi.org/10.1001/jama.2016.13985

Tema 7 Estudios comparativos con dos muestras de una variable cuantitativa

1 Introducción

2 Diseño del estudio

3 Homogeneidad entre muestras vs. independencia entre variables

4 Contrastes de homogeneidad entre dos muestras independientes

4.1 Contraste de homogeneidad de varianzas

4.2 Contrastes de homogeneidad de medias. Métodos paramétricos

4.3 Análisis de la significación y tamaños de muestra

4.4 Métodos no paramétricos. Test U de Mann-Whitney y W de Wilcoxon

5 Contrastes de homogeneidad entre dos muestras apareadas

5.1 Métodos paramétricos. Test de Student para muestras apareadas

5.2 Métodos no paramétricos. Test de Wilcoxon para dos muestras apareadas

6 Resumen final

7 Referencias y lecturas recomendadas

8 Material de este proyecto

Tema 7
Estudios comparativos con dos muestras de una variable cuantitativa