Práctica 8

Autor/a

Pedro Femia

Objetivos de la práctica

Al finalizar esta sesión, el alumnado será capaz de:

Implementar en R tablas de contingencia o de clasificación cruzada
Obtener y analizar las diferentes distribuciones condicionadas que se derivan de una tabla de contingencia
Distinguir entre test de independencia y test de homogeneidad en tratar con variables cualitativas
Realizar el test \(\small \chi^2\) con el código base de R y con las funciones del paquete BioestadisticaR2
Comprobar la validez del test
Analizar las causas de la significación mediante el análisis de residuos estandarizados corregidos
Analizar tablas de contingencia 2x2
Reconocer los diseños alternativos bajo los que se pueden obtener las tablas 2x2
Obtener e interpretar las medidas de asociación derivadas de las tablas 2x2
Interpretar los valores de los intervalos de confianza correspondientes a las medidas de asociación en tablas 2x2 de forma coherente con la significación del test.
Reconocer un diseño con muestras apareadas
Contrastar la homogeneidad de dos proporciones apareadas mediante el test de McNemar
Estimar e interpretar el tamaño bruto del efecto al comparar dos proporciones apareadas

Instrucciones de inicio

Preparación de la sesión.

Selecciona la carpeta de trabajo (‘Ctrl’ + ‘Mayús’ + ‘H’).
Crea un nuevo script para realizar esta práctica
Pon un título adecuado a la práctica para que aparezca en el índice de RStudio
Guarda el script y recuerda volver a guardarlo de vez en cuando para actualizar el trabajo que vas haciendo.

Instalación de los paquetes necesarios

Instalación de ggplot2

# Ejecutar solo si ggplot2 no está ya instalado
install.packages("ggplot2")

Instalación de BioestadisticaR2.

Instalación de BioestadisticaR2

install.packages(
  "https://digibug.ugr.es/bitstream/handle/10481/84535/BioestadisticaR2_2.5.0.zip",
  repos = NULL
)
library(BioestadisticaR2)

Si has tenido problemas con la instalación, avisa al profesor o profesora responsable.
Otras opciones de instalación: web de BioestadisticaR2

1 Tablas de contingencia mayores a 2x2

1.0.1 Adherencia al tratamiento según el nivel educativo

A continuación se presenta un tipo de problema que es muy habitual en epidemiología descriptiva y analítica, y especialmente relevante en enfermería comunitaria y educación para la salud.

En un estudio transversal realizado en atención primaria, el personal de enfermería evalúa la adherencia al tratamiento antihipertensivo en pacientes adultos, según el nivel educativo. La adherencia se valora mediante una escala validada y se clasifica en tres categorías.

Nivel educativo:
- Sin estudios
- Estudios primarios
- Estudios secundarios
- Estudios universitarios
Adherencia al tratamiento:
- Baja
- Media
- Alta

La información obtenida es la siguiente

Nivel educativo	Baja	Media	Alta	Total
Sin estudios	30	20	10	60
Estudios primarios	25	30	15	70
Estudios secundarios	15	30	25	70
Estudios universitarios	5	15	20	40
Total	75	95	70	240

¿De qué tipo son las variables implicadas? ¿Qué nombre recibe la tabla presentada con la información recogida en el estudio?
¿Cuántas muestras hay? Formula las hipótesis a contrastar
Indica cuál es el test apropiado para contrastar las hipótesis formuladas. Realízalo utilizando la función tablarxc() de BioestadisticaR2 comentando su validez y las conclusiones que se derivan de este análisis. ¿Qué entiendes por frecuencias esperadas? Obtén la tabla con dichas frecuencias.
Obtén la distribución de la adherencia condicionada al nivel educativo. De los pacientes sin estudios, ¿qué proporción tiene una adherencia baja al tratamiento?
Obtén la distribución del nivel educativo condicionado a la adherencia al tratamiento. De los pacientes con baja adherencia, ¿qué proporción de casos no tiene estudios?
Considerando la distribución conjunta de las dos variables ¿Qué proporción de pacientes tiene una adherencia baja al tratamiento y no tiene estudios?
Justifica la significación del test \(\small \chi^2\). En caso de ser significativo ¿Donde se dan las discrepancias entre las frecuencias observadas y las esperadas según la hipótesis nula?

Solución

Las variables son ordinales. La información se presenta como una tabla de contingencia 4x3
El estudio es transversal, hay una sola muestra de 240 casos. La hipótesis nula es de independencia: “el nivel de adherencia al tratamiento es independiente del nivel educativo”.
Test \(\small \chi^2\). Es válido: todas las frecuencias esperadas son mayores a 1; podría haber 2 frecuencias esperadas menores a 5, pero no hay ninguna. Las frecuencias esperadas son aquellas que, bajo la hipótesis nula de independencia entre las variables, deberían aparecer en el interior de la tabla manteniendo los totales marginales fijos.

Código para responder a los apartados 3 a 7:

library(BioestadisticaR2)

# Apartado 3 ----
## Generación de la tabla ----
### (a) declaración de las columnas ----
baja <- c(30, 25, 15, 5)
media <- c(20, 30, 30, 15)
alta <- c(10, 15, 25, 20)

### (b) Estructuración como data.frame----
datos <- data.frame(baja, media, alta)

### (c) Etiquetado de las filas ----
rownames(datos) <- c(
  "Sin estudios",
  "Estudios primarios",
  "Estudios secundarios",
  "Estudios universitarios"
)

### (d) visualización de la tabla creada ----
datos

## Realización del test de independencia ----
### con el código base de R ----
chisq.test(datos)

### con la función del paquete BioestadisticaR2 ----
tablarxc(frecs = datos)

## Frecuencias esperadas bajo la hipótesis nula  ----
tablarxc(frecs = datos, tablas = "E")

# Apartado 4 ----
tablarxc(frecs = datos, tablas = "F")
# 0.50 (el 50%)

# Apartado 5 ----
tablarxc(frecs = datos, tablas = "C")
# 0.4 (el 40%)

# Apartado 6 ----
tablarxc(frecs = datos, tablas = "T")
# 0.125 (el 12.5%)

# Apartado 7 ----
tablarxc(frecs = datos, tablas = "S")

Las causas de la significación se deducen del análisis de los residuos estandarizados \(\small r_{ij}^{*}\):

Si \(\small |r_{ij}^{*}|>2\) el residuo es significativamente grande
Si \(\small r_{ij}^{*}<0\) se observan menos casos de los que se esperan bajo la hipótesis nula
Si \(\small r_{ij}^{*}>0\) se observan más casos de los que se esperan bajo la hipótesis nula

O alude a frecuencias observadas y E a las esperadas bajo la hipótesis nula.
La adherencia baja se da en el grupo de pacientes sin estudios. La adherencia alta la tienen, sobre todo, los pacientes con estudios universitarios.

1.0.2 Vacunación antigripal

Se ha realizado un estudio de cohortes prospectivo en un hospital comarcal. En él se incluyeron tres cohortes independientes de profesionales sanitarios, definidas en función de su estado vacunal frente a la gripe al inicio del estudio. En total participaron 300 profesionales sanitarios (enfermería y técnicos en cuidados auxiliares de enfermería, TCAE), todos ellos libres de infección respiratoria en el momento de la inclusión. Las cohortes estudiadas fueron:

Profesionales no vacunados frente a la gripe (n = 100)
Profesionales vacunados con una dosis (n = 100)
Profesionales vacunados con dos dosis (segunda de refuerzo) (n = 100)

Cada cohorte fue seguida de forma prospectiva durante 6 meses con el objetivo de evaluar la aparición de gripe estacional. La gravedad de la infección gripal durante el seguimiento se clasificó en las siguientes categorías:

Sin gripe
Gripe leve (sin baja laboral)
Gripe moderada (baja ≤ 7 días)
Gripe grave (baja > 7 días / ingreso)

Las frecuencias observadas en cada cohorte se resumen en la siguiente tabla de contingencia, que permite evaluar si la distribución de la gravedad de la gripe es homogénea entre las tres cohortes vacunales.

Estado de vacunación	No gripe	Gripe leve	Gripe moderada	Gripe grave	Total
No vacunado	40	25	20	15	100
Vacunado (1 dosis)	70	15	10	5	100
Vacunado + refuerzo	85	10	4	1	100

Formular las hipótesis a contrastar
Realiza el test apropiado para hacer el contraste comentando su resultado y su validez.
¿Qué proporción de no vacunados no han tenido gripe en el periodo de seguimiento?
¿Qué proporción de sujetos que no han tenido gripe durante el seguimiento, no estaban vacunados?
Analiza las causas de la significación, si es que es procedente.

Solución

Hay tres muestras independientes. El diseño es de tipo II, con condicionamiento al factor de riesgo (estado de vacunación). El test es de homogeneidad. La hipótesis nula es “la frecuencia de aparición y gravedad de la gripe es la misma en las tres cohortes”, la alternativa es que “al menos en una cohorte, esa frecuencia es diferente a las demás”.

Código para responder a los apartados 2 a 5:

library(BioestadisticaR2)

# Apartado 2 ----
## Generación de la tabla de contingencia ----

No_gripe <- c(40, 70, 85)
Leve <- c(25, 15, 10)
Moderada <- c(20, 10, 4)
Grave <- c(15, 5, 1)

datos <- data.frame(No_gripe, Leve, Moderada, Grave)

rownames(datos) <- c("No_vacunado", "Vacunado_1dosis", "Vacunado_refuerzo")

## Visualización de la tabla ----
datos

## Prueba X-cuadrado  ----
### con el código base de R ----
chisq.test(datos)

### con BioestadisticaR2 ----
tablarxc(frecs = datos)
# el test es válido, todas las frecuencias esperadas son > 5

# Apartado 3 ----
tablarxc(frecs = datos, tablas = "F")
# 0.4 (el 40% de los no vacunados, no han tenido gripe)

# Apartado 4 ----
tablarxc(frecs = datos, tablas = "C")
# 0.205 (el 20.5% de los casos sin gripe, no estaban vacunados)

# Apartado 5 ----
# residuos estandarizados
tablarxc(frecs = datos, tablas = "S")

Las causas de la significación se deducen del análisis de los residuos estandarizados \(\small r_{ij}^{*}\):

2 Tablas 2x2

2.0.1 Efecto de la movilización precoz del paciente

La movilización precoz del paciente constituye una intervención clave para la prevención de complicaciones respiratorias, la reducción del riesgo de trombosis venosa y la disminución de la estancia hospitalaria. Se trata de una actuación directamente vinculada a los cuidados de enfermería, y el objetivo de este estudio es evaluar su efecto sobre la aparición de trombosis venosa profunda (TVP).

Para ello, se incluyeron 116 pacientes, que fueron asignados aleatoriamente a dos grupos: un grupo control (n = 56), que recibió los cuidados habituales, y un grupo de intervención (n = 60), en el que, además de los cuidados habituales, se aplicó un protocolo de movilización precoz. El seguimiento se realizó durante el periodo de hospitalización, registrándose la aparición o no de TVP. Durante dicho periodo, se observaron 5 casos de TVP en el grupo de intervención y 11 casos en el grupo control.

Identifica el tipo de estudio realizado.
Formula las hipótesis a contrastar.
Utiliza la función tabla2x2() del paquete BioestadisticaR2.

Ten en cuenta que el formato de tabla que maneja esta función no es el habitual en Epidemiología. Para que la estimación de las medidas de asociación sea correcta, se debe poner la variable factor en columnas y la respuesta en filas.

Interpreta los resultados obtenidos. Tanto en el test \(\small \chi^2\) como en las medidas de asociación proporcionadas por esta función.
Determina el riesgo absoluto en cada uno de los grupos, experimental y control.

Solución

Estudio prospectivo experimental: los sujetos se asignan a cada nivel del factor, por tanto, la exposición está controlada por el investigador.
Hipótesis nula: el riesgo de TPV es el mismo en el grupo de movilización que en el grupo experimental
Elaboración de la tabla y medidas de asociación

library(BioestadisticaR2)

# grupo movilización
x1 <- 5 # <-- casos
n1 <- 60 # <-- tamaño muestral
# grupo control
x2 <- 11 # <-- casos
n2 <- 56 # <-- tamaño muestral

# Obtención de la tabla y medidas para un estudio prospectivo
tabla2x2(
  c(
    x1,
    x2,
    n1 - x1,
    n2 - x2
  ),
  fcat = c("TVP+", "TVP–"), # <-- Modalidades por filas
  ccat = c("Movilización", "Control"), # <-- Modalidades por columnas
  estudio = "P"
) # <-- estudio de tipo prospectivo

El test \(\small \chi^2\) es válido. Considerando \(\small \alpha=0.05\) no llega a ser significativo, pero hay indicios de siginficiación (\(\small p=0.078\)) que sugieren una probable falta de potencia. El test exacto de Fisher es un test conservador, pero también sugiere indicios de significación (\(\small p=0.106\)).

Riesgo relativo= 0.424 (<1) indica que la movilización se insinúa como factor protector: el riesgo de tener TPV se reduce más de la mitad con la movilización. Sin embargo, el intervalo de confianza para esta medida, \(\small 95\%\text{-}IC(RR)=(0.173, 1.155)\), contiene al valor nulo 1, reflejando así la falta de significación del test. Es un intervalo relativamente amplio (muy descentrado por la izquierda), lo que apoya la idea de que el estudio presenta falta de potencia.

Diferencia de riesgos = 0.113. Puntualmente, la movilización induce una reducción de un 11.3% en el riesgo de TPV. El intervalo de confianza \(\small 95\%\text{-}IC(DR)=(-0.238, 0.017)\) también presenta al valor nulo para esta medida, que ahora es 0. Lo que es coherente con la falta de significación del test. Sin embargo, la reducción puede llegar a ser de un 23%, lo que supone un efecto importante. Este resultado también invita a a ampliar el estudio con tamaños muestrales mayores a los actuales.

Odds ratio = 0.372; La fracción de casos que desarrolla TVP frente a los que no es 0.37 veces menor en el grupo con movilización que en el grupo control. De manera acorde a las medidas anteriores, el intervalo de confianza para la odds ratio contiene al valor nulo 1 y es relativamente amplio: \(\small 95\%\text{-}IC(OR)=(0.132, 1.165)\) reiterando la necesidad de ampliar el estudio.

El riesgo absoluto para cada nivel del factor es la proporción de casos con TPV condicionada a dicho nivel, por lo tanto, podemos obtenerlo a través de la tabla de porcentajes por columnas:

# Obtención de la tabla y medidas para un estudio prospectivo
tabla2x2(
  c(
    x1,
    x2,
    n1 - x1,
    n2 - x2
  ),
  fcat = c("TVP+", "TVP–"), # <-- Modalidades por filas
  ccat = c("Movilización", "Control"), # <-- Modalidades por columnas
  estudio = "P", # <-- estudio de tipo prospectivo
  tablas = "C"
) # <-- tabla de proporciones por columnas

Los riesgos absolutos estiman la probabilidad de desarrollar TVP en cada grupo:

Riesgo absoluto en el grupo de movilización: 0.083 (8.3%)
Riesgo absoluto en el grupo control: 0.196 (19.6%)

Sobre estos valores se puede ampliar la inferencia elaborando intervalos de confianza para una proporción, tal y como vimos en la práctica 5

# Obtención de la tabla y medidas para un estudio prospectivo
icp(x1, n1, tabla = TRUE) # <- IC riesgo absoluto en grupo=movilización
icp(x2, n2, tabla = TRUE) # <- IC riesgo absoluto en grupo=control

2.0.2 Tabaquismo y cáncer de pulmón

Se investigó la posible asociación entre el consumo habitual de tabaco y la aparición de cáncer de pulmón en adultos de una determinada área sanitaria. El estudio incluyó 85 casos, correspondientes a pacientes diagnosticados de cáncer de pulmón, y 100 controles, definidos como personas sin dicho diagnóstico, emparejados por edad y sexo.

La exposición al tabaco se definió como haber fumado al menos un cigarrillo al día durante un período mínimo de 10 años. Los resultados mostraron que 72 de los casos habían estado expuestos al tabaco, mientras que dicha exposición se observó en 25 de los sujetos del grupo control.

Indica de qué tipo es el estudio y cuáles son las hipótesis a contrastar.
Realiza el contraste adecuado interpretando su resultado.
Indica cuál o cuáles son las medidas de asociación apropiadas para este tipo de estudio e interprétalas.

Solución

Se trata de un estudio de casos y controles (retrospectivo). Hay dos muestras independientes, los pacientes diagnosticados con cáncer (los casos) y los sujetos sin ese diagnóstico (los controles). La hipótesis nula es la homogeneidad en las proporciones de casos y de controles expuestos al tabaco. La alternativa bilateral es que dichas proporciones no son iguales, aunque es más coherente plantear la alternativa unilateral “la exposición en los casos es mayor que en los controles”.
El código para elaborar la tabla de contingencia y la realización del contraste mediante la función tabla2x2() de BioestadisticaR2 se presenta a continuación. Recordemos que el formato de la tabla que maneja esta función no es el habitual en epidemiología. Se ha de colocar la respuesta por filas (casos en la primera fila) y el factor en columnas (fumadores en la primera columna).

# casos
x1 <- 72
n1 <- 85

# controles
x2 <- 25
n2 <- 100

# la tabla en formato vector es c(O11, O12, O21, O22)
tabla2x2(
  c(
    x1,
    n1 - x1,
    x2,
    n2 - x2
  ),
  fcat = c("Casos (cáncer)", "Controles"),
  ccat = c("Fumadores", "No fumadores"),
  estudio = "R"
)

En diseños de tipo casos y controles, la única medida realmente apropiada es la razón del producto cruzado (odds ratio). La estimación puntual \(\small OR=16.6\) indica que la fracción de casos expuestos al tabaco, frente a los que no lo están, es 16.6 veces mayor que en los controles. El intervalo de confianza no contiene al valor nulo (1).

En este tipo de estudio, cuando la prevalencia de la enfermedad es baja, la odds ratio se puede interpretar como una aproximación al riesgo relativo. La prevalencia a 5 años del cáncer de pulmón en España es, aproximadamente, del 0.08% de manera que la aproximación sería válida y podríamos decir que los fumadores tienen, aproximadamente, 16.6 veces más riesgo de desarrollar cáncer de pulmón que los no fumadores.

2.0.3 Obesidad e hipertensión

En un centro de salud se llevó a cabo un estudio con el objetivo de estimar la prevalencia de hipertensión arterial (HTA) y analizar su relación con la obesidad en la población adulta adscrita al centro.

En el estudio participaron 760 personas adultas, de las cuales se registró, para cada individuo, la presencia o ausencia de obesidad —definida como un índice de masa corporal (IMC) ≥ 30 kg/m²— y la presencia o ausencia de hipertensión arterial, determinada por diagnóstico previo o por cifras de tensión arterial iguales o superiores a 140/90 mmHg.

Del total de sujetos estudiados, 129 presentaban obesidad y 296 eran hipertensos, observándose que 77 individuos cumplían simultáneamente criterios de obesidad e hipertensión arterial.

¿De qué tipo es el estudio?
¿Qué variable actúa como factor y cuál es la respuesta?
¿Cuáles son las hipótesis a contrastar?
Elabora la tabla de contingencia. Recuerda que para analizarla correctamente con la función de BioestadisticaR2, se debe ubicar al factor en columnas y a la respuesta en filas.
Analiza los datos e interpreta el resultado.
Indicar si son estimables y, en caso de serlo, obtener la estimación de las siguientes prevalencias

Prevalencia de hipertensos
Prevalencia de obesos
Prevalencia de hipertensos condicionada a la presencia de obesidad
Prevalencia de obesidad condicionada a la presencia de hipertensión

Solución

El estudio es de tipo transversal; hay una sola muestra cuyas observaciones se clasifican de acuerdo a las categorías de cada variable.
La obesidad actúa como factor de riesgo y la hipertensión como variable respuesta.
La hipótesis nula es de independencia: “La hipertensión es independiente de la obesidad”
5. Elaboración de la tabla y realización del test

library(BioestadisticaR2)

# Elaboración de la tabla
# Información del enunciado
n <- 760 # sujetos totales observados
c1 <- 129 # obesos
f1 <- 296 # hipertensos
x11 <- 77 # obesos e hipertensos

# Calculamos los totales marginales que faltan
c2 <- n - c1
f2 <- n - f1

# Calculamos el resto de frecuencias de la tabla
x12 <- f1 - x11
x21 <- c1 - x11
x22 <- f2 - x21

# Comprobamos que la tabla es correctoa y realizamos el test
tabla2x2(
  c(x11, x12, x21, x22),
  fcat = c("HT-Sí", "HT-No"),
  ccat = c("Obesidad-Sí", "Obesidad-No"),
  estudio = "T"
)

El test \(\small \chi^2\) es válido. Su significación, \(\small p < 0.001\), pone de manifiesto la asociación entre las prevalencias de la obesidad y la hipertensión.

En los estudios transversales, la interpretación debe hacerse siempre en términos de prevalencia, y no en términos de riesgo (en este tipo de estudios, los riesgos no son calculables).
La razón de prevalencias, que la salida presenta como riesgo relativo, es 1.7, lo que quiere decir que la prevalencia de hipertensos en obesos es 1.7 veces mayor (casi el doble) que en sujetos no obesos. EL intervalo al 95% de confianza para esta medida (1.438, 2.049), refleja la significación del test (el intervalo no contiene al valor nulo 1). La precisión del intervalo es muy aceptable, lo que viene dado por el tamaño grande de la muestra analizada.

La diferencia de prevalencias, que en la salida aparece como diferencia de Berkson, es 0.250, cuya interpretación es que la prevalencia de hipertensos en obesos es un 25% mayor que en no obesos. De nuevo, el intervalo de confianza refleja la significación del test, ya que el valor nulo para esta medida, el 0, no está recogido en el intervalo.

La razón de producto cruzado u odds ratio, toma un valor similar a la proporción de riesgos. Indica que la fracción de hipertensos, frente a los que no lo son, es 2.786 veces mayor en sujetos obesos que en sujetos no obesos. Su intervalo no contiene al valor nulo 1. Podemos observar cómo la razón de producto cruzado aumenta de forma más rápida que la razón de prevalencias en la medida en que estos valores se alejan del valor nulo que representa la independencia entre las variables analizadas.

El tipo de diseño permite estimar todas las prevalencias indicadas, ya que las distribuciones marginales son siempre variables aleatorias (no hay marginales fijados por diseño). Las dos primeras prevalencias, a y b (sin condicionar), se pueden obtener de la tabla de proporciones totales. Las prevalencias condicionadas se obtienen de la tabla de proporciones por filas y por columnas respectivamente.

library(BioestadisticaR2)

# Prevalencias marginales
tabla2x2(
  c(x11, x12, x21, x22),
  fcat = c("HT-Sí", "HT-No"),
  ccat = c("Obesidad-Sí", "Obesidad-No"),
  estudio = "T",
  tablas = c("F", "C", "T") # tablas de porcentajes por filas, columnas y totales
)

Prevalencia (marginal) de la hipertensión: 38.9%
Prevalencia (marginal) de la obesidad: 17.0%
Prevalencia de la hipertensión en obesos: 59.7%
Prevalencia de la obesidad en hipertensos: 26.0%

3 Comparación de dos proporciones con muestras apareadas

3.0.1 Higiene de manos en el personal de Enfermería

Un equipo de Epidemiología Hospitalaria se plantea evaluar la efectividad de una intervención educativa dirigida al personal de enfermería con el objetivo de mejorar la adherencia a la higiene de manos en una unidad de cuidados intensivos (UCI).

Para ello, se seleccionó aleatoriamente una muestra de 120 profesionales de enfermería. En cada participante se registró, mediante observación directa, si realizaba correctamente la higiene de manos antes del contacto con el paciente, tanto antes de la intervención formativa como tres meses después de su implementación.

Los resultados pusieron de manifiesto un éxito parcial de la intervención. De los 120 profesionales evaluados, 58 realizaban correctamente la higiene de manos tanto antes como después de la intervención, manteniendo una conducta adecuada a lo largo del estudio. Entre quienes no cumplían correctamente esta práctica en la evaluación inicial, 34 incorporaron una higiene de manos adecuada tras la formación. No obstante, 12 profesionales que presentaban una adherencia correcta al inicio dejaron de hacerlo en la evaluación realizada a los tres meses. Por último, 16 participantes mantuvieron de forma persistente una práctica incorrecta, tanto al inicio del estudio como tras la intervención.

Identifica el tipo de estudio. Confecciona la tabla adecuada y formula las hipótesis a contrastar.
Contrasta las hipótesis formuladas interpretando el resultado
Da una estimación del tamaño (bruto) del efecto de la intervención formativa sobre la práctica de higiene de manos en los profesionales de la UCI. Indica si este efecto es relevante desde el punto de vista tanto estadístico como clínico.

Solución

Se trata de un diseño apareado (pre-post) para una variable respuesta de tipo binario (higiene manual correcta/incorrecta). La hipótesis nula es que la intervención no tiene efecto, es decir, que la proporción de casos que realizan la higiene de manos de forma correcta es la misma al inicio del estudio y tras tres meses, después de la intervención educativa.

La alternativa de interés es unilateral, en el sentido de que lo que interesa detectar es si el protocolo “aumenta” la proporción de sujetos que realizan correctamente la higiene manual.

Si definimos la tabla

contrastar las hipótesis \[ \begin{cases} \text{H}_0: & \pi_1 \ge \pi_2 \\ \text{H}_1: & \pi_1 < \pi_2 \end{cases} \qquad \]

es equivalente a contrastar

\[ \begin{cases} \text{H}_0: & \pi_{12} \ge \pi_{21} \\ \text{H}_1: & \pi_{12} < \pi_{21} \end{cases} \qquad \]

es decir, la alternativa de interés es que ha habido una reducción en la proporción de casos “pre-incorrecta/post-correcta” respecto a la proporción “pre-correcta/post-incorrecta”.

Como en todo test unilateral, hay que comprobar que la información muestral es compatible con la hipótesis alternativa.

El método a utilizar es el test de McNemar, cuya implementación la hace la función testmcnemar() del paquete BioestadisticaR2 (en R-base aparece la función mcnemar.test(), pero no proporciona tanta información como la primera).

library(BioestadisticaR2)

testmcnemar(
  n11 = 58,
  n12 = 12,
  n21 = 34,
  n22 = 16,
  fcat = c("Pre-correcto", "Pre-incorrecto"),
  ccat = c("Post-correcto", "Post-incorrecto")
)

En la tabla de proporciones totales podemos observar que \(\small \hat\pi_{12} = 0.100 < \hat\pi_{21}=0.283\), de manera que la información muestral es compatible con la hipótesis alternativa.

El test de McNemar es aplicable (cumple la condición de validez) y su resultado es significativo para \(\small \alpha=0.05,\) ya que es \(\small p<0.001\).

La salida del análisis proporciona estimaciones por intervalo tanto de las proporciones individuales como del efecto global de la intervención, cuantificado mediante la diferencia de proporciones. A partir de estos resultados se observa una reducción del 18 % en la proporción de profesionales que realizan incorrectamente la higiene de manos. El intervalo de confianza obtenido mediante el método de Agresti–Min, \(\small (−0.286, −0.075)\) no incluye el valor nulo (0), lo que permite inferir la existencia de un efecto estadísticamente significativo. El signo negativo de los límites del intervalo indican que el sentido del efecto es una reducción. Considerando el intervalo, se puede concluir que, con un 95% de confianza, el efecto real de la intervención es una reducción –en la proporción de profesionales que realizan de forma incorrecta la higiene de manos– que debe de estar comprendida entre el 7,5% y el 28,6%.

4 Cuestiones

Indica si son correctos o no los siguientes enunciados

En el test de McNemar, cada individuo actúa como su propio control.
En una tabla de contingencia 2×2, la comparación entre proporciones depende del diseño del estudio.
En una tabla 2×2 procedente de un estudio de casos y controles, se puede estimar la prevalencia de la enfermedad y es válido el intervalo de confianza basado en la distribución binomial.
En una tabla 2×2, si los totales marginales son fijos por diseño, la elección de la medida de asociación depende del tipo de estudio realizado.
El estadístico \(\small \chi^2\) de Pearson requiere que todas las frecuencias observadas sean mayores o iguales a 5 para que el contraste sea válido.
Un test \(\small \chi^2\), para contrastar la asociación entre el hábito de fumar (sí/no) y la presencia/ausencia de obstrucciones precoces en el flujo de aire a los pulmones, da lugar a un valor \(\small p=0.001\), lo que indica que la asociación entre ambas variables es muy fuerte, más que si se hubiera obtenido \(\small p=0.020\).
En una tabla r×c procedente de un estudio transversal, un valor \(\small p\) no significativo para \(\small \alpha=0.05\) implica la ausencia total de relación entre las variables implicadas.
Un valor alto del estadístico \(\small \chi^2\) significa que las frecuencias observadas son discrepantes con las esperadas bajo la hipótesis nula.
El test \(\small \chi^2\) permite contrastar tanto la independencia entre variables, cuando se toma una sola muestra, como la homogeneidad de proporciones cuando se consideran varias muestras independientes.
El test exacto de Fisher puede utilizarse siempre en el análisis de tablas 2x2, pero han de verificarse ciertas condiciones de validez, a diferencia del test \(\small \chi^2\) que siempre es válido en este tipo de tablas.
En estudios de casos y controles, cuando la prevalencia de la enfermedad es alta, no es adecuado hablar de riesgos. La única medida válida de asociación es la odds ratio.
El intervalo de confianza para el riesgo relativo es \(\small 95\%\text{-}IC(RR)=(0.90, 5.72)\). Esto quiere decir que en el test \(\small \chi^2\) se ha obtenido un valor \(\small p<0.05\), ya que un riesgo de 5.72 es considerablemente alto.
Cuando una medida de asociación se construye como un cociente, su valor nulo es 0, cuando se construye como una diferencia, su valor nulo es 1.
Un valor muy pequeño del estadístico \(\small \chi^2\) debe traducirse en un valor de \(\small p\) grande, y al revés, un valor grande de \(\small \chi^2\) debe traducirse en un valor de \(\small p\) pequeño.
En una tabla 2x2, una odds ratio negativa quiere decir que la asociación entre las dos variables implicadas en el análisis es de tipo inverso, es decir, que el factor de riesgo, realmente es un factor de prevención.
En un estudio prospectivo para analizar la aparición de una enfermedad en función de la exposición o no a un determinado factor de riesgo, una odds ratio \(\small OR=4\) quiere decir que la probabilidad de enfermar en los sujetos expuestos al factor de riesgo es cuatro veces mayor que la probabilidad de enfermar que tienen los sujetos no expuestos.
Cuando en un test \(\small \chi^2\) aparecen frecuencias esperadas menores a 1, el valor \(\small p\) resultante será anómalamente bajo, reflejando una significación irreal.
Al analizar la significación de un test \(\small \chi^2\) mediante los residuos estandarizados, un residuo mayor a 2 en una determinada casilla, significa que allí se observan más casos de los esperados por la hipótesis nula y que esta diferencia es significativa.
El \(\small \chi^2\) de Pearson es invariante ante permutaciones de filas y columnas de la tabla.
La interpretación correcta de una tabla de contingencia requiere considerar conjuntamente el diseño del estudio, el contraste estadístico y las medidas de asociación.
Un riesgo relativo igual a 2 indica que el riesgo en el grupo expuesto duplica al del grupo no expuesto.
Un riesgo relativo igual a 5 se traduce en que los sujetos expuestos al factor de riesgo tienen una probabilidad muy alta de contraer la enfermedad.
Una diferencia de riesgos de 0.01 (1%) puede ser epidemiológicamente relevante cuando la inferencia va dirigida a una población de tamaño grande.
En el test de McNemar, las discordancias son fundamentales para evaluar los cambios, realmente las concordancias no intervienen en el contraste.
En un estudio transversal, la hipótesis nula puede ser –indistintamente– homogeneidad entre muestras o independencia entre las variables
De manera estricta, el único tipo de estudio que permite hablar de riesgo de forma apropiada es el prospectivo.

Solución

Para cada enunciado, se indica si es verdadero (V) o falso (F):

a. V; b. V; c. F; d. V; e. F; f. F; g. F; h. V; i. V; j. F; k. V; l. F; m. F; n V; o. F; p. F; q. V; r. V; s. V; t. V; u. V; v. F; w. V; x. V; y. F; z. V.

5 Ejercicios propuestos

5.1 Edad del primer parto y cáncer de mama

La Organización Mundial de la Salud (OMS) ha publicado un estudio internacional en el que se investiga la posible asociación entre el cáncer de mama y la edad en el primer parto como factor de riesgo.

En uno de los países participantes se incluyeron 130 mujeres con diagnóstico de cáncer de mama y 1.080 mujeres sin dicho diagnóstico. Entre las mujeres con cáncer, 26 habían tenido su primer parto a los 30 años o más, mientras que esta situación se observó en 120 mujeres del grupo sin cáncer de mama.

Identifica el tipo de estudio, formula las hipótesis adecuadas, realiza el contraste e interpreta sus resultados incluyendo las medidas de asociación apropiadas.

5.2 Diabetes mellitus tipo 2 y enfermedad renal

Con el objetivo de evaluar la relación entre la diabetes mellitus tipo 2 y la aparición de enfermedad renal crónica, se seleccionó una población de 2.500 personas inicialmente sin diagnóstico de enfermedad renal, atendidas en atención primaria.

Al inicio del estudio, 900 sujetos presentaban diabetes mellitus tipo 2 y 1.600 no eran diabéticos. Todos los participantes fueron seguidos durante 7 años.

Durante el periodo de seguimiento se diagnosticó enfermedad renal crónica en 135 personas del grupo diabético y en 64 personas del grupo no diabético.

Identifica el tipo de estudio, formula las hipótesis adecuadas, realiza el contraste e interpreta sus resultados incluyendo las medidas de asociación apropiadas.

5.3 Consumo de benzodiacepinas en personas mayores

Con el objetivo de analizar la asociación entre el consumo de benzodiacepinas y la presencia de caídas en personas mayores, se realizó un estudio en una población atendida en centros de atención primaria.

Se incluyeron 1.500 personas de 65 años o más, a las que se recogió información sobre el consumo habitual de benzodiacepinas y la ocurrencia de al menos una caída en el último año, mediante entrevista y revisión de la historia clínica, en un mismo momento del estudio.

En el momento de la evaluación, 420 personas consumían benzodiacepinas, de las cuales 168 habían sufrido al menos una caída. Entre las 1.080 personas que no consumían benzodiacepinas, 162 habían presentado alguna caída.

Identifica el tipo de estudio, formula las hipótesis adecuadas, realiza el contraste e interpreta sus resultados incluyendo las medidas de asociación apropiadas. Indica si este tipo de estudio permite estimar la prevalencia de las caídas en personas mayores.