Práctica 5

Autor/a

Objetivos de la práctica

Al finalizar esta sesión, el alumnado será capaz de:

  • Consultar el listado de paquetes disponibles en el repositorio CRAN de R.
  • Instalar paquetes alojados en CRAN y en otros repositorios.
  • Reconocer un problema de estimación de parámetros.
  • Discriminar el tipo de parámetro que caracteriza una situación práctica.
  • Obtener e interpretar el intervalo de confianza apropiado para cada parámetro.
  • Reconocer las situaciones en las que se presentan diferentes alternativas de estimación.
  • Interpretar la precisión del intervalo.
  • Detectar cuándo es necesario ampliar el tamaño muestral.
  • Calcular el tamaño muestral necesario para obtener una precisión objetivo en la estimación.

Comenzamos la sesión realizando la rutina habitual:

  • Selecciona la carpeta de trabajo (recuerda que lo puedes hacer usando el atajo ‘Ctrl’ + ‘Mayús’ + ‘H’ y la conveniencia de que uses tu pen-drive).
  • Crea un nuevo script para realizar esta práctica
  • Pon un título adecuado a la práctica para que aparezca en el índice de RStudio
  • Guarda el script y recuerda volver a guardarlo de vez en cuando para actualizar el trabajo que vas haciendo.

1 Instalación de paquetes de R

Vamos a instalar dos paquetes de funciones para aumentar la funcionalidad de R. Los paquetes son:

  • ggplot2 es un paquete de funciones gráficas.
    • Permite hacer diagramas más sofisticados que los del lenguaje base.
    • No vamos a usarlo directamente, pero BioestadisticaR2 sí que lo utiliza, por lo tanto, hay que tenerlo instalado.
    • Se aloja en el repositorio institucional de R: CRAN (Comprehensive R Archive Network). Puedes consultar el listado de todos los paquetes disponibles en CRAN.
  • BioestadisticaR2 es un paquete que implementa las técnicas inferenciales que vemos en este curso.
    • Está en castellano
    • Utiliza funciones de ggplot2, por lo tanto, para que funcione debe tenerse ggplot2 instalado.
    • No está en el CRAN, se aloja en Digibug, que es el repositorio institucional de la UGR, por ello en el código hay que indicar su ubicación.
  • Los paquetes de R solo necesitan instalarse una vez.
  • En un ordenador personal, basta con realizar la instalación inicial y quedarán disponibles de forma permanente.
  • Sin embargo, en los ordenadores de las aulas de informática de la UGR no se conserva la configuración; por ello, será necesario repetir la instalación al inicio de cada una de las prácticas restantes de la asignatura.
  • Si en la versión de RStudio a la que se accede a través de MiSoft, ya está instalado ggplot2, no hace falta volver a instalarlo.

Antes de instalarlo, conviene verificar si ya está disponible en RStudio.

  • Para comprobarlo, consulta la lista de paquetes instalados en la ventana inferior derecha de RStudio / pestaña packages
  • Solo si no aparece en la lista, procederemos con la instalación.
  • Como ggplot2 está en el repositorio institucional de R (CRAN), basta copiar y ejecutar esta línea:
Instalación de ggplot2
install.packages("ggplot2")
  • Como BioestadisticaR2 no está en el repositorio institucional de R, hace falta indicar la dirección donde está y añadir algún argumento adicional a la función de instalación.
  • Copia y ejecuta el siguiente código:
Instalación de BioestadisticaR2
install.packages(
  "https://digibug.ugr.es/bitstream/handle/10481/84535/BioestadisticaR2_2.5.0.zip",
  repos = NULL
)

Si has tenido problemas, avisa al profesor o profesora responsable.
      Otras opciones de instalación: web de BioestadisticaR2

Recuerda que en tu ordenador personal, no es necesario repetir la instalación, basta con haberlo hecho una vez. Lo que si tendrás que repetir son las sentencias library() cada vez que quieras usar un paquete que ya esté instalado.

Algunas de las cuestiones de esta práctica requieren hacer cálculos, pero otras son puramente conceptuales. En estas últimas no habrá nada que operar: lo importante es que el razonamiento quede bien explicado. Ve tomando nota de todo aquello que consideres relevante para ayudarte a consolidar las ideas.

Los siguientes recursos de ayuda aparecen también como enlaces permanentes en el menú de la izquierda de este guion. Al pinchar en ellos, se abrirá una nueva pestaña en el navegador, no perderás la vista actual:


2 Estimación de parámetros

2.1 Estimación de la media

2.1.1 Nivel medio de glucemia en diabéticos

En un centro de salud se quiere conocer el nivel medio de glucemia en ayunas de los pacientes con diabetes tipo 2 adscritos al cupo de enfermería. Para ello, se toma una muestra aleatoria simple de \(\small n=63\) pacientes. La glucemia media muestral resultó ser \(\small \bar{x}=142 \text{mg/dL}\) con una desviación típica \(\small s=28 \text{mg/dL}\).

  1. ¿Cuál es la mejor estimación puntual de la media poblacional? ¿Es fiable esta estimación? ¿Qué precisión tiene?
  2. Se trata ahora de obtener un intervalo con el 95% de confianza para la glucemia media poblacional ¿Qué hay que considerar para saber si se puede hacer utilizando un método basado en la normalidad? (indica “quién” tendría que tener distribución normal y qué resultado permite garantizarlo).
  3. Si consideras que se puede usar el método de estimación basado en la normalidad, utiliza la función icm() del paquete BioestadisticaR2 para obtener el intervalo.
  4. La función icm() proporciona un informe con la información muestral que se ha indicado en la que se incluye el error estándar de la media ¿a qué alude exactamente ese indicador?
  5. ¿Cómo se interpreta el intervalo que aparece en la parte final del informe de salida?
  6. ¿Cómo se interpreta el valor de la precisión?
  7. Se plantea hacer esta estimación con un nivel de confianza mayor, del 99%. Para ello la función icm() admite el argumento conf. Realiza el cálculo. ¿Qué intervalo es más ancho, el del 95% o el del 99%? ¿Cuál de los dos es más preciso?. Justifica las respuestas dadas.
  8. Repite el ejemplo anterior considerando un nivel de confianza del 90%. Compara y discute los resultados obtenidos.
  9. Vamos a considerar de nuevo la estimación con el nivel de confianza del 95%, que es el usado habitualmente. (a) ¿Qué hay que hacer para obtener una precisión de \(\small \delta_{\text{objetivo}} = 10 \,\text{mg/dL}\) en la estimación?; (b) ¿Y para obtener una precisión \(\small \delta_{\text{objetivo}} = 5 \,\text{mg/dL}\) ?
  10. Cuando se estima el tamaño mínimo de muestra para obtener cierta precisión ¿garantiza ese tamaño muestral que se va a tener la precisión deseada? ¿Por qué?
  11. En los cálculos que hemos hecho en este ejercicio, ¿qué distribución de probabilidad crees que se ha considerado para establecer la confianza de la estimación, la distribución normal o la t de Student? ¿Por qué?

1. y 2. Intenta resolver estas cuestiones, y el resto de las que tienen contenido conceptual, con tu material de clase. Si tienes dudas, plantéalas en la sesión de prácticas.

No olvides tomar notas de los comentarios que se hagan en clase

A continuación se resuelven solo los cálculos:

# 3.
# Podemos escribir los valores numéricos directamente en los argumentos de la
# función, o bien definir un objeto con estos valores
n <- 63
media <- 142
dt <- 28

# Como la información muestral ya está resumida (no son datos sueltos), utilizamos
# los argumentos n, m y s para indicar, respectivamente el tamaño muestral, la media
# la desviación típica
icm(n = n, m = media, s = dt) # ATENCIÓN: resuelve qué sentido tiene aquí poner n=n

# 7.
icm(n = n, m = media, s = dt, conf = 0.99)
# 8.
icm(n = n, m = media, s = dt, conf = 0.90)

# 9.(a) No hay que hacer nada, la precisión obtenida es mayor que la propuesta.
# 9.(b) Hay que determinar el tamaño de muestra necesario. Basta asignar
# la precision deseada al argumento d de la función icm():
icm(n = n, m = media, s = dt, conf = 0.95, d = 5)

2.1.2 Nivel medio de colesterol y lipoproteinas en una base de datos

Ya hemos manejado con anterioridad la base de datos colesterol_01.rds (puedes consultar el guion de la práctica 3 ). Queremos hacer algunas estimaciones sobre los niveles medios de algunos indicadores del metabolismo lipídico. Observa que ahora no tenemos la información resumida como antes, sino que tenemos un data frame con los datos.

  1. Utilizando la función icm() del paquete BioestadisticaR2, estima el nivel medio de colesterol de la población a la que representa esta muestra. ¿Qué precisión tiene la estimación? ¿Cuál es la probabilidad de que el intervalo obtenido contenga a la media poblacional?
  2. Estima ahora los niveles medios de lipoproteinas de alta y baja densidad (HDL y LDL, respectivamente). Se desea que la precisión en ambos casos sea de, al menos, \(\small \delta = 2 \text{mg/dL}\) Indica si se ha conseguido y, en su caso, lo que haría falta para obtener dicha precisión.
  3. Estima los niveles medios de lipoproteinas, LDL y HDL, para mujeres y hombres por separado. Indica en qué grupo se obtiene mayor precisión en la estimación, en mujeres o en hombres. Justifica por qué.
## Lectura del archivo .rds desde su ubicación web ----
url_datos <- "https://www.ugr.es/~pfemia/BSRLab/dat/colesterol_01.rds"
datos <- readRDS(url(url_datos))

# como siempre que leemos un archivo de datos, hay que verificar que
# se ha hecho correctamente. Vamos a ver la cabecera del data.frame y
# a hacer un summary()
head(datos)
summary(datos)

# 1. Estimación del nivel medio de colesterol.
# como ahora son datos individuales, no la media, usamos el argumento
# x y no hace falta indicar las medidas de síntesis (ya las calcula la función)
icm(x = datos$colesterol)

# 2.
icm(x = datos$HDL)
icm(x = datos$LDL)
# con HDL sí se tiene la precisión deseada (de hecho, se tiene una mayor).
# Para LDL estimamos el tamaño muestral necesario:
icm(x = datos$LDL, d = 2)
# habría que aumentar el tamaño muestral en 253 sujetos más
# (adicionales a los 150 actuales)

# 3. Hay muchas formas de dividir los datos en función del sexo.
# Vamos a usar una de ellas:
datosM <- datos[datos$sexo == "mujer", ]
datosH <- datos[datos$sexo == "hombre", ]

# observa que con este código conservamos todas las variables en
# cada subgrupo. Cuando el data.frame es muy grande, puede que no
# interese replicarlo todo. Podríamos extraer solo las de interés
# si hacemos:
datosM2 <- datos[datos$sexo == "mujer", c("HDL", "LDL")]
datosH2 <- datos[datos$sexo == "hombre", c("HDL", "LDL")]

# ahora estimamos los valores medios de lipoproteinas en función
# del sexo (podemos usar cualquiera de las dos versiones filtradas)
# ahora estimamos los valores medios de lipoproteinas en función
# del sexo (podemos usar cualquiera de las dos versiones filtradas)
# para mujeres:
icm(datosM$HDL)
icm(datosM$LDL)
# para hombres:
icm(datosH$HDL)
icm(datosH$LDL)

2.2 Estimación de la proporción

2.2.1 Prevalencia de la hipertensión arterial no controlada

En una consulta de Enfermería de Atención Primaria se quiere conocer la prevalencia de hipertensión arterial no controlada (≥140/90 mmHg en consulta) entre los pacientes hipertensos adscritos al centro de salud. Para ello, se selecciona una muestra aleatoria de 120 pacientes hipertensos y se registra su presión arterial. El resultado es que 48 de los 120 casos presentan HTA no controlada.

  1. Da una estimación puntual de la prevalencia de HTA en la población de pacientes adscritos al centro de salud. Indica cuál es el nivel de confianza y la precisión de la estimación.
  2. Utilizando la función icp() del paquete BioestadisticaR2, obtén un intervalo de confianza para dicha prevalencia. Interpreta los resultados que genera dicha función.
  3. Discute los resultados obtenidos (si a la función icp() le añades el argumento tabla=TRUE, los métodos son más fácilmente comparables) ¿Por qué hay tantos métodos, no bastaba con uno? ¿Cambia el estimador puntual en función del método utilizado? ¿Qué método proporciona una mayor precisión en este caso? ¿Qué unidades tiene la precisión? ¿Qué método presenta un mayor nivel de confianza?
  4. Indica si se ha conseguido una precisión de, al menos, el 5%.
  5. En caso de no haber obtenido la precisión indicada en el apartado anterior, estudia qué hay que hacer para conseguirla.
  6. Al estimar el tamaño de muestra necesario para alcanzar una precisión objetivo, justifica por qué aparecen dos resultados, uno con y otro sin información. ¿Por qué son prácticamente iguales? ¿Alguna de las dos estimaciones es exacta, en el sentido de garantizar que se obtiene la precisión objetivo?
# 1. información muestral
n <- 120 # total de casos observados
x <- 48 # casos observados con HTA

# En general, el estimador puntual es la proporción muestral:
p <- x / n
# de manera que la estimación puntual es
p

# 2.
icp(x = x, n = n) # qué sentido tiene escribir x=x y n=n ¿no es absurdo?

# 3.
icp(x = x, n = n, tabla = TRUE)

# 4.
# Con ninguno de los métodos de estimación se obtiene una precisión del 5%.
# 5. Hay que determinar el tamaño de muestra necesario para d=0.05
# incluimos el argumento d=0.05 para que icp() estime el tamaño muestral:
icp(x = x, n = n, tabla = TRUE, d = 0.05)

2.2.2 Estimación de la proporción de sujetos sedentarios en la base de datos

En la base de datos colesterol_01.rds, aparece una variable que codifica el nivel de actividad física de cada uno de los casos observados.

  1. Identifica de qué clase es esta variable y los valores o los niveles que toma.
  2. En términos de esta variable, estima la proporción de sujetos que realizan un nivel bajo de actividad física en la población a la que representa la muestra recogida aquí. Interpreta el resultado indicando qué método, o métodos, de estimación resultan más apropiados.
  3. Indica cuál es la precisión obtenida en la estimación y si se alcanza una precisión del 5%.
  4. Compara la estimación del tamaño muestral para obtener \(\small \delta_{\text{deseado}}=0.05\) en los casos con y sin información. ¿Por qué son diferentes las previsiones? ¿Son exactas? Justifica las respuestas.
# 1.
class(datos$nivel_AF)
table(datos$nivel_AF)

# 2. Añadimos el argumento level con la categoría cuya proporción queremos
# estimar
icp(datos$nivel_AF, level = "baja", tabla = TRUE)

# 3. La precisión es del orden del 6%, no llega al 5%. Se debe inferir qué tamaño
# muestral es necesario para aumentarla.

# 4.
icp(datos$nivel_AF, level = "baja", d = 0.05)

2.2.3 Estimación de la proporción de sujetos extremadamente sedentarios en la base de datos

La base de datos colesterol_01.rds incluye una variable que recoge el consumo energético semanal expresado en equivalentes metabólicos (METs). Se considera que un valor por debajo de 400 MET/semana indica un nivel de actividad física preocupantemente bajo. A modo de referencia, la OMS recomienda un mínimo de 600 a 1200 MET/semana, aunque lo ideal sería superar los 3000 MET/semana para obtener beneficios significativos para la salud.

  1. Estima la proporción de casos con METs \(\small \le 400\) en la población a la que representa esta base de datos.
    Observación: hay que dicotomizar convenientemente la variable METs (puedes consultar la práctica 3 para recordar cómo hacerlo).
  2. ¿Cuál es la proporción muestral? ¿Coincide esta proporción con las estimaciones puntuales obtenidas al estimar el intervalo de confianza?
  3. Si consideramos el método de Wilson (el preferible generalmente) ¿Se ha obtenido una precisión del 5%? Si no ha sido así, indica qué hay que hacer para obtenerla justificando la diferencia entre las posibles soluciones obtenidas.
# 1.
# Dicotomizamos la variable METs en una que llamamos bajomet
bajomet <- ifelse(datos$METs <= 400, 1, 0)

# Obtenemos el intervalo de confianza
icp(bajomet, level = "1")

# 2. Observamos la distribución de bajomet
table(bajomet) # <-- frecuencias absolutas
prop.table(table(bajomet)) # <-- proporciones observadas

# 3.
icp(bajomet, level = "1", d = 0.05)

2.3 Estimación del parámetro de la distribución de Poisson

2.3.1 Estimación de la carga asistencial

En la unidad de Urgencias de un hospital comarcal, el equipo de Enfermería quiere evaluar la carga asistencial nocturna. Para ello, se decide registrar el número de crisis asmáticas que llegan al servicio entre las 00:00 y las 08:00 horas durante varios días consecutivos.
La literatura sugiere que los episodios de crisis asmática en urgencias pueden modelizarse adecuadamente mediante una distribución de Poisson, donde el parámetro λ representa la media de crisis asmáticas por turno nocturno.
Tras 20 noches de registro, se observa la siguiente secuencia de casos diarios (número de crisis por turno nocturno):

Turno 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Crisis 5 3 4 6 2 4 5 7 3 4 5 6 4 3 5 4 3 6 5 4
  1. Utiliza la función icl() del paquete BioestadisticaR2 para estimar el número medio de crisis asmáticas por noche en la demarcación del hospital.
  2. Indica si se ha obtenido una precisión de 1 unidad en la estimación. De no ser así, qué es necesario para obtenerla.
  3. Repite el apartado anterior considerando ahora una precisión de 0.5 unidades.
# 1.
# creamos un vector con las observaciones
crisis <- c(5, 3, 4, 6, 2, 4, 5, 7, 3, 4, 5, 6, 4, 3, 5, 4, 3, 6, 5, 4)

# estimamos el número medio de crisis por noche en la
# demarcación del hospital
icl(crisis)

# 3.
icl(crisis, d = 0.5)

3 Cuestiones

Resuelve razonadamente las siguientes cuestiones
  1. ¿Por qué no se puede usar en las variables aleatorias de tipo continuo la función de probabilidad?

  2. ¿Qué es más útil, un intervalo de confianza ancho o uno estrecho?

  3. ¿Puede tomarse un intervalo de confianza con una confianza del 100%? ¿Por qué?

  4. Al lanzar una moneda al aire 20 veces, salen 12 caras. ¿Cuál es la estimación puntual de la probabilidad de cara? ¿Es evidente que la moneda está trucada? ¿Por qué?

  5. Indica si tiene alguna relevancia el teorema del límite central al estimar, mediante un intervalo de confianza, la media de una variable cuantitativa.

  6. Si una variable cuantitativa tiene distribución normal ¿Por qué se usa la distribución t de Student para elaborar el intervalo de confianza?

  7. Indica, razonadamente, si los siguientes enunciados son correctos o no:

    • Dado un intervalo al 95% de confianza para estimar la prevalencia del tabaquismo, la interpretación que se podrá hacer es que de cada 100 fumadores, 95 aparecerán en el intervalo.
    • Cuanto más preciso es un intervalo, menor es su anchura.
    • A partir de una misma muestra de valores de hemoglobina glicosilada en pacientes con diabetes de tipo II, el intervalo al 95% de confianza para estimar el valor medio tiene menor precisión que si elabora al 99%.
    • El nivel de confianza y la precisión de un intervalo de confianza son conceptos equivalentes.
    • Al estimar una proporción \(\small \pi\), el intervalo será, en general, más preciso cuanto más alejado de 0.5 esté la estimación puntual.
    • Al tratar con variables aleatorias discretas, la construcción de intervalos de confianza presenta la dificultad de no poder garantizar exactamente el nivel de confianza preestablecido, debido a la naturaleza discreta de la variable. Por ello, existen distintos métodos que buscan equilibrar exactitud y precisión.
    • La confianza de un intervalo es la probabilidad de que el parámetro caiga en el intervalo.
    • En una variable aleatoria continua, la probabilidad de observar exactamente un valor concreto es cero.
    • En variables discretas, es posible construir intervalos de confianza con exactamente el nivel de confianza nominal en todos los casos.
    • La anchura de un intervalo de confianza depende de la variabilidad de los datos.
    • A mayor tamaño muestral, menor será la amplitud del intervalo de confianza si el nivel de confianza se mantiene constante.
    • Un intervalo de confianza más amplio implica mayor precisión en la estimación.
    • El intervalo de confianza depende únicamente del tamaño muestral, no de la variabilidad de los datos.
    • La precisión de un intervalo de confianza se relaciona inversamente con su amplitud.
    • Tomada una muestra de una variable aleatoria, la varianza observada disminuye si aumenta el tamaño muestral.
    • Dos muestras con el mismo tamaño pueden producir intervalos de confianza con distinta precisión.
    • Al elaborar un intervalo de confianza para una variable cuantitativa, lo que hay que observar es si la distribución de la media muestral es normal, la distribución de la variable no importa tanto.
    • Una vez calculado el intervalo de confianza, este deja de ser aleatorio y el parámetro pasa a ser aleatorio.
  8. En un estudio sobre eventos adversos en una planta del hospital, se observa que 9 de 217 pacientes presentan una reacción adversa a la medicación intravenosa. Se obtiene que \(\small \hat\pi=0.055\) y \(\small 95\%-IC(\pi)=(0.024, 0.086)\).
    Señala cuál, o cuáles, de las siguientes afirmaciones es correcta desde el punto de vista inferencial:

    1. El intervalo de confianza indica que el 95% de los pacientes individuales tienen una probabilidad de infección entre 2.4% y 8.6%.
    2. Existe un 95% de probabilidad de que la proporción verdadera esté dentro del intervalo (0.024, 0.086) en esta muestra concreta.
    3. Si se repitiera el estudio muchas veces, aproximadamente el 95% de los intervalos construidos contendrían la verdadera proporción poblacional.
    4. El intervalo de confianza permite afirmar que la probabilidad de infección en la población es variable entre 0.024 y 0.086 según los pacientes.
    5. El resultado indica que el 95% de los pacientes del estudio no tendrán infección.


4 Ejercicios propuestos

Al final aparecen unas soluciones muy resumidas, recuerda que debes intentar resolver los ejercicios por tu cuenta

4.1 Ejercicio 1

Utilizando la base de datos colesterol_01.rds que ya debemos tener importada en un data frame llamado datos (de lo contrario revisa cómo importarla en la solución del ejercicio de la Sección 2.1.2), responde a las siguientes cuestiones:

  1. Calcula los índices aterogénicos 1 y 2 (\(\small IA_1=\frac{\text{colesterol}}{\text{HDL}}\) y \(\small IA_1=\frac{\text{LDL}}{\text{HDL}}\)) y estima sus valores medios en hombres y en mujeres, por separado. Si se desea una precisión de la estimación \(\small\delta=0.11\) indica en qué casos se ha conseguido esta precisión y, en su caso, qué habrá que hacer para obtenerla.

  2. Estima, mediante un intervalo al 95% de confianza, la prevalencia de cada uno de los grupos sanguíneos. Se desea obtener una precisión del 5% en la estimación. Para cada grupo, indica si se ha obtenido y, en su caso, qué habrá que hacer para obtenerla.

4.2 Ejercicio 2

En un área del hospital, el equipo de Enfermería quiere caracterizar la frecuencia de aparición de infecciones nosocomiales (por ejemplo, bacteriemias asociadas a catéter venoso) en pacientes ingresados. Para ello, se decide registrar durante varias semanas el número de infecciones nuevas que aparecen cada semana en el área.
Los datos registrados en cada semana son:

semana 1 2 3 4 5 6 7 8 9 10
Infecciones 2 1 3 0 2 1 4 2 1 2
  1. Especificar cuál es la variable aleatoria implicada y su modelo de distribución de probabilidad.
  2. Estimar, con un 95% de confianza, el número medio de infecciones por semana y la precisión de la estimación.
  3. Repetir la estimación utilizando una confianza del 90%. Discutir la comparación de estos resultados con los obtenidos al 95%.
  4. Considerando cada uno de los niveles de confianza propuestos en los apartados anteriores ¿durante cuántas semanas habría que registrar el número de infecciones semanales para tener una precisión \(\small \delta=0.5\)

4.3 Ejercicio 3

En un hospital se revisan una muestra aleatoria de 120 historias clínicas de los pacientes ingresados en los últimos meses. Se observa que en 18 de ellos se desarrollaron úlceras por presión. Estima la proporción de úlceras para la población de ese hospital. Indica si la precisión observada es del 5% y, en caso negativo, qué habría que hacer para conseguirla.

5 Soluciones a los ejercicios propuestos


5.1 Ejercicio 1

1.

  • \(\small IA_1|sexo=mujer:\,\, 95\%-IC(\mu)=(2.61, 2.88)\). Precisión: \(\small \delta = 0.131\). No se ha conseguido. Aumentar el tamaño muestral, al menos, en 25 casos más. Después habría que verificar que se consigue la precisión desada.
  • \(\small IA_2|sexo=mujer:\,\, 95\%-IC(\mu)=(1.27, 1.48)\). Precisión: \(\small \delta = 0.104\). Sí que se ha conseguido (no hay que hacer nada).
  • \(\small IA_1|sexo=hombre:\,\, 95\%-IC(\mu)=(2.89, 3.17)\). Precisión: \(\small \delta = 0.142\). No se ha conseguido. Aumentar el tamaño muestral, al menos, en 59 casos más. Después habría que verificar que se consigue la precisión desada.
  • \(\small IA_2|sexo=hombre:\,\, 95\%-IC(\mu)=(1.49, 1.70)\). Precisión: \(\small \delta = 0.105\). Sí que se ha conseguido. No hay que hacer nada.

2.

  • Grupo A: \(\small \,\,95\%-IC(\pi)=(0.205, 0.353) \quad (\text{Wilson}).\,\, \delta=0.074\). No se ha obtenido un 5% de precisión. Hace falta una muestra de \(\small n\ge 350\) según la información muestral, o de \(\small n \ge 385\) en el peor de los casos, cuando la variabilidad es máxima.
  • Grupo B: \(\small \,\,95\%-IC(\pi)=(0.113, 0.238) \quad (\text{Wilson}).\,\, \delta=0.063\). No se ha obtenido un 5% de precisión. Hace falta una muestra de \(\small n\ge 277\) según la información muestral, o de \(\small n \ge 385\) en el peor de los casos.
  • Grupo AB: \(\small \,\,95\%-IC(\pi)=(0.021, 0.097) \quad (\text{Wilson}).\,\, \delta=0.038\). La precisión obtenida es superior al 5% (no hay que hacer nada).
  • Grupo O: \(\small \,\,95\%-IC(\pi)=(0.431, 0.592) \quad (\text{Wilson}).\,\, \delta=0.079\). No se ha obtenido un 5% de precisión. Hace falta una muestra de \(\small n\ge 385\). ¿Por qué en este caso no distingue entre el tamaño estimado según la información muestral y el estimado para la situación de máxima variabilidad?


5.2 Ejercicio 2

  • \(\small 95\%-IC(\lambda)=(1.06, 2.85) \quad (\text{aprox. normal})\). Precisión obtenida: \(\small\delta=0.89\). Tamaño muestral necesario para una precisión de 0.5 \(\small n=43\)

  • \(\small 90\%-IC(\lambda)=(1.17, 2.68) \quad (\text{aprox. normal})\). Precisión obtenida: \(\small\delta=0.76\). Tamaño muestral necesario para una precisión de 0.5 \(\small n=29\)


5.3 Ejercicio 3

  • \(\small \hat\pi=0.161,\quad 95\%-IC(\pi)=(0.094, 0.229), \qquad \delta=0.068,\qquad n=269\,(385)\)