Instalación de ggplot2
# Ejecutar solo si ggplot2 no está ya instalado
install.packages("ggplot2")Al finalizar esta sesión, el alumnado será capaz de:
Preparación de la sesión.
Instalación de los paquetes necesarios
Si has tenido problemas con la instalación, avisa al profesor o profesora responsable.
Otras opciones de instalación: web de BioestadisticaR2
La fibromialgia es una enfermedad crónica que afecta de manera significativa al bienestar físico, psicológico y social de las personas que la padecen. En el seguimiento clínico de estos pacientes, el personal de enfermería evalúa de forma sistemática tanto el impacto de la enfermedad como la calidad de vida relacionada con la salud, mediante el uso de cuestionarios validados. Entre los instrumentos más empleados se encuentran el Fibromyalgia Impact Questionnaire (FIQ), que mide el impacto de la fibromialgia, y el WHOQOL‑BREF (World Health Organization Quality of Life – BREF), versión abreviada del cuestionario de calidad de vida de la Organización Mundial de la Salud, ampliamente validado y utilizado en la práctica clínica y en investigación.
En un estudio observacional realizado en una consulta de enfermería de reumatología, se recogieron datos de 110 pacientes diagnosticados de fibromialgia, registrándose para cada uno de ellos:
El objetivo del estudio es analizar la relación entre el impacto de la fibromialgia y la calidad de vida relacionada con la salud, considerando la puntuación del FIQ como variable explicativa.
Los datos están disponibles en el archivo “https://www.ugr.es/~pfemia/BSRLab/dat/fiq_qol.csv”
Comprobamos que la magnitud de la correlación es alta \((\small r=–0.74,\quad p<0.001)\)
Comentarios sobre la salida
El modelo lineal ajustado es \[ \widehat{\text{QOL}}=88.212-0.795\,\, \text{FIQ} \]
El test de regresión, que contrasta \(\small \text{H}_0:\, \beta_1 = 0\) es significativo \((\small p<0.001)\), lo que se traduce en que un cambio en la puntuación de FIQ se asocia con un cambio significativo en la puntuación de QOL.
Concretamente, –por término medio– un aumento puntual en FIQ se asocia con una reducción de 0.795 puntos en la calidad de vida (QOL).
Con un 95% de confianza, por cada punto de aumento en el nivel de fibromialgia, se observa una reducción de la calidad de vida comprendida entre 0.65 y 0.93 puntos (como se ha dicho reducción, podemos dar la magnitud en positivo).
El intervalo al 95% de confianza para el coeficiente de regresión es coherente con la significación obtenida en el test de independencia lineal (test de regresión lineal), ya que el intervalo no contiene el valor nulo \(\small \beta_1=0\).
En la salida de la función rls() de BioestadisticaR2, se comprueba fácilmente como el test de correlación es equivalente al test de regresión (el estadístico de contraste es el mismo y el valor \(\small p\) también).
La distribución residual presenta residuos tipificados que pueden ser relevantes (el mínimo es –3.1 y el máximo 2.5). Conviene comprobar el diagrama de residuos.
En la distribución residual ofrecida por la salida de BioestadisticaR2, se observa que hay tres residuos más allá de los límites \(\small \pm 2\). Son pocos, ya que estos límites son para el 95% de las observaciones. Si observamos el histograma comprobamos que son valores aislados en los extremos de las colas. El test de normalidad de Shapiro-Wilk para los residuos no es significativo \((\small p=0.805)\). Podemos asumir que el modelo se ajusta bien a las observaciones.
El coeficiente de determinación es \(\small R^2=0.55\), lo que indica que el 55% de la variabilidad observada en la calidad de vida, queda explicada por su relación lineal con el nivel de impacto de la fibromialgia. EL 45% restante es variabilidad residual, o no explicada por el modelo.
Los pronósticos son más precisos cuanto mayor sea la proximidad al valor medio de la variable explicativa (es donde se acumula más información). Las bandas interiores corresponden a los intervalos para estimar el valor medio de la respuesta. Las bandas exteriores son los intervalos para pronosticar el valor de la respuesta en una nueva observación.
Estimamos los pronósticos usando rls() de BioestadisticaR2. Se trata de repetir la función indicando en el argumento pred el vector de los valores del regresor para los que queremos estimar la respuesta:
En la salida de rls(), ahora aparece una tabla con los pronósticos. En ella, se indican los valores del regresor (predictor), la estimación puntual de la respuesta para cada uno de esos valores y dos intervalos de confianza; el primero corresponde a la estimación del valor medio de QOL para cada valor de FIQ y el segundo al pronóstico del valor de QOL para un nuevo sujeto que tenga el FIQ indicado.
En una consulta de Enfermería de Atención Primaria se realiza una valoración de la función respiratoria mediante espirometría a un grupo de sujetos pediátricos.
La capacidad vital forzada (CVF) es un parámetro fundamental en la evaluación de la función pulmonar y puede verse influida por diversas características antropométricas, entre ellas la talla. El conocimiento de la relación entre ambas variables resulta de especial interés en la práctica enfermera, ya que permite interpretar adecuadamente los resultados espirométricos, identificar valores anómalos y contribuir al seguimiento y control de pacientes con posibles alteraciones respiratorias.
El archivo de datos disponible en “https://www.ugr.es/~pfemia/BSRLab/dat/cvf.csv” recoge los valores de talla (en centímetros) y capacidad vital forzada (en litros) correspondientes a 15 niños de sexo masculino, con edades comprendidas entre 6 y 12 años.
head())Diagrama de dispersión de la CVF en función de la talla.
plot(
cvf ~ talla, # modelo
data = datos, # data.frame
# titulos:
xlab = "Talla (cm)",
ylab = "Capacidad vital forzada (litros)",
main = "Distribución de la CVF según talla (15 niños de 6 a 12 años)",
# color y tipo de punto
pch = 19, # tipo de punto gráfico (F1 para ver posibilidades)
col = "steelblue"
) # color de los puntosObservamos que la tendencia lineal de la relación es aceptable, pero que hay una observación muy discordante con dicha tendencia.
summary(). También usamos confint() para obtener el intervalo de confianza de los coeficientes (por defecto, a un nivel del 95%)Comprobamos que el test de asociación lineal entre la CVF y la talla no llega a ser significativo para un nivel del 5%: \(\small p=0.065>\alpha=0.05\). Esto también queda reflejado en el intervalo al 95% de confianza para el coeficiente de regresión, que contiene al valor nulo \(\small \beta_1=0\).
A primera vista, la nube de puntos sugiere una relación aproximadamente lineal entre las variables, ya que la mayoría de las observaciones parecen seguir una tendencia clara. Sin embargo, cuando se ajusta un modelo de regresión lineal, esta relación no resulta claramente significativa. Este contraste puede resultar desconcertante y merece un análisis más detenido.
Al observar el gráfico con la recta de regresión superpuesta, se aprecia que el modelo no sigue fielmente la tendencia marcada por la mayor parte de los datos. Esto se debe a la presencia de una observación especialmente problemática. En concreto, se trata de un punto con un nivel de influencia muy elevado, es decir, con un valor de talla muy alejado de la media del resto de sujetos. Además, esta observación presenta un residuo grande, lo que indica que su valor de capacidad vital forzada se sitúa muy lejos de lo que el modelo predice.
La combinación de ambas características —alta influencia y residuo elevado— hace que este punto tenga un impacto desproporcionado en el ajuste del modelo, condicionando tanto la pendiente de la recta como la significación estadística del resultado.
Ante esta situación, una estrategia habitual en el análisis de datos consiste en estudiar qué ocurre si se elimina esa observación influyente y se reajusta el modelo. Este procedimiento no debe hacerse de forma automática, sino como parte de una reflexión metodológica fundamental en estadística aplicada:
¿Es preferible un modelo que se ajuste mal a todos los datos, o un modelo que represente adecuadamente el comportamiento de la mayoría de las observaciones?
Lo primero que tenemos que hacer es identificar en qué fila del data frame aparece el caso problemático. Para ello, utilizamos la función text(), que añade la etiqueta deseada a los puntos. En nuestro caso vamos a usar como etiqueta el número de fila.
# Añade el modelo lineal a un diagrama
# confeccionado previamente con plot()
text(
cvf ~ talla,
data = datos,
labels = row.names(datos), # usamos como etiqueta el número de fila
cex = 0.7, # reducción al 70% del tamaño original de la etiqueta
pos = 4
) # ubicación de la etiqueta al lado del punto, y no encimaEl caso conflictivo es el que aparece en la segunda fila. Vamos a crear una imagen de los datos suprimiendo a ese caso.
Ajustamos un nuevo modelo con estos datos
Podemos comprobar cómo ha mejorado el modelo.
La presencia de observaciones excesivamente influyentes puede afectar de forma notable al ajuste y a la interpretación de un modelo de regresión lineal. Eliminar estos puntos puede mejorar el ajuste y reflejar mejor la tendencia mayoritaria de los datos, pero esta decisión debe estar siempre justificada y no responder únicamente al deseo de obtener resultados “mejores”. Analizar el modelo con y sin dichas observaciones permite valorar la robustez de las conclusiones y delimitar con mayor precisión el ámbito de validez del modelo.
En nuestro caso, hemos eliminado un valor alto de la estatura. En relación con esta variable, el rango de validez del modelo ha variado:
¿Cuáles son las analogías y las diferencias entre los coeficientes de correlación lineal y de regresión lineal
En un análisis de la asociación entre dos variables cuantitativas, digamos \(\small X\) e \(\small Y\), se obtiene un coeficiente de regresión \(\small b_1=0.0001\). Como dicho coeficiente tiene una magnitud tan próxima a cero, los investigadores concluyeron que no había asociación entre \(\small X\) e \(\small Y\) ¿es correcta esta conclusión?
¿Qué semejanzas y qué diferencias hay entre el coeficiente de correlación de Pearson y el de Spearman?
En un análisis se obtiene un coeficiente de correlación de Pearson \(\small r=0.60\), esto quiere decir que el 60% de la variabilidad observada en la variable respuesta está explicada por su relación lineal con la variable explicativa ¿es así?
Indica si son correctos los siguientes enunciados
Un estudio de salud pública investiga si la concentración media anual de partículas contaminantes en el aire (PM2.5) se relaciona con la tasa de ingresos hospitalarios por exacerbaciones respiratorias en distintas áreas sanitarias de una comunidad. Para ello, se seleccionan 22 áreas y se recoge la siguiente información: - Concentración media anual de partículas finas en el aire (PM2.5), expresada en μg/m\(\small^3\). - Tasa de ingresos hospitalarios por exacerbaciones respiratorias, expresada como número de ingresos por cada 100,000 habitantes y año.
Analiza los datos.
Un estudio epidemiológico pretende investigar si la exposición acumulada al tabaquismo (paquetes-año) se relaciona con la capacidad pulmonar medida mediante el volumen espiratorio forzado en el primer segundo (FEV1)
Analizar la relación entre las variables interpretando los resultados obtenidos.
El personal de enfermería de atención primaria sospecha que el uso prolongado del teléfono móvil antes de dormir puede afectar negativamente al descanso nocturno en adolescentes. Para investigarlo, se seleccionó una muestra de 20 adolescentes y se registró el tiempo diario de uso del teléfono móvil antes de dormir (min/día) y la puntuación obtenida en una escala de calidad del sueño (0–100 puntos, donde valores altos indican mejor calidad del sueño).
Los datos observados se presentan a continuación en formato R. El tiempo se expresa en minutos
Analiza si la calidad del sueño está relacionada con el tiempo de uso del móvil antes de dormir.