22/mayo/2026
\(\tiny \blacksquare \,\,\) En este tema estudiamos la relación entre dos variables cuantitativas
La correlación lineal y la regresión lineal constituyen herramientas fundamentales para responder este tipo de preguntas. Ambas técnicas tienen objetivos diferentes:
El centro de gravedad de la distribución bivariante es el punto que tiene por coordenadas las medias de cada variable: \(\small (\bar{X},\,\bar{Y})\)
La covarianza, \(\small Cov(X,\,Y) = s_{XY}\), es una medida que cuantifica cómo varían conjuntamente dos variables cuantitativas.
\[ (x_i-\bar{x})(y_i-\bar{y}) \]
\(\small Cov(X,\,Y)>0\) valores altos de \(\small Y\) se asocian con valores altos de \(\small X\)
\(\small Cov(X,\,Y)<0\) valores altos de \(\small Y\) se asocian con valores bajos de \(\small X\)
Un valor \(\small Cov(x,y)\approx 0\) no indica independencia en sentido general, solo la falta de asociación lineal
Si \(\small X\) e \(\small Y\) son independientes \(\Rightarrow\) \(\small Cov(X,\,Y)=0\), el recíproco no es cierto.
La covarianza es la medida que cuantifica la variación conjunta de \(\small x\) e \(\small y\).
La correlación lineal estudia la intensidad y la dirección de la relación entre dos variables cuantitativas.
Definición: El coeficiente de correlación lineal de Pearson es una medida estandarizada que cuantifica la intensidad y la dirección de la relación lineal entre dos variables cuantitativas.
\[ \rho=\frac{Cov(X,\,Y)}{\sigma_X\, \sigma_Y} \]
\[ \large r=\hat{\rho}=\frac{s_{xy}}{s_{x}\, s_y} \]
\[ \large -1 \le \rho \le +1 \]
Interpretación
En general, se asume que la asociación lineal es
Test de correlación lineal
[1] 0.9701021
Pearson's product-moment correlation
data: datos$peso_kg and datos$edad_meses
t = 30.442, df = 58, p-value < 2.2e-16
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
0.9502569 0.9821026
sample estimates:
cor
0.9701021
El coeficiente de correlación de Spearman, \(\small \rho_S\), es una medida no paramétrica que evalúa la intensidad y dirección de la relación monótona entre dos variables cuantitativas u ordinales.
\[ -1 \le \rho_S \le +1 \]
No hay un coeficiente “mejor”, la elección de uno u otro depende de la naturaleza de los datos y del tipo de relación entre variables.
Se estudia la relación entre el nivel de dolor (escala 0–10) y el consumo diario de analgésicos, con el objetivo de evaluar la intensidad y forma de la asociación entre ambas variables clínicas.

[1] 0.9426044
[1] 0.8621745
\(\tiny \blacksquare \,\,\) Mientras que el término correlación alude a la fuerza de asociación entre dos variables, el término regresión alude a un modelo formal, del tipo
\[ Y=f(X) \]
es decir, una expresión matemática que relaciona los valores que toma una variable respuesta (\(\small Y\)) a raíz de los que toma una variable explicativa (\(\small X\)).
\(\tiny \blacksquare \,\,\) A nivel poblacional, aunque la variable respuesta \(\small Y\) pueda relacionarse con la variable explicativa \(\small X\), la relación determinista \(\small Y=f(X)\) no se cumple de forma exacta para todos los individuos.
Por ello, resulta más realista concebir el modelo como:
\[ Y = f(X) + \varepsilon \]
donde:
Así, para cada sujeto, se puede escribir
\[ y_i=f(x_i)+\varepsilon_i \]
\(\tiny \blacksquare \,\,\) La forma matemática de \(\small f(X)\) puede obedecer a

En la práctica, el modelo empírico más utilizado es el lineal

\[ f(X)=\beta_0+\beta_1 X +\varepsilon \]
\[ b_i=\hat\beta_i \]
Una vez ajustado, podremos escribir
\[ \mathbb{E}(Y|X=x_i)=b_0+b_1 x_i \qquad \rightarrow \qquad \hat{y}_i=b_0+b_1 x_i \]
siendo \(\small \hat{y}_i\) los valores pronosticados para la respuesta \(\small Y\) por el modelo lineal cuando \(\small X=x_i\)
Cuando solo hay una variable explicativa, hablamos de regresión lineal simple
El caso más general, en donde hay varias variables explicativas, constituye el modelo de regresión lineal múltiple (en algunos textos se habla de regresión multivariante, pero este término es muy discutible).
El modelo de regresión lineal múltiple tiene la forma
\[ Y=\beta_0+\beta_1 X_1+ \beta_2 X_2+ \dots +\beta_k X_k+\varepsilon \]
En el análisis de datos en Ciencias de la Salud, este modelo es mucho más habitual –y de mayor interés– que el de regresión simple.
Los modelos de regresión lineal se basan en una serie de supuestos. En general,
El supuesto de normalidad, no es sobre la distribución marginal de la variable respuesta \(\small Y\)

\[ \sum(y_i - \hat y_i)^2 \]
El parámetro fundamental es la pendiente \(\small b_1\)
\[ b_1=\hat\beta_1=\large \frac{s_{xy}}{s^2_x} \]
\[ \bar{y}=b_0+b_1 \bar{x}\quad \Rightarrow \quad b_0= \bar{y} - b_1 \bar{x} \]
\[ \begin{cases} \text{H}_0: & \beta_1=0 \\ \text{H}_1: & \beta_1 \ne 0 \end{cases} \]
Cuidado: independencia lineal no es lo mismo que independencia (a secas); las variables pueden tener asociación de tipo no lineal y este test no es válido para contrastar ese tipo de asociación.
El estadístico de contraste es
\[ t_{\text{exp}}=\frac{b_1}{SE(b_1)} \]
en donde \(\small SE(b_1) =\sqrt{s_R^2\left/((n-1)s^2_x\right)}\)
Bajo la hipótesis nula \(\small t_{\text{exp}} \sim t_{n-2}\), de manera que se rechaza la independencia lineal siempre que \(\small p < \alpha\) para un nivel de significación \(\small \alpha\) dado.
Observemos que, cuanto mayor sea \(\small s^2_x,\,\) más potente resultará el test
\[ (1-\alpha)\text{-}IC(\beta_1) \,=\, b_1 \pm t_{\alpha;\,n-2}\, SE(b_1) \]
en donde \(\small SE(b_1) =\sqrt{s_R^2\left/((n-1)s^2_x\right)}\)
\[ 0\notin (1-\alpha)\text{-}IC(\beta_1)\quad \iff \quad p<\alpha \]
\[ (1-\alpha)\text{-}IC(\beta_0) \,=\, b_0 \pm t_{\alpha;\,n-2}\, SE(b_0) \]
(no necesitamos ver su expresión más detallada).
Ajuste con R
En esta sección ajustamos el modelo a los datos que han servido como ejemplo: relación del peso con la edad en recién nacidos
Ajuste con código base de R
lm()y ~ xlm() debe asignarse a un objeto, de lo contrario, aparece muy poca información por pantalla y el ajuste no se conserva. Sobre el objeto definido es posible aplicar muchas otras funciones.
Call:
lm(formula = peso_kg ~ edad_meses, data = datos)
Residuals:
Min 1Q Median 3Q Max
-0.90781 -0.29177 -0.06287 0.19219 1.23439
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 3.1179 0.1561 19.97 <2e-16 ***
edad_meses 0.6211 0.0204 30.44 <2e-16 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 0.4701 on 58 degrees of freedom
Multiple R-squared: 0.9411, Adjusted R-squared: 0.9401
F-statistic: 926.7 on 1 and 58 DF, p-value: < 2.2e-16
Shapiro-Wilk normality test
data: res_std
W = 0.9672, p-value = 0.1063
Ajuste con código BioestadisticaR2
rls().
Regresión lineal simple
----------------------------------------------------------------
# Información muestral ---
variable n media dt Min Max Rango
1 peso_kg 60 7.497 1.92 4.1 10.6 6.5
2 edad_meses 60 7.050 3.00 2.0 12.0 10.0
Cov(peso_kg,edad_meses) = 5.588
# Correlación de Pearson ---
r IC_inf IC_sup gl texp sig
0.97 0.95 0.982 58 30.442 < 0.001
# Modelo lineal ---
Modelo: peso_kg ~ edad_meses
R² = 0.941
S²residual = 0.221
Coeficientes del modelo:
Coef estim se ic_inf ic_sup texp sig
1 (Constante) 3.118 0.156 2.805 3.430 19.971 <0.001
2 edad_meses 0.621 0.020 0.580 0.662 30.442 <0.001
# Distribución residual ---
Error estándar residual: 0.47
res zres
min -0.908 -1.955
Q1 -0.292 -0.634
Q2 -0.063 -0.136
Q3 0.192 0.414
max 1.234 2.648
Test de normalidad residual (Shapiro-Wilk):
w =0.969, p= 0.129
Para un valor dado \(\small X=x_0\) de la variable explicativa, el modelo permite estimar el valor medio, o esperado, de la respuesta \(\small Y\) sustituyendo \(\small x_0\) en la ecuación:
\[ \mathbb{E}(Y|X=x_0)=b_0+b_1 x_0 \]
\[ x_{\min} \le x_0 \le x_{\max} \]
En la relación del peso con la edad en bebés de entre 2 y 12 meses:
Para un valor dado \(\small X=x_0\) de la variable explicativa, se pueden considerar dos tipos de intervalo

En la práctica correspondiente a este tema veremos cómo se obtienen los pronósticos con el modelo
El coeficiente de determinación, \(\small R^2\), mide la proporción de la variabilidad de la variable respuesta (\(\small Y\)) que es explicada por la variable explicativa (\(\small X\)) mediante el modelo lineal.
Formalmente, si descomponemos la variabilidad total \((\small \text{VT})\) en la suma de la variabilidad explicada \((\small \text{VE})\) más la no explicada \((\small \text{VNE})\) por el modelo, tenemos:
\[ R^2=\frac{\text{VE}}{\text{VT}} \quad= \frac{\sum{(\hat{y}_i-\bar{y})^2}}{\sum{(y_i-\bar{y})^2}} \]

Un \(\small R^2\) con valor alto no garantiza que el modelo sea válido: es imprescindible comprobar que se cumplen los supuestos del modelo lineal y esto se hace con el análisis de los residuos
Se trata de comprobar los supuestos de

Bioestadística Aplicada a la Enfermería © 2026 por Pedro Femia, bajo licencia Creative Commons BY-NC-ND 4.0
.