Tema 9
Correlación y regresión lineal

Pedro Femia

22/mayo/2026

1 Introducción

\(\tiny \blacksquare \,\,\) En este tema estudiamos la relación entre dos variables cuantitativas

  • ¿Aumenta la presión arterial conforme aumenta la edad?
  • ¿Existe relación entre el nivel de glucemia y el índice de masa corporal?
  • ¿Cuál es la relación entre el número de cigarrillos consumidos y el volumen espiatorio?

La correlación lineal y la regresión lineal constituyen herramientas fundamentales para responder este tipo de preguntas. Ambas técnicas tienen objetivos diferentes:

  • La correlación lineal cuantifica la intensidad y dirección de la relación entre dos variables.
  • La regresión lineal permite modelizar esa relación y predecir el valor de una variable a partir de otra.

2 Distribución conjunta de dos variables cuantitativas

El diagrama de dispersión
Figura 1: Diagrama de dispersión, o nube de puntos, del peso (variable explicada) frente a la edad (variable explicativa)

R El análisis debe comenzar por la visualización de la nube de puntos

Diagrama de dispersión
plot(x, y)
La covarianza

El centro de gravedad de la distribución bivariante es el punto que tiene por coordenadas las medias de cada variable: \(\small (\bar{X},\,\bar{Y})\)

  • Es el punto de equilibrio de la distribución conjunta de ambas variables
  • Resume la tendencia central de la distribución conjunta de las variables, aunque no coincida, necesariamente, con la región de mayor concentración de observaciones.
Figura 2: El centro de gravedad es el punto de referencia para definir la covarianza

La covarianza, \(\small Cov(X,\,Y) = s_{XY}\), es una medida que cuantifica cómo varían conjuntamente dos variables cuantitativas.

  • Constituye uno de los conceptos fundamentales en el estudio de la correlación y de la regresión lineal.
    • Se calcula a partir de las desviaciones de cada punto respecto al centro de gravedad:

\[ (x_i-\bar{x})(y_i-\bar{y}) \]

  • La covarianza indica si ambas variables tienden a aumentar o disminuir simultáneamente de forma lineal
    • \(\small Cov(X,\,Y)>0\) valores altos de \(\small Y\) se asocian con valores altos de \(\small X\)

    • \(\small Cov(X,\,Y)<0\) valores altos de \(\small Y\) se asocian con valores bajos de \(\small X\)

    • Un valor \(\small Cov(x,y)\approx 0\) no indica independencia en sentido general, solo la falta de asociación lineal

      Si \(\small X\) e \(\small Y\) son independientes \(\Rightarrow\) \(\small Cov(X,\,Y)=0\), el recíproco no es cierto.

  • Es simétrica \(\small Cov(Y,\,X)=\small Cov(Y,\,X)\)
  • La covarianza tiene unidades de medida (las que tenga \(\small X\) \(\small \times\) las que tenga \(\small Y\))
    • No está acotada (lo que dificulta su interpretación)
    • Si se cambian las unidades de medida de alguna de las variables, el valor de la covarianza también cambia

La covarianza es la medida que cuantifica la variación conjunta de \(\small x\) e \(\small y\).

  • Al tener unidades de medida, su interpretación –más allá del signo– no es inmediata
  • Hay dos formas de estandarizar la covarianza. Cada una da lugar a un coeficiente fundamental
    • \(r=\frac{s_{XY}}{s_X\, s_Y}\) es el coeficiente de correlación lineal de Pearson (versión tipificada de la covarianza)
    • \(b=\frac{s_{XY}}{s_X^2}\) es el coeficiente de regresión lineal




3 Correlación

La correlación lineal estudia la intensidad y la dirección de la relación entre dos variables cuantitativas.

Coeficiente de correlación lineal de Pearson

Definición: El coeficiente de correlación lineal de Pearson es una medida estandarizada que cuantifica la intensidad y la dirección de la relación lineal entre dos variables cuantitativas.

  • Coeficiente de correlación poblacional

\[ \rho=\frac{Cov(X,\,Y)}{\sigma_X\, \sigma_Y} \]

  • Estimador puntual:

\[ \large r=\hat{\rho}=\frac{s_{xy}}{s_{x}\, s_y} \]

  • Supuestos básicos
    • La relación entre las variables es de tipo lineal
    • Las observaciones son independientes
  • Valores posibles

\[ \large -1 \le \rho \le +1 \]

  • Interpretación

    • El signo: indica la dirección de la asociación lineal
      • \(\rho >0\) asociación lineal positiva o directa (valores altos de \(\small y\) se asocian con valores altos de \(\small x\)) ← \(\small Cov(x,y)>0\)
      • \(\rho <0\) asociación lineal negativa o inversa (valores altos de \(\small y\) se asocian con valores bajos de \(\small x\)) ← \(\small Cov(x,y)<0\)
    • La magnitud: indica la intensidad de la asociación lineal
      • \(|\rho| \rightarrow 0\) falta de asociación lineal
      • \(|\rho| \rightarrow 1\) presencia de asociación lineal
      Valores asumidos habitualmente

      En general, se asume que la asociación lineal es

      • muy débil si \(\small 0 \le |\rho| < 0.2\)
      • débil si \(\small 0.2 \le |\rho| < 0.4\)
      • moderada si \(\small 0.4 \le |\rho| < 0.6\)
      • fuerte \(\small 0.6 \le |\rho| < 0.8\)
      • muy fuerte si \(\small 0.8 \le |\rho| \le 1\)
  • Test de correlación lineal

    • Hipótesis: \(\small \begin{cases} \text{H}_0: & \rho = 0 \\ \text{H}_1: & \rho \ne 0 \end{cases}\)
    • Estadístico de contraste: \(t_{\text{exp}}=\frac{r\sqrt{n-2}}{\sqrt{1-r^2}}\)
      Bajo la hipótesis nula \(\small \text{H}_0: \rho = 0\) este estadístico sigue una distribución t de Student con \(\small n−2\) grados de libertad: \(t_{\text{exp}}\sim t_{n-2}\)



Correlación entre el peso y la edad de los recien nacidos
Lectura de los datos
datos <- read.table(
  f <- "https://www.ugr.es/~pfemia/BSRLab/dat/datos_regr_lin.csv",
  header = T,
  sep = ","
)
# Estimación puntual del coeficiente de correlación                                                                 .
cor(datos$peso_kg, datos$edad_meses)
[1] 0.9701021
# Test de correlación lineal
cor.test(datos$peso_kg, datos$edad_meses)

    Pearson's product-moment correlation

data:  datos$peso_kg and datos$edad_meses
t = 30.442, df = 58, p-value < 2.2e-16
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
 0.9502569 0.9821026
sample estimates:
      cor 
0.9701021 


Coeficiente de correlación de Spearman

El coeficiente de correlación de Spearman, \(\small \rho_S\), es una medida no paramétrica que evalúa la intensidad y dirección de la relación monótona entre dos variables cuantitativas u ordinales.

  • Su estimador es \(r_S = \hat\rho_S\). A menudo se alude a este coeficiente como rho de Spearman.
  • Sus valores posibles y su interpretación es igual que con el coeficiente de Pearson:

\[ -1 \le \rho_S \le +1 \]

  • A diferencia de la correlación de Pearson:
    • No maneja los valores originales de las observaciones, sino sus rangos, \(\small R_X\) y \(\small R_Y\).
    • No requiere que la relación entre las variables sea lineal, solo monótona (siempre creciente o siempre decreciente, sin formas de \(\small \cup\) o de \(\small \cap\)).
    • Es más robusto frente a la presencia de observaciones extremas
  • El coeficiente de correlación de Pearson indica en que grado se alinean las observaciones
    El coeficiente de Spearman cuantifica si se mueven en la misma dirección

No hay un coeficiente “mejor”, la elección de uno u otro depende de la naturaleza de los datos y del tipo de relación entre variables.


Consumo de analgésicos y nivel de dolor percibido

Se estudia la relación entre el nivel de dolor (escala 0–10) y el consumo diario de analgésicos, con el objetivo de evaluar la intensidad y forma de la asociación entre ambas variables clínicas.

Lectura de los datos
datos <- read.table(
  f <- "https://www.ugr.es/~pfemia/BSRLab/dat/dolor.csv",
  header = T,
  sep = ","
)
Diagrama de dispersión
#                                                                      .
plot(
  dolor,
  analgesicos,
  col = "steelblue",
  main = "Relación entre el nivel de consumo de analgésicos y el dolor percibido",
  xlab = "Escala de dolor (0-10)",
  ylab = "Consumo de analgésicos"
)

# Correlación de Spearman                                                                      .
cor(datos$dolor, datos$analgesicos, method = "spearman")
[1] 0.9426044
# Correlación de Pearson
cor(datos$dolor, datos$analgesicos)
[1] 0.8621745
# Test de correlación
cor.test(datos$dolor, datos$analgesicos, method = "spearman")

    Spearman's rank correlation rho

data:  datos$dolor and datos$analgesicos
S = 1195.3, p-value < 2.2e-16
alternative hypothesis: true rho is not equal to 0
sample estimates:
      rho 
0.9426044 



4 Regresión

\(\tiny \blacksquare \,\,\) Mientras que el término correlación alude a la fuerza de asociación entre dos variables, el término regresión alude a un modelo formal, del tipo

\[ Y=f(X) \]

es decir, una expresión matemática que relaciona los valores que toma una variable respuesta (\(\small Y\)) a raíz de los que toma una variable explicativa (\(\small X\)).

El modelo poblacional

\(\tiny \blacksquare \,\,\) A nivel poblacional, aunque la variable respuesta \(\small Y\) pueda relacionarse con la variable explicativa \(\small X\), la relación determinista \(\small Y=f(X)\) no se cumple de forma exacta para todos los individuos.

Por ello, resulta más realista concebir el modelo como:

\[ Y = f(X) + \varepsilon \]

donde:

  • \(\small f(X)\) es la parte sistemática, que describe el patrón medio de cambio de \(\small Y\) en función de \(\small X\).
  • \(\varepsilon\) es el componente aleatorio, que recoge la variabilidad entre individuos que no queda explicada por \(\small X\).

Así, para cada sujeto, se puede escribir

\[ y_i=f(x_i)+\varepsilon_i \]

Quién es la función \(\small f(X)\)

\(\tiny \blacksquare \,\,\) La forma matemática de \(\small f(X)\) puede obedecer a

  • Una teoría sobre el mecanismo que relaciona \(\small Y\) con \(\small X\)Modelo mecanicista (por ejemplo, el modelo de Michaelis-Menten en cinética enzimática)
  • La forma de la distribución conjunta de las dos variables ← Modelo empírico

Algunos modelos empíricos (en los modelos polinómicos suele interesar solo una parte de la rama parabólica)
  • En la práctica, el modelo empírico más utilizado es el lineal

    • Es especialmente atractivo por su simplicidad, interpretabilidad y manejabilidad para la inferencia estadística
    • Muchas relaciones que son no lineales en un rango amplio pueden aproximarse razonablemente bien por una relación lineal en el rango de interés
    • Muchas relaciones no lineales pueden hacerse lineales mediante transformaciones adecuadas de las variables (por ejemplo, transformaciones logarítmicas)
Sobre la interpretación de los coeficientes de un modelo lineal
  • El coeficiente \(\small b_1\) es la pendiente de la recta.
    • Indica el tipo de relación entre las variables, positiva (al aumentar \(\small x\) también aumenta \(\small y\)), negativa (al aumentar \(\small x\) disminuye \(\small y\)) o nula (aunque \(\small x\) cambie, \(\small y\) no varía).
    • Su valor se traduce en cuánto aumenta –o disminuye– \(y\) para un aumento unitario en \(\small x\). Como el modelo es lineal este aumento es siempre constante, independientemente del valor de \(\small x\) donde se mida (es la diferencia con un modelo no lineal)
  • El coeficiente \(\small b_0\) es la ordenada en el origen
    • Indica cuánto vale \(\small y\) cuando es \(\small x=0\)

Valores posibles de los coeficientes del modelo lineal y su interpretación geométrica





4.1 Regresión lineal

El modelo lineal
  • El modelo lineal poblacional tiene la forma

\[ f(X)=\beta_0+\beta_1 X +\varepsilon \]

  • Ajustar el modelo consiste en estimar sus parámetros, es decir, obtener

\[ b_i=\hat\beta_i \]

Una vez ajustado, podremos escribir

\[ \mathbb{E}(Y|X=x_i)=b_0+b_1 x_i \qquad \rightarrow \qquad \hat{y}_i=b_0+b_1 x_i \]

siendo \(\small \hat{y}_i\) los valores pronosticados para la respuesta \(\small Y\) por el modelo lineal cuando \(\small X=x_i\)


  Cuando solo hay una variable explicativa, hablamos de regresión lineal simple

El caso más general, en donde hay varias variables explicativas, constituye el modelo de regresión lineal múltiple (en algunos textos se habla de regresión multivariante, pero este término es muy discutible).

El modelo de regresión lineal múltiple tiene la forma

\[ Y=\beta_0+\beta_1 X_1+ \beta_2 X_2+ \dots +\beta_k X_k+\varepsilon \]

En el análisis de datos en Ciencias de la Salud, este modelo es mucho más habitual –y de mayor interés– que el de regresión simple.

Supuestos

Los modelos de regresión lineal se basan en una serie de supuestos. En general,

  • Las observaciones deben ser independientes
  • La relación entre las variables debe ser
    • Lineal
    • Homocedástica (la varianza de las distribuciones \(\small Y|X=x\) debe ser constante)
    • Para cada valor de la variable explicativa, la variación de las observaciones se supone que tiene distribución normal


Figura 3: El diagrama de dispersión permite realizar un diagnóstico inicial de la adecuación del modelo lineal.


El supuesto de normalidad, no es sobre la distribución marginal de la variable respuesta \(\small Y\)

  • La normalidad alude a las distribuciones condicionadas \(\small Y|X=x\).
  • En la práctica, tal y como está planteado, esto no se puede probar; harían falta muchas observaciones de la respuesta para cada valor de \(\small x\) (este supuesto se comprueba a través del análisis los residuos del modelo)



Diagnóstico preliminar: influencia de las observaciones


  • Todas las observaciones tienen un grado de influencia (también se habla de apalancamiento o leverage en inglés)
  • Cuanto más próxima esté una observación al centro de gravedad, menor es su influencia
  • Valores muy alejados de \(\small \bar{x}\) pueden afectar mucho al ajuste global


Figura 4: (A) Todos los puntos tienen un nivel relativo de influencia en la determinación del modelo. Una observación cuyo valor de \(\small x\) esté muy alejada de \(\small \bar{x}\) tiene una gran influencia sobre la pendiente (B y D). La influencia es mínima cuando la distancia a \(\small \bar{x}\) también lo es (C).
Estimación


  • El método de estimación habitual (hay más) es el de mínimos cuadrados ordinarios (MCO), que consiste en encontrar la recta que pase por el centro de gravedad y haga mínima la expresión

\[ \sum(y_i - \hat y_i)^2 \]

  • El parámetro fundamental es la pendiente \(\small b_1\)

    • En el ámbito estadístico, a la pendiente se la denomina coeficiente de regresión
    • Constituye otra forma de estandarizar la covarianza (compárese con el coeficiente de correlación de Pearson):

\[ b_1=\hat\beta_1=\large \frac{s_{xy}}{s^2_x} \]

  • Una vez estimado el coeficiente de regresión, la ordenada en el origen, también denominada constante del modelo, se obtiene del hecho de que la recta pasa por el centro de gravedad y tiene por pendiente \(\small b_1\). El estimador \(\small b_0=\hat \beta_0\) se obtiene al hacer

\[ \bar{y}=b_0+b_1 \bar{x}\quad \Rightarrow \quad b_0= \bar{y} - b_1 \bar{x} \]

  • Además de los dos coeficientes del modelo, es necesario estimar la varianza residual \(\small s^2_R\)
    • Los residuos se estiman como \[ e_i=\hat{\varepsilon}_i = y_i-\hat{y}_i \]
    • Entonces, teniendo en cuenta que la media de los residuos es siempre cero, la varianza residual es \[ s^2_R = \hat{\sigma}^2_\varepsilon = \frac{\sum{e_i^2}}{n-2} \]
    • En regresión lineal (simple), los grados de libertad son \(\small n-2\)


  • El análisis de los residuos es fundamental en la validación del modelo, es decir, en comprobar que el modelo ajustado representa bien a los datos observados.





4.2 Inferencias con el modelo de regresión lineal simple

Test de regresión lineal
  • El test de regresión lineal o test de independencia lineal consiste en contrastar si el coeficiente de regresión toma el valor nulo (0), en cuyo caso se habla de independencia lineal

\[ \begin{cases} \text{H}_0: & \beta_1=0 \\ \text{H}_1: & \beta_1 \ne 0 \end{cases} \]

  • Cuidado: independencia lineal no es lo mismo que independencia (a secas); las variables pueden tener asociación de tipo no lineal y este test no es válido para contrastar ese tipo de asociación.

  • El estadístico de contraste es

\[ t_{\text{exp}}=\frac{b_1}{SE(b_1)} \]

en donde \(\small SE(b_1) =\sqrt{s_R^2\left/((n-1)s^2_x\right)}\)

  • Bajo la hipótesis nula \(\small t_{\text{exp}} \sim t_{n-2}\), de manera que se rechaza la independencia lineal siempre que \(\small p < \alpha\) para un nivel de significación \(\small \alpha\) dado.

  • Observemos que, cuanto mayor sea \(\small s^2_x,\,\) más potente resultará el test



Intervalos de confianza para los coeficientes del modelo
  • El intervalo que más suele interesar es el del coeficiente de regresión, que para un nivel de confianza dado, se obtiene como

\[ (1-\alpha)\text{-}IC(\beta_1) \,=\, b_1 \pm t_{\alpha;\,n-2}\, SE(b_1) \]

en donde \(\small SE(b_1) =\sqrt{s_R^2\left/((n-1)s^2_x\right)}\)

  • Observemos que si aumenta la varianza del regresor, \(\small s^2_x\), el intervalo gana precisión
  • Este intervalo debe ser coherente con el resultado del test de regresión lineal. Para un \(\small \alpha\) dado

\[ 0\notin (1-\alpha)\text{-}IC(\beta_1)\quad \iff \quad p<\alpha \]

  • El intervalo para la constante del modelo suele interesar menos. Se obtiene como

\[ (1-\alpha)\text{-}IC(\beta_0) \,=\, b_0 \pm t_{\alpha;\,n-2}\, SE(b_0) \]

(no necesitamos ver su expresión más detallada).

R Ajuste con R

En esta sección ajustamos el modelo a los datos que han servido como ejemplo: relación del peso con la edad en recién nacidos

R Ajuste con código base de R
  • La función de R base para ajustar un modelo lineal es lm()
  • El modelo se indica mediante un objeto de tipo fórmula: y ~ x
  • El resultado de lm() debe asignarse a un objeto, de lo contrario, aparece muy poca información por pantalla y el ajuste no se conserva. Sobre el objeto definido es posible aplicar muchas otras funciones.
# Lectura de los datos
datos <- read.csv("https://www.ugr.es/~pfemia/BSRLab/dat/datos_regr_lin.csv")

# Ajuste del modelo
modelo <- lm(peso_kg ~ edad_meses, data = datos)

# Informe sobre el modelo
summary(modelo)

Call:
lm(formula = peso_kg ~ edad_meses, data = datos)

Residuals:
     Min       1Q   Median       3Q      Max 
-0.90781 -0.29177 -0.06287  0.19219  1.23439 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)   3.1179     0.1561   19.97   <2e-16 ***
edad_meses    0.6211     0.0204   30.44   <2e-16 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 0.4701 on 58 degrees of freedom
Multiple R-squared:  0.9411,    Adjusted R-squared:  0.9401 
F-statistic: 926.7 on 1 and 58 DF,  p-value: < 2.2e-16
# diagramas de diagnóstico
plot(modelo)

# Obtención de residuos estandarizados
res_std <- rstudent(modelo)

# normalidad residual
shapiro.test(res_std)

    Shapiro-Wilk normality test

data:  res_std
W = 0.9672, p-value = 0.1063
R Ajuste con código BioestadisticaR2
  • La función a utilizar de este paquete es rls().
  • No hay que asignarla a ningún objeto. Su cometido es presentar un informe más o menos completo del ajuste, incluidos algunos gráficos de diagnóstico.
# Lectura de los datos
library(BioestadisticaR2)
datos <- read.csv("https://www.ugr.es/~pfemia/BSRLab/dat/datos_regr_lin.csv")

# Ajuste del modelo
library(BioestadisticaR2)

rls(peso_kg ~ edad_meses, data = datos)

Regresión lineal simple 
----------------------------------------------------------------
# Información muestral ---

    variable  n media   dt Min  Max Rango
1    peso_kg 60 7.497 1.92 4.1 10.6   6.5
2 edad_meses 60 7.050 3.00 2.0 12.0  10.0

  Cov(peso_kg,edad_meses) = 5.588

# Correlación de Pearson --- 

     r IC_inf IC_sup gl   texp     sig
  0.97   0.95  0.982 58 30.442 < 0.001

# Modelo lineal --- 

  Modelo:  peso_kg ~ edad_meses 
  R² =  0.941 
  S²residual =  0.221 
  Coeficientes del modelo:

         Coef estim    se ic_inf ic_sup   texp    sig
1 (Constante) 3.118 0.156  2.805  3.430 19.971 <0.001
2  edad_meses 0.621 0.020  0.580  0.662 30.442 <0.001

# Distribución residual --- 
  Error estándar residual:  0.47 
       res   zres
min -0.908 -1.955
Q1  -0.292 -0.634
Q2  -0.063 -0.136
Q3   0.192  0.414
max  1.234  2.648

  Test de normalidad residual (Shapiro-Wilk): 
  w =0.969, p= 0.129


Pronósticos
  • Estimador puntual de la respuesta para un valor dado del regresor:

Para un valor dado \(\small X=x_0\) de la variable explicativa, el modelo permite estimar el valor medio, o esperado, de la respuesta \(\small Y\) sustituyendo \(\small x_0\) en la ecuación:

\[ \mathbb{E}(Y|X=x_0)=b_0+b_1 x_0 \]

  • Los modelos de regresión permiten hacer pronósticos de naturaleza interpoladora, no debe usarse con sentido extrapolador. Es decir, debe ocurrir que

\[ x_{\min} \le x_0 \le x_{\max} \]

  • Fuera del rango observado, \(\small (x_{\min},\, x_{\max})\), no se tiene información de cómo es la relación entre las variables.
  • Esto afecta a los valores de la variable regresora, pero también al resto del contexto del estudio.

En la relación del peso con la edad en bebés de entre 2 y 12 meses:

  • Como la edad observada se restringe al rango \(\small 2 \le x \le 12\) meses, no se debe utilizar este modelo para pronosticar el peso de un bebé de, por ejemplo, 18 meses.
  • Si las observaciones fueran solo de niñas, no se debería utilizar este modelo para pronosticar el peso de niños.
    Aunque el sexo no sea una variable que participe directamente en el modelo, sí que lo contextualiza \(\rightarrow\) Si queremos hacer pronósticos para el peso de niñas y de niños, hay que observar niñas y niños.
  • Intervalos de confianza

Para un valor dado \(\small X=x_0\) de la variable explicativa, se pueden considerar dos tipos de intervalo

  • Intervalo para el valor medio esperado de la variable respuesta
  • Intervalo para una nueva observación
  • El estimador puntual es el mismo en los dos casos (el modelo lineal)
  • Si en el diagrama de dispersión representamos los valores de los dos intervalos obtenidos para todas las observaciones de rango observado, se obtienen las bandas de confianza, para la estimación del valor medio, y las bandas de predicción, para la estimación de nuevas observaciones


Diagrama de dispersión con el modelo lineal, las bandas de confianza y las bandas de predicción.

R En la práctica correspondiente a este tema veremos cómo se obtienen los pronósticos con el modelo



4.3 Calidad del modelo

El coeficiente de determinación \(\small R^2\)


El coeficiente de determinación, \(\small R^2\), mide la proporción de la variabilidad de la variable respuesta (\(\small Y\)) que es explicada por la variable explicativa (\(\small X\)) mediante el modelo lineal.

Formalmente, si descomponemos la variabilidad total \((\small \text{VT})\) en la suma de la variabilidad explicada \((\small \text{VE})\) más la no explicada \((\small \text{VNE})\) por el modelo, tenemos:

\[ R^2=\frac{\text{VE}}{\text{VT}} \quad= \frac{\sum{(\hat{y}_i-\bar{y})^2}}{\sum{(y_i-\bar{y})^2}} \]

  • El coeficiente de determinación es una proporción, \(\small 0 \le R^2 \le 1\), por tanto, se puede multiplicar por 100 y expresarlo en porcentaje.
  • En regresión lineal simple, \(\small R^2\) coincide con el cuadrado del coeficiente de correlación lineal de Pearson: \(\small \,\, R^2 = (r)^2\).
  • Cuanto mayor sea \(\small R^2\), mejor es el ajuste global, pero esto no garantiza que el modelo sea adecuado.
  • El coeficiente de determinación \(\small R^2\)
    • No informa sobre la significación estadística del modelo
    • Tampoco informa sobre la validez de los supuestos (linealidad, homocedasticidad, normalidad)
    • Puede ser alto incluso con un modelo mal especificado
  • En el ejemplo, \(\small R^2 = 0.91\) (valor muy alto), lo que se interpreta como que el 91 % de la variabilidad total observada en el peso de los recién nacidos, en el intervalo de edad de 2 a 12 meses, queda explicada por su relación con la edad. El 9 % restante corresponde a variabilidad residual, o variabilidad no explicada por el modelo.


El modelo lineal permite descomponer la variabilidad observada en la variable respuesta \(\small Y\)
en una parte explicada por su relación con el regresor \(\small X\), es la variabilidad explicada (B)
y otra que es inherente a la variabilidad natural entre los sujetos, es la variabilidad residual (A)



Validación del modelo

Un \(\small R^2\) con valor alto no garantiza que el modelo sea válido: es imprescindible comprobar que se cumplen los supuestos del modelo lineal y esto se hace con el análisis de los residuos

Se trata de comprobar los supuestos de

  • Linealidad. La relación entre la variable explicativa y la respuesta debe ser aceptablemente lineal
  • Normalidad residual. Los residuos del modelo deben tener distribución normal
  • Homoscedasticidad. La varianza de los residuos debe ser constante a lo largo de los valores de la variable explicativa
  • Independencia de los residuos. En el diagrama de residuos no deben aparecer rachas de valores residuales que pongan de manifiesto una estructura.
  • Ausencia de valores atípicos influyentes. Se trata de comprobar que no existen observaciones que distorsionen de forma relevante el ajuste del modelo


(A) La linealidad de la relación entre el peso y la edad se pone de manifiesto por una distribución residual carente de tendencia.
(B) La distribución residual revela un patrón no lineal. Aunque el coeficiente de determinación sea alto, \(\small R^2=0.825\), el modelo lineal no resulta adecuado
En ninguno de los dos casos aparecen residuos de magnitud relevante.



5 Referencias y lecturas recomendadas

Agresti, A., & Kateri, M. (2022). Foundations of Statistics for Data Scientists With R and Python (1st Ed.). Chapman & Hall/CRC Texts in Statistical Science.
Martín Andrés, A., & Luna del Castillo, J. de D. (2004). Bioestadística para las Ciencias de la Salud. Madrid: Norma.
Martín Andrés, A., & Luna del Castillo, J. de D. (2013). 40 ± 10 horas de Bioestadística. Madrid: Ed. Norma-Capitel.
Rosner, B. (2016). Fundamentals of Biostatistics (8.ª ed.). Boston: Brooks/Cole.


6 Material de este proyecto