13 Regresión logística binaria

Autor/a

En muchos contextos prácticos, la variable que se desea estudiar no mide una cantidad continua, sino que indica si un determinado suceso ocurre o no. Ejemplos habituales son la presencia de una enfermedad, el éxito o fracaso de un tratamiento, o la aparición de una complicación clínica. Este tipo de variables, denominadas binarias o dicotómicas, plantean limitaciones importantes para los métodos clásicos de regresión lineal y requieren enfoques específicos.

La regresión logística binaria constituye el marco metodológico para modelizar la relación entre una respuesta binaria y un conjunto de variables explicativas, permitiendo describir, explicar y predecir la probabilidad de ocurrencia del suceso en función de dichas covariables. Antes de introducir formalmente el modelo, resulta fundamental comprender la naturaleza de la respuesta binaria y las formas básicas de analizar su asociación con otras variables.

Por este motivo, el capítulo se estructura de manera progresiva. En primer lugar, se aborda la respuesta binaria, definiendo sus características, su codificación habitual y las implicaciones que tiene para el análisis estadístico. A continuación, se estudia el análisis de la relación entre dos variables binarias, introduciendo medidas de asociación y herramientas descriptivas que permiten cuantificar y contrastar dicha relación. Seguidamente, se desarrolla el análisis de la relación entre una variable binaria y una variable cuantitativa, lo que conduce de forma natural a la formulación e interpretación del modelo de regresión logística binaria, cuya formalización y análisis se desarrollan en las secciones restantes del capítulo.

Esta secuencia pretende proporcionar una base conceptual sólida que facilite la comprensión del modelo logístico, sus supuestos y su interpretación, sentando las bases para su uso posterior con fines inferenciales y predictivos.

13.1 La respuesta binaria

Una variable aleatoria binaria (VAB) es una variable aleatoria que solo puede tomar dos valores posibles, habitualmente codificados como 0 y 1. Estos valores representan la ocurrencia o no de un determinado suceso de interés, como éxito/fracaso, sí/no, presencia/ausencia de una condición o supervivencia/muerte, entre otros ejemplos habituales.

Por convención, se asigna el valor 1 a la ocurrencia del suceso o categoría de interés (denominada éxito) y el valor 0 a su complementario (fracaso). Esta codificación facilita una interpretación directa de los resultados en términos de probabilidades de ocurrencia del suceso.

Si \(Y\) es una VAB tal que toma el valor 1 con probabilidad \(p\) y el valor 0 con probabilidad \(1 - p\), se dice que \(Y\) tiene una distribución de Bernoulli con parámetro \(p\), que representa la probabilidad de ocurrencia del suceso de interés:

\[Y \sim \mathcal{Be}\left( p\right).\]

El valor esperado y la varianza de este tipo de variable aleatoria son, respectivamente, \[\mathbb{E}\left(Y\right)=p \quad \text{y} \quad \mathbb{V}\left(Y\right)=p \left(1-p\right).\]

Esto implica que, al observar la variable en una población grande, el promedio esperado coincide con la probabilidad de obtener el valor 1, o “éxito”. En un contexto biomédico, esta esperanza puede interpretarse como la prevalencia de una enfermedad, la tasa de respuesta positiva a un tratamiento, u otros indicadores binarios de interés.

Por su parte, la varianza mide la heterogeneidad con que se distribuyen las observaciones. Si \(p=1\) o \(p=0\), \(\mathbb{V}\left(Y\right)=0\), lo que indica una homogeneidad total en la población (por ejemplo, todos “enfermos” o todos “sanos” respectivamente). En cambio, la variabilidad es máxima cuando sea \(p=1-p=0.5\), en cuyo caso \(\mathbb{V}\left(Y\right)=0.25\). Esta situación representa el escenario de máxima incertidumbre respecto a la ocurrencia del suceso estudiado.

13.2 Análisis de una variable binaria en relación con otras variables

Consideremos una variable \(X\), no necesariamente aleatoria y que puede ser de cualquier tipo (cualitativa o cuantitativa). Para expresar la relación de la variable binaria \(Y\) con esta posible variable explicativa \(X\) estudiaremos la distribución condicional de \(Y\) dado que \(X=x\).

Genéricamente

\[Y \mid X = x \sim \mathcal{Be}\left(p(x)\right),\]

siendo

\[p(x)=\mathbb{P}(Y = 1 \mid X = x). \tag{13.1}\]

A continuación, se consideran dos propuestas analíticas determinadas por la naturaleza de la variable explicativa \(X\).

13.2.1 Relación de la variable binaria con otra variable también binaria

Abordamos, en primer lugar, el caso en el que la variable explicativa \(X\) también es binaria. Al igual que la variable respuesta, \(X\) puede codificarse mediante los valores \(\lbrace 0,1 \rbrace\), asignando \(X=1\) a la categoría de mayor interés analítico (por ejemplo, la exposición a un posible factor de riesgo). Bajo esta codificación, la probabilidad condicionada de respuesta positiva puede expresarse como

\[ p(x) = \mathbb{P}(Y = 1 \mid X = x), \qquad x \in \{0,1\}. \]

siendo la distribución condicional de \(Y\) dado \(X=x\)

\[Y \mid X = x \sim \mathcal{Be}\big(p(x)\big).\]

Esta información puede resumirse en forma de la tabla de contingencia \(2 \times 2\) tal y como se presenta a continuación:

Tabla 13.1: Tabla de contingencia 2×2

	\(Y=1\)	\(Y=0\)
\(X=1\)	\(p(1)\)	\(1-p(1)\)
\(X=0\)	\(p(0)\)	\(1-p(0)\)

A partir de esta tabla se define la ventaja, odds en inglés, de respuesta positiva para cada valor de \(X\) como

\[\text{odds}(Y=1 \mid X=x) = \frac{p(x)}{1-p(x)}, \qquad x \in \{0,1\}.\]

La odds ratio \(\left( \text{OR} \right)\), o cociente de ventajas, asociada a la variable \(X\) se define entonces como

\[\text{OR} = \frac{\text{odds}(Y=1 \mid X=1)}{\text{odds}(Y=1 \mid X=0)}= \frac{p(1)/(1-p(1))}{p(0)/(1-p(0))}. \tag{13.2}\]

A esta medida también se alude como razón del producto cruzado, ya que se puede escribir como \[\text{OR}=\frac{p(1)\space (1-p(0))}{(1-p(1))\space p(0)}\]

Conviene subrayar que la odds ratio no compara probabilidades, como hace por ejemplo el riesgo relativo, sino ventajas (odds). Así, un valor \(\text{OR}=1\) corresponde a la ausencia de asociación entre \(X\) e \(Y\); valores \(\text{OR}>1\) reflejan un aumento de las odds del suceso asociado a \(X=1\), mientras que valores \(\text{OR}<1\) indican una disminución de dichas ventajas.

Ejemplo: la odds ratio no es un cociente de probabilidades

Supongamos que la probabilidad de que ocurra el suceso cuando \(X=0\) es \[p(0) = 0.10.\]

Las odds correspondientes vienen dadas por

\[\text{odds}(Y=1 \mid X=0)=\frac{p(0)}{1-p(0)}=\frac{0.10}{0.90}=0.111.\]

Supongamos ahora que la odds ratio asociada a la variable \(X\) es

\[\text{OR} = 2.\]

Esto implica que las odds del suceso para \(X=1\) son el doble de las correspondientes a \(X=0\), es decir, \[ \text{odds}(Y=1 \mid X=1)=2 \times 0.111=0.222.\]

A partir de estas odds se puede recuperar la probabilidad correspondiente:

\[p(1)=\frac{0.222}{1+0.222}\approx0.19.\]

Obsérvese que, aunque la odds ratio es igual a 2, la probabilidad del suceso no se duplica, sino que pasa de \(0.10\) a aproximadamente \(0.18\). Este ejemplo ilustra cómo la odds ratio cuantifica cambios relativos en las odds, y no en las probabilidades.

A título comparativo, supongamos ahora que el riesgo relativo (\(RR\)) asociado a la variable \(X\) es \[ \text{RR} = 2.\] Por definición, el riesgo relativo compara probabilidades, no odds, y se define como \[\text{RR}=\frac{\mathbb{P}(Y=1 \mid X=1)}{\mathbb{P}(Y=1 \mid X=0)}=\frac{p(1)}{p(0)}.\]

Por tanto, si \(\text{RR}=2\), se obtiene directamente \[p(1) = 2 \times p(0) = 2 \times 0.10 = 0.20.\] En este caso, la probabilidad del suceso pasa del \(10\%\) al \(20\%\), es decir, se duplica exactamente.

Este ejemplo ilustra que el riesgo relativo tiene una interpretación directa en términos de probabilidades, mientras que la odds ratio cuantifica cambios relativos en las odds y no en las probabilidades.

13.2.2 Relación de la variable binaria con una variable cuantitativa. El modelo de regresión logística.

Pasemos ahora a considerar que la variable explicativa \(X\) es cuantitativa, tomando valores en un subconjunto de \(\mathbb{R}\). Como en los casos anteriores, denotamos por

\[p(x) = \mathbb{P}(Y = 1 \mid X = x)\]

la probabilidad condicional de respuesta positiva asociada al valor \(x\) de la variable explicativa. En consecuencia, la distribución condicional de \(Y\) dado \(X=x\) viene dada por

\[ Y \mid X = x \sim \mathcal{Be}\big(p(x)\big).\]

El objetivo es modelizar cómo varía la probabilidad \(p(x)\) en función de \(x\).

Una primera idea natural sería suponer una relación lineal directa entre la probabilidad y la variable explicativa, esto es, \[\mathbb{E}(Y \mid X=x) = p(x) = \beta_0 + \beta_1 x.\]

Sin embargo, este planteamiento presenta un inconveniente fundamental: al ser una función lineal, el término \(\beta_0 + \beta_1 x\) puede tomar valores fuera del intervalo \((0,1)\), lo que resulta incompatible con la interpretación probabilística de \(p(x)\).

Adicionalmente, no se verifican los supuestos del modelo lineal clásico: la varianza de la respuesta depende de \(x\), por lo que no se satisface la condición de homocedasticidad; la variable respuesta no sigue una distribución normal; y, en general, no es razonable suponer que se mantenga una relación lineal entre \(p(x)\) y \(x\).

Para evitar este problema, resulta más conveniente no modelizar directamente la probabilidad, sino aplicar una transformación de la misma cuyo rango cubra todo \(\mathbb{R}\). Una opción es la transformación logit, definida como el logaritmo de la ventaja:

\[\text{logit}\big(p(x)\big)=\log\!\left(\frac{p(x)}{1-p(x)}\right). \tag{13.3}\]

Esta transformación tiene dos propiedades clave:

Está definida para todo \(p(x) \in (0,1)\).
Toma valores en \((-\infty, +\infty)\), lo que permite modelizarla mediante una relación lineal.

El modelo de regresión logística simple se define entonces suponiendo que el logit de la probabilidad depende linealmente de \(x\):

\[\log\!\left(\frac{p(x)}{1-p(x)}\right)=\beta_0 + \beta_1 x. \tag{13.4}\]

Equivalentemente, este modelo puede escribirse como

\[p(x)=\frac{e^{\beta_0 + \beta_1 x}}{1 + e^{\beta_0 + \beta_1 x}}, \tag{13.5}\]

o también

\[p(x)=\frac{1}{1+e^{-\left(\beta_0 + \beta_1 x \right)}}.\]

Este planteamiento garantiza que, para cualquier valor de \(x\), la probabilidad \(p(x)\) se encuentra siempre en el intervalo \((0,1)\), y proporciona además una interpretación directa de los coeficientes en términos de odds ratios, como se verá a continuación.

13.2.2.1 Interpretación de los coeficientes del modelo

13.2.2.1.1 Coeficiente de regresión \(\beta_1\)

Tomando exponenciales en ambos lados de la de la Ecuación 13.4 se obtiene

\[\frac{p(x)}{1-p(x)}=e^{\beta_0 + \beta_1 x},\]

expresión que relaciona a la ventaja de respuesta positiva con el valor \(x\) de la variable explicativa \(X\), esto es \[\text{odds}(Y=1 \mid X=x)=e^{\beta_0 + \beta_1 x}.\]

Analicemos la situación en la que dos valores de la variable explicativa difieren en una unidad, \(x\) y \(x+1\). Las odds correspondientes vienen dadas por

\[\text{odds}(Y=1 \mid X=x)=e^{\beta_0 + \beta_1 x},\]

\[\text{odds}(Y=1 \mid X=x+1)=e^{\beta_0 + \beta_1 (x+1)}.\]

El cociente entre ambas odds es entonces

\[\frac{\text{odds}(Y=1 \mid X=x+1)}{\text{odds}(Y=1 \mid X=x)}=\frac{e^{\beta_0 + \beta_1 (x+1)}}{e^{\beta_0 + \beta_1 x}}=e^{\beta_1}.\]

Por tanto, el coeficiente \(e^{\beta_1}\) representa la odds ratio asociada a un incremento unitario en la variable explicativa:

\[OR_{ \Delta{x}=1}=\exp(\beta_1)\]

En particular:

si \(\beta_1 = 0\), entonces \(\exp(\beta_1)=1\) y no existe asociación entre \(X\) y \(Y\);
si \(\beta_1 > 0\), entonces \(\exp(\beta_1)>1\) y las odds del suceso aumentan al aumentar \(X\);
si \(\beta_1 < 0\), entonces \(\exp(\beta_1)<1\) y las odds del suceso disminuyen al aumentar \(X\).

13.2.2.1.2 Constante del modelo \(\beta_0\)

Este coeficiente representa el logit de la probabilidad de que ocurra el suceso de interés cuando la variable explicativa toma el valor \(X=0\). De acuerdo con la Ecuación 13.4, se tiene entonces que

\[\text{logit}\left(p(0)\right) = \beta_0,\]

y en términos de la probabilidad de ocurrencia del suceso (Ecuación 13.1)

\[p(0) = \frac{e^{\beta_0}}{1 + e^{\beta_0}}. \tag{13.6}\]

si \(\beta_0 = 0\), entonces \(\exp(\beta_0)=1\) y, por lo tanto, la probabilidad basal es \(p(0)=1-p(0)=0.5\).
si \(\beta_0 > 0\), entonces \(\exp(\beta_0)>1\), de modo que \(p(0)>0.5\) resultando que \(p(0)>1-p(0)\)
si \(\beta_0 < 0\), entonces \(\exp(\beta_0)<1\), siendo ahora \(p(0)<0.5\) y \(p(0)<1-p(0)\)

La interpretación de \(\beta_0\) está sujeta a que \(x=0\) sea un valor coherente para la variable explicativa y \(p(0)\) un pronóstico realizable (no una extrapolación), cosa que no ocurre en muchas situaciones prácticas.

13.2.3 El modelo de regresión logística con un regresor binario

Volvemos a abordar la situación planteada en la Sección 13.2.1. Entonces el estudio de la relación entre \(X\) e \(Y\) se planteaba mediante el análisis de una tabla de contingencia \(2 \times 2\). Pero este problema también se puede plantear como un modelo de regresión logística conforme a lo desarrollado en las secciones precedentes.

Cuando \(X=0\), el modelo de la Ecuación 13.4 resulta

\[\text{logit}\big(p(0)\big)=\beta_0.\]

por lo que la probabilidad basal es la dada en la Ecuación 13.6. Análogamente, si \(X=1\) se tiene

\[\text{logit}\big(p(1)\big)=\beta_0+\beta_1.\]

de manera que ahora

\[p(1)=\frac{e^{\beta_0+\beta_1}}{1+e^{\beta_0+\beta_1}}\]

De manera acorde con lo visto en la Sección 13.2.2.1.1, la exponencial del parámetro \(\beta_1\) es la odds ratio asociada al incremento unitario en el regresor, aquí, ese incremento unitario representa el cambio de categoría, de modo que \[OR=e^\beta_1\] es la misma odds ratio que la definida en la Ecuación 13.2.

13.3 Regresión logística múltiple

Supongamos ahora que se consideran \(K\) variables explicativas (ya sean cuantitativas o también binarias), \[X_1, X_2, \dots, X_k,\] que constituyen el vector de covariables \(\mathbf{X} = (X_1, X_2, \dots, X_k)\). Como en los apartados anteriores, definimos

\[p(\mathbf{x}) = \mathbb{P}(Y = 1 \mid \mathbf{X} = \mathbf{x})\]

como la probabilidad condicional de respuesta positiva asociada al vector de valores \(\mathbf{x} = (x_1, x_2, \dots, x_k)\).

La distribución condicional de la variable respuesta viene dada por

\[Y \mid \mathbf{X} = \mathbf{x} \sim \mathcal{Be}\big(p(\mathbf{x})\big).\]

El modelo de regresión logística múltiple se define suponiendo que el logit de la probabilidad depende linealmente de las variables explicativas:

\[\log\!\left(\frac{p(\mathbf{x})}{1-p(\mathbf{x})}\right)=\beta_0 + \beta_1 x_1 + \beta_2 x_2 + \cdots + \beta_p x_k.\]

Como ya hemos visto, el modelo puede escribirse como \[p(\mathbf{x})=\frac{e^{\beta_0 + \sum_{i=1}^k \beta_i x_i}}{1 + e^{\beta_0+ \sum_{i=1}^k \beta_i x_i}},\]

o, equivalentemente, como

\[p(\mathbf{x})=\frac{1}{1 + e^{-\left(\beta_0 + \sum_{i=1}^k \beta_i x_i\right)}}.\]

Este planteamiento extiende de forma natural el modelo logístico simple y permite analizar el efecto conjunto de varias variables explicativas sobre la probabilidad de respuesta positiva. El modelo es lineal en el logit, no en la probabilidad.

El modelo de regresión logística múltiple en notación matricial

Al considerar \(k\) variables explicativas observadas en \(n\) casos, es posible organizar esta información en forma de matriz de diseño \(\mathbf{X}\). Esta matriz tiene dimensiones \(n \times (k+1)\): cada fila corresponde a un caso de la muestra y cada columna a uno de los parámetros del modelo, de modo que el total de parámetros es \(p = k + 1\) (la constante \(\beta_0\) más un coeficiente \(\beta_i\) por cada variable explicativa). La primera columna de \(\mathbf{X}\) es un vector de unos, cuya función es incorporar el término constante al modelo. Las columnas restantes almacenan los valores observados de las variables explicativas para cada caso.

El modelo de regresión logística múltiple se define suponiendo que el logit de la probabilidad condicional depende linealmente de las variables explicativas, y esto lo expresamos vectorialmente como

\[\log\!\left(\frac{p_i}{1-p_i}\right)=\mathbf{x}_i^\top \boldsymbol{\beta},\qquad i=1,\dots,n,\]

donde \(\mathbf{x}_i^\top\) denota la \(i\)-ésima fila de la matriz de diseño \(\mathbf{X}\), y

\[\boldsymbol{\beta} = (\beta_0, \beta_1, \dots, \beta_K)^\top\]

es el vector de parámetros del modelo.

De forma equivalente, el modelo puede escribirse como

\[p_i=\frac{e^{\mathbf{x}_i^\top \boldsymbol{\beta}}}{1+e^{\mathbf{x}_i^\top\boldsymbol{\beta}}},\qquad i=1,\dots,n,\]

o bien como

\[p_i=\frac{1}{1+e^{-\mathbf{x}_i^\top \boldsymbol{\beta}}},\qquad i=1,\dots,n.\]

En términos del logit, el modelo adopta la forma compacta

\[\log\!\left(\frac{\mathbf{p}}{\mathbf{1}-\mathbf{p}}\right)=\mathbf{X}\boldsymbol{\beta},\]

donde \(\mathbf{p} = (p_1,\dots,p_n)^\top\), y el cociente se interpreta componente a componente.

En este contexto, cada coeficiente \(\beta_j\) cuantifica el efecto ajustado de la correspondiente variable explicativa sobre el logit.

13.3.1 Interpretación de los coeficientes

Para interpretar los coeficientes del modelo, consideremos dos individuos que difieren únicamente en el valor de una de las variables explicativas, por ejemplo \(X_j\), manteniéndose constantes el resto de covariables.

Sean \[\mathbf{x} = (x_1, \dots, x_j, \dots, x_p),\qquad\mathbf{x}' = (x_1, \dots, x_j + 1, \dots, x_p).\]

Las odds de respuesta positiva asociadas a estos dos vectores de covariables vienen dadas por

\[\text{odds}(Y=1 \mid \mathbf{X}=\mathbf{x})=e^{\beta_0 + \sum_{i=1}^k \beta_i x_i},\]

\[\text{odds}(Y=1 \mid \mathbf{X}=\mathbf{x}')=e^{\beta_0 + \sum_{i=1}^k \beta_i x_i +\beta_j}.\]

El cociente entre ambas odds es entonces

\[\frac{\text{odds}(Y=1 \mid \mathbf{X}=\mathbf{x}')}{\text{odds}(Y=1 \mid \mathbf{X}=\mathbf{x})}=e^{\beta_j}.\]

Por tanto, el coeficiente \(e^{\beta_j}\) representa la odds ratio ajustada asociada a un incremento unitario en la variable \(X_j\), manteniéndose constantes el resto de variables del modelo.

En particular:

si \(\beta_j = 0\), entonces \(\exp(\beta_j)=1\) y \(X_j\) no está asociada con la respuesta;
si \(\beta_j > 0\), entonces \(\exp(\beta_j)>1\) y las odds del suceso aumentan al hacerlo los valores de \(X_j\);
si \(\beta_j < 0\), entonces \(\exp(\beta_j)<1\) y las odds del suceso disminuyen al aumentar los valores de \(X_j\).

Una característica fundamental de la regresión logística múltiple es que permite interpretar el efecto de cada variable explicativa ajustando por el resto de covariables incluidas en el modelo. En efecto, en el modelo

\[\log\!\left(\frac{p(\mathbf{x})}{1-p(\mathbf{x})}\right)=\beta_0 + \sum_{i=1}^k \beta_i x_i,\]

el coeficiente \(\beta_j\) cuantifica el efecto de la variable \(X_j\) sobre el logit de la probabilidad de respuesta positiva manteniéndose constantes las demás variables explicativas (lo que en algunos ámbitos se suele denominar principio ceteris paribus).

En términos de odds ratios, el parámetro \(e^{\beta_j}\) representa el factor multiplicativo por el cual se modifican las odds del suceso al aumentar \(X_j\) en una unidad, cuando el resto de covariables permanecen fijas. Por este motivo, \(e^{\beta_j}\) se interpreta como una odds ratio ajustada.

Este enfoque permite distinguir entre asociaciones marginales y asociaciones condicionadas, evitando interpretaciones espurias debidas a variables de confusión.

13.3.2 Interpretación de los coeficientes

Para interpretar los coeficientes de un modelo de regresión logística múltiple, consideremos -como ya hicimos en el caso del modelo de regresión logística simple-, dos casos que difieren únicamente en el valor de una variable explicativa \(X_j\), manteniéndose constantes el resto de covariables:

\[\mathbf{x} = (x_1, \dots, x_j, \dots, x_p),\qquad\mathbf{x}' = (x_1, \dots, x_j + 1, \dots, x_p).\]

Las odds de respuesta positiva asociadas a estos vectores de covariables son

\[\text{odds}(Y=1 \mid \mathbf{X}=\mathbf{x}) = e^{\beta_0 + \sum_{i=1}^p \beta_i x_i}, \qquad\text{odds}(Y=1 \mid \mathbf{X}=\mathbf{x}') = e^{\beta_0 + \sum_{i=1}^p \beta_i x_i + \beta_j}.\]

El cociente entre ambas odds es

\[\frac{\text{odds}(Y=1 \mid \mathbf{X}=\mathbf{x}')}{\text{odds}(Y=1 \mid \mathbf{X}=\mathbf{x})} = e^{\beta_j}.\]

Por tanto, \(e^{\beta_j}\) representa la odds ratio ajustada asociada a un incremento unitario en \(X_j\), manteniendo fijas las demás covariables del modelo.

Si \(\beta_j = 0\), entonces \(e^{\beta_j} = 1\) y \(X_j\) no está asociada con la respuesta.
Si \(\beta_j > 0\), entonces \(e^{\beta_j} > 1\) y las odds del suceso aumentan al incrementarse \(X_j\).
Si \(\beta_j < 0\), entonces \(e^{\beta_j} < 1\) y las odds del suceso disminuyen al aumentar \(X_j\).

Una característica fundamental de la regresión logística múltiple es que permite interpretar el efecto de cada variable ajustando por el resto de covariables, es decir, considerando asociaciones condicionadas que distinguen entre relaciones marginales y relaciones ajustadas, evitando interpretaciones espurias debidas a variables de confusión.

En resumen, el coeficiente \(\beta_j\) cuantifica el efecto de \(X_j\) sobre el logit de la probabilidad de respuesta positiva, y su exponencial, \(e^{\beta_j}\), indica el factor multiplicativo sobre las odds del suceso al aumentar \(X_j\) en una unidad, manteniendo constantes las demás covariables (ceteris paribus).

Odds ratio cruda frente a odds ratio ajustada

Consideremos una variable respuesta binaria \(Y\), una variable explicativa binaria de interés \(X\) y una tercera variable \(Z\), también binaria, que actúa como posible variable de confusión.

Supongamos que, al analizar únicamente la relación entre \(X\) y \(Y\) mediante una tabla de contingencia \(2\times2\), se obtiene una odds ratio cruda dada por

\[\text{OR}_{\text{cruda}} = 2.\]

Este resultado sugiere que las odds del evento cuando \(X=1\) son el doble que cuando \(X=0\), sin tener en cuenta ninguna otra variable.

Sin embargo, supongamos ahora que \(X\) y \(Z\) están asociadas entre sí, y que \(Z\) influye de forma independiente sobre la probabilidad de respuesta positiva. En este contexto, el análisis bivariante puede inducir una asociación espuria.

Al ajustar un modelo de regresión logística múltiple de la forma

\[\log\!\left(\frac{p(x,z)}{1-p(x,z)}\right)=\beta_0 + \beta_1 x + \beta_2 z,\]

la odds ratio ajustada asociada a la variable \(X\) viene dada por

\[\text{OR}_{\text{ajustada}} = e^{\beta_1}.\]

Supongamos que, tras el ajuste por \(Z\), se obtiene

\[\text{OR}_{\text{ajustada}} = 1.1.\]

Este resultado indica que, una vez controlado el efecto de \(Z\), la asociación entre \(X\) e \(Y\) es débil o prácticamente inexistente. La diferencia entre la odds ratio cruda y la ajustada pone de manifiesto el efecto de confusión ejercido por la variable \(Z\).

Este ejemplo ilustra que la odds ratio cruda refleja una asociación marginal, mientras que la odds ratio ajustada cuantifica la asociación entre \(X\) e \(Y\) condicionada al resto de covariables incluidas en el modelo.

Asociación no implica causalidad

Es importante subrayar que los coeficientes de un modelo de regresión logística, y en particular las odds ratios ajustadas, tienen en general una interpretación asociativa, no causal. El hecho de que \(e^{\beta_i}\) represente la odds ratio ajustada asociada a la variable \(X_i\) no implica, por sí mismo, que modificar \(X_i\) produzca un cambio causal en la probabilidad del suceso. La interpretación causal solo es válida bajo supuestos adicionales, como la ausencia de confusión no medida, una correcta especificación del modelo y, en muchos casos, un diseño experimental adecuado. En estudios observacionales, la regresión logística permite controlar estadísticamente el efecto de variables de confusión observadas, pero no garantiza la identificación de relaciones causales. Por este motivo, las conclusiones derivadas del modelo deben formularse cuidadosamente en términos de asociación, salvo que el contexto del estudio justifique explícitamente una interpretación causal.

13.3.3 Variables explicativas binarias en el modelo logístico

El modelo de regresión logística múltiple admite de forma natural variables explicativas binarias. Supongamos que una de las covariables, por ejemplo \(X_j\), toma valores en \(\{0,1\}\).

En este caso, el coeficiente \(\beta_j\) compara directamente las odds del evento entre los grupos definidos por \(X_j=1\) y \(X_j=0\), manteniéndose constantes el resto de variables del modelo.

En particular, se tiene que

\[\exp(\beta_j)=\frac{\text{odds}(Y=1 \mid X_j=1, \, X_{-j})}{\text{odds}(Y=1 \mid X_j=0, \, X_{-j})},\]

donde \(X_{-j}\) denota el conjunto de todas las covariables excepto \(X_j\).

Por tanto, \(\exp(\beta_j)\) representa la odds ratio ajustada asociada a la variable binaria \(X_j\), y su interpretación es completamente análoga a la obtenida en el análisis de tablas de contingencia, pero ahora condicionada al resto de covariables.

13.3.4 Términos de interacción

En algunos contextos, el efecto de una variable explicativa sobre la respuesta puede depender del valor de otra variable. Este fenómeno puede modelizarse introduciendo términos de interacción en el modelo logístico.

Consideremos, por ejemplo, dos variables explicativas \(X_1\) y \(X_2\). El modelo logístico con interacción se escribe como

\[\log\!\left(\frac{p(\mathbf{x})}{1-p(\mathbf{x})}\right)=\beta_0 + \beta_1 x_1 + \beta_2 x_2 +\beta_{12} x_1 x_2.\]

En este caso, el efecto de \(X_1\) sobre el logit de la probabilidad depende del valor de \(X_2\). En particular, el incremento unitario en \(X_1\) produce un cambio en el logit igual a

\[\beta_1 + \beta_{12} x_2.\]

En términos de odds ratios, el efecto de un incremento unitario en \(X_1\), dado un valor fijo de \(X_2=x_2\), viene dado por

\[\exp\!\big(\beta_1 + \beta_{12} x_2\big).\]

Por tanto, en presencia de interacciones, el coeficiente \(e^{\beta_1}\) ya no puede interpretarse como una odds ratio global, sino como la odds ratio correspondiente al caso en que \(X_2=0\). De forma análoga, \(e^{\beta_1 + \beta_{12}}\) representa la odds ratio asociada a \(X_1\) cuando \(X_2=1\).

La inclusión de términos de interacción permite capturar relaciones más complejas entre las variables explicativas y la respuesta, a costa de una mayor complejidad en la interpretación de los coeficientes.

13.3.4.1 Interacción entre una variable cuantitativa y una variable binaria.

Cuando el modelo incluye este tipo de interacción, el coeficiente asociado a la variable binaria debe interpretarse de forma condicional al valor de la cuantitativa. Por este motivo, resulta conveniente centrar la variable cuantitativa, de modo que dicho coeficiente compare las dos categorías de la variable binaria con respecto al valor medio de la cuantitativa, y no respecto a un valor nulo que puede carecer de sentido práctico.

13.3.4.2 Interacción entre dos variables cuantitativas.

Supongamos ahora que el modelo de regresión logística incluye una interacción entre dos variables explicativas cuantitativas, \(X_1\) y \(X_2\):

\[\log\!\left(\frac{p}{1-p}\right)=\beta_0+ \beta_1 X_1+ \beta_2 X_2+ \beta_3 X_1 X_2.\]

En esta parametrización, los coeficientes \(\beta_1\) y \(\beta_2\) representan los efectos de \(X_1\) y \(X_2\), respectivamente, condicionados a que la otra variable tome el valor cero. Asimismo, el término constante \(\beta_0\) corresponde a la situación \(X_1 = X_2 = 0\). Aunque esta interpretación es formalmente correcta, suele resultar poco útil cuando el valor cero no pertenece al rango observado de las variables o carece de significado sustantivo.

Para mejorar la interpretabilidad, es habitual centrar ambas covariables, definiendo

\[X_1^c = X_1 - \bar X_1,\qquad X_2^c = X_2 - \bar X_2,\]

y considerar el modelo

\[\log\!\left(\frac{p}{1-p}\right)=\beta_0+ \beta_1 X_1^c+ \beta_2 X_2^c+ \beta_3 X_1^c X_2^c.\]

En este caso, los coeficientes \(\beta_1\) y \(\beta_2\) cuantifican los efectos de \(X_1\) y \(X_2\) evaluados cuando la otra variable toma su valor medio, mientras que \(\beta_0\) se interpreta como el logit de la probabilidad correspondiente a un individuo con valores promedio en ambas covariables. El centrado no altera el ajuste ni la naturaleza del término de interacción, pero facilita una interpretación más natural de los efectos principales y reduce la colinealidad entre estos y el término de interacción.

Centrado de variables cuantitativas en presencia de interacciones

Cuando un modelo incluye términos de interacción y el valor cero de la(s) variable(s) cuantitativa(s) carece de una interpretación sustantiva, es aconsejable centrar dichas variables antes de introducir la interacción.
Este centrado permite que los efectos principales se interpreten de forma condicional y ajustada a valores promedio de las covariables y contribuye a reducir problemas de colinealidad entre los términos principales y el término de interacción, todo ello sin modificar el ajuste del modelo.

Observación técnica: el centrado no altera ni la interacción ni el ajuste del modelo. Por ejemplo, dado un modelo con interacción entre dos variables cuantitativas \(X_1\) y \(X_2\),

\[\log \!\left(\frac{p(x_1,x_2)}{1-p(x_1,x_2)}\right)=\beta_0 + \beta_1 X_1 + \beta_2 X_2 + \beta_3 X_1 X_2,\]

si se definen las variables centradas como

\[X_1^c = X_1 - \bar X_1,\qquad X_2^c = X_2 - \bar X_2,\]

el modelo puede reexpresarse en términos de \(X_1^c\) y \(X_2^c\) sin modificar el término de interacción ni el ajuste global. El coeficiente asociado a la interacción sigue siendo \(\beta_3\), mientras que los coeficientes principales y la constante se reparametrizan. En consecuencia, el centrado no afecta a la significación ni a la interpretación de la interacción, pero sí mejora la interpretación de los efectos principales, que pasan a evaluarse en valores medios de las covariables, y reduce la colinealidad entre términos.

13.4 Estimación del modelo logístico: máxima verosimilitud

En el modelo de regresión logística, la variable respuesta sigue, condicionada a las variables explicativas, una distribución Bernoulli. En consecuencia, los parámetros del modelo no se estiman mediante mínimos cuadrados, sino mediante el principio de máxima verosimilitud.

Sea \((Y_i, \mathbf{x}_i)\), \(i=1,\dots,n\), una muestra independiente, donde \(Y_i \in \{0,1\}\) y
\[\mathbb{P}(Y_i=1 \mid \mathbf{x}_i)=p_i.\]

La función de verosimilitud viene dada por \[L(\boldsymbol{\beta})=\prod_{i=1}^n p_i^{\,y_i}(1-p_i)^{\,1-y_i},\] donde

\[p_i=\frac{e^{\mathbf{x}_i^\top \boldsymbol{\beta}}}{1+e^{\mathbf{x}_i^\top \boldsymbol{\beta}}}.\]

El estimador de máxima verosimilitud \(\hat{\boldsymbol{\beta}}\) se obtiene maximizando \(L(\boldsymbol{\beta})\), o equivalentemente su logaritmo. Dado que no existe una expresión cerrada para esta maximización, los coeficientes se calculan mediante métodos numéricos iterativos, como el algoritmo de Newton–Raphson o el procedimiento de mínimos cuadrados iterativamente ponderados (IRLS).

13.5 Inferencia sobre los coeficientes del modelo logístico

Una vez estimados los coeficientes del modelo, el siguiente paso es realizar inferencia estadística sobre ellos. Bajo condiciones generales, el estimador de máxima verosimilitud \(\hat{\boldsymbol{\beta}}\) es aproximadamente normal: \[\hat{\boldsymbol{\beta}} \;\sim\; \mathcal{N}(\boldsymbol{\beta},\, \mathbf{I}^{-1}),\] donde \(\mathbf{I}\) es la matriz de información de Fisher. Esto permite construir intervalos de confianza y realizar contrastes de hipótesis para cada coeficiente \(\beta_j\). En la práctica, la inferencia se centra habitualmente en:

el contraste \(H_0:\beta_j=0\) mediante el test de Wald,
o en contrastes basados en la razón de verosimilitudes.

Dado que los coeficientes del modelo logístico se interpretan habitualmente en términos de odds ratios, resulta especialmente útil construir intervalos de confianza para \(e^{\beta_j}\), que proporcionan intervalos de confianza para las OR ajustadas.

13.6 Predicción e interpretación en escala de probabilidad

Aunque el modelo logístico se formula y se interpreta naturalmente en términos de odds y odds ratios, en muchas aplicaciones resulta de interés expresar los resultados en la escala de probabilidad, más directa desde el punto de vista aplicado.

A partir de un conjunto dado de covariables \(\mathbf{x}\), la probabilidad predicha de respuesta positiva se obtiene como \[\hat p(\mathbf{x})=\frac{e^{\mathbf{x}^\top \hat{\boldsymbol{\beta}}}}{1+e^{\mathbf{x}^\top \hat{\boldsymbol{\beta}}}}.\]

Estas probabilidades pueden utilizarse para:

comparar grupos definidos por variables binarias,
estudiar cómo varía la probabilidad del suceso en función de una variable cuantitativa,
representar gráficamente efectos principales e interacciones.

Este tipo de representaciones resulta especialmente útil para ilustrar que una odds ratio constante no implica diferencias absolutas constantes en probabilidad, reforzando la distinción conceptual entre ambas escalas.

13.7 Ajuste global y capacidad explicativa

13.7.1 Coeficientes pseudo-\(R^2\)

Estos coeficientes tratan de responder a la pregunta de cuánto aporta el conjunto de covariables frente al uso del modelo nulo para explicar la respuesta observada. A diferencia del \(R^2\) de la regresión lineal, no se definen como la proporción de varianza explicada, sino como medidas relativas basadas en la verosimilitud. En este sentido, cuantifican la mejora del modelo ajustado con respecto al modelo nulo y se utilizan principalmente como indicadores de ajuste global del modelo. Su función es descriptiva y comparativa, no predictiva. Por ejemplo, permiten comparar modelos anidados junto con medidas como el AIC o el BIC, que suelen ser preferibles para estos fines, ya que equilibran el grado de ajuste con la parsimonia del modelo.

Algunos de los coeficientes pseudo-\(R^2\) son

\(R^2\) de Cox–Snell, indica la mejora de la verosimilitud frente al modelo nulo. El problema es que nunca no alcanza el valor \(R^2=1\)
\(R^2\) de Nagelkerke, es el coeficiente de Cox-Snell reescalado para que su máximo sea 1.
\(R^2\) de McFadden, basado en el logaritmo de las verosimilitudes.

Conviene insistir en que los coeficientes pseudo-\(R^2\) no evalúan directamente el rendimiento predictivo del modelo ni su capacidad de generalización a nuevas muestras, por lo que su interpretación debe limitarse al ajuste global en los datos de entrenamiento y complementarse siempre con medidas de discriminación, calibración y validación interna.

13.8 Validación del modelo de regresión logística

Una vez estimado un modelo de regresión logística, resulta esencial evaluar su capacidad predictiva y su grado de ajuste, tanto en los datos utilizados para su estimación como, especialmente, en datos no observados. Este proceso se conoce de forma general como validación del modelo.

En el contexto de una respuesta binaria, la validación se articula en torno a tres dimensiones complementarias:

la robustez o estabilidad del modelo, que evalúa su sensibilidad a la presencia de observaciones atípicas o influyentes;
la discriminación, entendida como la capacidad del modelo para distinguir entre sujetos con y sin la característica de interés;
y la calibración, que mide el grado de concordancia entre las probabilidades pronosticadas por el modelo y las frecuencias observadas.

Un modelo puede presentar una buena capacidad discriminativa y, sin embargo, mostrar una calibración deficiente, o viceversa. Por ello, una validación adecuada debe considerar ambos aspectos de forma conjunta, evitando reducir la evaluación del modelo a una única métrica de rendimiento.

Guía TRIPOD

La guía TRIPOD (Transparent Reporting of a multivariable prediction model for Individual Prognosis Or Diagnosis) es una recomendación internacional destinada a mejorar la transparencia, integridad y calidad del informe de estudios que desarrollan, validan o actualizan modelos predictivos en los que participan diferentes variables, como son los modelos de regresión logística con respuesta binaria. TRIPOD no prescribe métodos estadísticos concretos, sino que establece qué información debe comunicarse para que el lector pueda evaluar adecuadamente la validez, el rendimiento y la aplicabilidad del modelo. La guía incluye una lista con ítems que cubren aspectos relativos a los datos, la especificación del modelo, los procedimientos de validación y evaluación del rendimiento en términos de discriminación y calibración. En la práctica, TRIPOD se utiliza como marco de referencia para estructurar la sección de métodos y resultados, asegurando que el proceso de desarrollo y validación del modelo se describa de forma clara, reproducible y alineada con los estándares actuales de la literatura biomédica.

La validación de un modelo puede ser interna o externa. La validación interna evalúa su rendimiento utilizando únicamente los datos empleados en el desarrollo del modelo y permite estimar y corregir el optimismo introducido por el sobreajuste. En cambio, la validación externa examina el rendimiento del modelo en datos completamente independientes, procedentes de otra muestra, lugar, periodo temporal o población, y proporciona evidencia sobre su capacidad de generalización y transportabilidad.

13.8.1 Robustez del modelo: diagnóstico de influencia y análisis de sensibilidad

El proceso de validación del modelo puede complementarse con un diagnóstico de influencia, cuyo objetivo no es la depuración automática de datos, sino la evaluación de la robustez de las estimaciones y de las métricas de validación frente a observaciones potencialmente influyentes. Estas observaciones pueden afectar no solo a los coeficientes del modelo y a las correspondientes odds ratios, sino también a su capacidad discriminativa (por ejemplo, el AUC), a su calibración (tanto gráfica como global) y al rendimiento estimado mediante validación cruzada.

El diagnóstico de influencia se apoya en el análisis conjunto de los residuos (de devianza o de Pearson), los valores de leverage y medidas globales como la distancia de Cook, así como en indicadores específicos del impacto de cada observación sobre los coeficientes individuales (por ejemplo, DFBETAs). La identificación de observaciones influyentes no implica necesariamente un mal ajuste ni justifica su exclusión automática, ya que en estudios biomédicos o epidemiológicos estas observaciones pueden corresponder a sujetos reales con perfiles de riesgo poco frecuentes o clínicamente relevantes.

Por este motivo, la práctica recomendada consiste en realizar un análisis de sensibilidad, comparando el modelo ajustado con y sin dichas observaciones en términos de: (\(i\)) estabilidad de los coeficientes y de las odds ratios, (\(ii\)) cambios en las métricas de discriminación (AUC, sensibilidad y especificidad para un umbral dado), (\(iii\)) modificaciones en la calibración del modelo, evaluadas mediante gráficos de calibración o estadísticos globales, y (\(iv\)) variaciones en el rendimiento predictivo estimado mediante validación cruzada. Este enfoque integrado permite valorar hasta qué punto las conclusiones del análisis dependen de casos individuales y refuerza la solidez de la interpretación aplicada del modelo.

13.8.2 Discriminación

La discriminación evalúa si el modelo asigna, en promedio, probabilidades más altas a los sujetos que presentan la característica de interés que a aquellos que no lo presentan.

A partir de los pronósticos \(\hat p_i\) y de un umbral de clasificación \(c \in (0,1)\), pueden definirse métricas dependientes del umbral, entre las que destacan:

Sensibilidad: proporción de sujetos con el suceso correctamente clasificados.
Especificidad: proporción de sujetos sin el suceso correctamente clasificados.
Exactitud (accuracy): proporción total de clasificaciones correctas.

Estas métricas dependen del valor elegido para \(c\) y, por tanto, su interpretación está fuertemente condicionada por el contexto clínico o epidemiológico.

El umbral de clasificación

La clasificación se realiza comparando la probabilidad pronosticada \(\hat p_i\) con un umbral \(c \in (0,1)\), de modo que un sujeto se clasifica como portador de la característica en cuestión si \[\hat p_i \ge c.\]

El valor particular \(c = 0.5\) resulta natural desde un punto de vista matemático, pero solo es apropiado bajo condiciones restrictivas: equilibrio aproximado entre clases, costes similares de falsos positivos y falsos negativos, y un objetivo centrado en la clasificación más que en la estimación de probabilidades.

En aplicaciones biomédicas y epidemiológicas estas condiciones rara vez se cumplen. Por ello, el umbral debe elegirse en función del contexto o, alternativamente, evitarse la fijación de un umbral concreto y evaluar el modelo mediante métricas independientes de \(c\).

Una medida ampliamente utilizada de la discriminación y que no depende del umbral es el:

Área bajo la curva ROC (AUC): resume la capacidad discriminativa global del modelo.
Valores de \(AUC\) cercanos a \(0.5\) indican ausencia de discriminación, mientras que valores próximos a \(1\) indican una discriminación excelente.

13.8.3 Calibración

La calibración evalúa hasta qué punto las probabilidades pronosticadas por el modelo coinciden, en promedio, con las proporciones observadas del suceso. Un método clásico para su evaluación es el test de Hosmer–Lemeshow, que contrasta de forma global la concordancia entre probabilidades pronosticadas y observadas tras agrupar a los individuos en categorías de riesgo. No obstante, este contraste presenta limitaciones bien conocidas, ya que su resultado depende del tamaño muestral y de la forma de agrupación, y no informa sobre la naturaleza ni la magnitud de una posible descalibración.

Por este motivo, la evaluación de la calibración se apoya habitualmente en métodos gráficos, que permiten una interpretación más directa del comportamiento del modelo. En estos los diagramas de calibración se compara la probabilidad observada del suceso con la probabilidad pronosticada por el modelo, lo que permite obtener una estimación empírica de la denominada función de calibración, definida como \[g(p)=\mathbb{E}\left(Y|\hat{p}=p\right)\]

donde \(g(p)\) representa la probabilidad observada del suceso estudiado entre los individuos a los que el modelo asigna una probabilidad \(\hat p = p\).

Esta relación puede representarse mediante gráficos suavizados de probabilidad observada frente a probabilidad predicha, obtenidos mediante técnicas de suavizado como LOESS, que permiten evaluar de forma continua la calibración y detectar desviaciones sistemáticas a lo largo de todo el rango de riesgos.

Finalmente, la información proporcionada por los gráficos de calibración puede resumirse mediante indicadores numéricos, en particular el intercepto y la pendiente de calibración. Estos indicadores cuantifican, respectivamente, el sesgo global del modelo y el grado de sobreajuste o infraajuste, y permiten una evaluación más estable y reproducible de la calibración que la basada exclusivamente en representaciones gráficas.

Intercepto de calibración o Calibration-in-the-large (CITL): evalúa si, en promedio, el modelo tiende a sobreestimar o infraestimar el riesgo. Se obtiene comparando la media de las probabilidades predichas con la proporción observada del suceso, o bien ajustando un modelo logístico con el offset igual al predictor lineal original.
Si \(\hat p_i\) es la probabilidad pronosticada del suceso para el caso \(i\) y \[\eta_i = \log\left(\frac{\hat p_i}{1 - \hat p_i}\right)\] es el predictor lineal del modelo original. La CITL se obtiene ajustando el siguiente modelo logístico: \[\text{logit}(P(Y=1)) = \alpha + \text{offset}(\eta_i)\] donde la estimación de \(\alpha\) corresponde a la calibration-in-the-large. La interpretación de la CITL es directa:
- \(\alpha = 0\) indica calibración perfecta en promedio.
- \(\alpha > 0\) indica que el modelo infraestima el riesgo.
- \(\alpha < 0\) indica que el modelo sobreestima el riesgo.

Una CITL distinta de cero no implica necesariamente una mala discriminación, sino un error en el nivel basal de riesgo.

Pendiente de calibración Calibration slope: evalúa si las probabilidades predichas son demasiado extremas o demasiado conservadoras. Se obtiene ajustando un modelo logístico de la respuesta observada sobre el predictor lineal del modelo original.
La pendiente de calibración se obtiene ajustando el modelo: \[\text{logit}(P(Y=1)) = \alpha + \beta\,\eta_i\] donde \(\eta_i\) es el predictor lineal del modelo original. La estimación de \(\beta\) es la pendiente de calibración (calibration slope). Su interpretación es la siguiente:
- \(\beta = 1\) indica calibración perfecta.
- \(\beta < 1\) indica sobreajuste, con probabilidades predichas demasiado extremas.
- \(\beta > 1\) indica subajuste, con probabilidades excesivamente planas.

El sentido de estas métricas es evaluarlas con conjuntos de datos (test) diferentes a aquellos con los que se ha ajustado el modelo (train).

13.8.4 Rendimiento global: el Brier score

El Brier score (Brier, 1950) es una medida global de la calidad de las predicciones probabilísticas en modelos con respuesta binaria. Este indicador cuantifica el error cuadrático medio entre la respuesta observada y la probabilidad predicha, reflejando conjuntamente aspectos tanto de calibración como de discriminación del modelo.

Si \(Y_i \in \{0,1\}\) es la respuesta observada y \(\hat p_i\) es la probabilidad pronosticada por el modelo para el caso \(i\). El Brier score se define como \[\text{Brier}=\frac{1}{n}\sum_{i=1}^{n}\left(Y_i - \hat p_i\right)^2.\]

Valores más pequeños indican un mejor ajuste probabilístico. El Brier score no requiere fijar un umbral de decisión y resulta especialmente informativo cuando el objetivo principal es la estimación de las probabilidades de respuesta positiva. En teoría, un valor de 0 para este indicador supondría un ajuste perfecto, mientras que su máximo, indicando la peor situación, es de 0.25. Sin embargo, este rango no es interpretable sin un contexto; por ejemplo un valor \(Brier = 0.08\) puede ser excelente con una prevalencia del 5% y mediocre con una prevalencia del 50%.

Resumen. Criterios de validación del modelo

La validación del modelo debe integrar de forma conjunta métricas de discriminación y calibración. A continuación se sintetiza esta información:

Dimensión	Métrica	Interpretación
Ajuste global	Test de Hosmer–Lemeshow	Concordancia global entre observados y esperados (interpretar con cautela)
	Diagramas de calibración	Estimación de la función de calibración
Discriminación	AUC	Capacidad del modelo para distinguir entre sujetos con y sin el suceso
Calibración	Calibration-in-the-large	Sesgo global en la estimación del riesgo
	Calibration slope	Adecuación de la escala de las probabilidades
	Brier score	Error cuadrático medio de las probabilidades pronosticadas

En una validación rigurosa, estas métricas deben estimarse preferentemente mediante validación cruzada o validación externa, y complementarse con la inspección visual de curvas ROC y diagramas de calibración.

13.9 Procedimientos de validación interna

Por procedimientos de validación interna se entiende a un conjunto de métodos destinados a evaluar el rendimiento de un modelo predictivo utilizando exclusivamente los datos empleados en su desarrollo. A continuación, se presentan la validación cruzada (CV) y el bootstrap, métodos que proporcionan estimaciones corregidas del rendimiento y permiten valorar la estabilidad del modelo.

13.9.1 Validación cruzada (CV)

Evaluar el modelo únicamente sobre los datos utilizados para ajustarlo conduce a estimaciones optimistas del rendimiento predictivo. Para evitarlo, se emplean técnicas de validación cruzada.

El procedimiento más habitual es la validación cruzada \(K\)-fold:

se divide la muestra en \(K\) subconjuntos disjuntos de tamaño similar, son las particiones o folds;
para cada partición:
- se ajusta el modelo con \(K-1\) subconjuntos,
- se evalúa su rendimiento en el subconjunto restante;
las métricas de validación se promedian sobre las \(K\) iteraciones.

Este procedimiento proporciona una estimación más realista del rendimiento del modelo en datos nuevos y es especialmente recomendable en estudios observacionales con tamaño muestral moderado.

13.9.2 Validación mediante bootstrap

Los procedimientos de remuestreo o bootstrap, constituyen una alternativa robusta a la validación cruzada cuando se desea reducir el sesgo en la estimación del rendimiento predictivo y evaluar la estabilidad del modelo.

13.9.2.0.1 Fundamento del bootstrap

Consideremos un conjunto de datos de tamaño \(n\). El procedimiento de remuestreo consiste en generar \(B\) muestras bootstrap, cada una obtenida mediante muestreo con reemplazo de \(n\) observaciones del conjunto original. En cada muestra bootstrap se ajusta el modelo de regresión logística y se evalúa su rendimiento predictivo. Debido al muestreo con reemplazo, en cada réplica aproximadamente un 36.8% de las observaciones originales no es seleccionada. Estas observaciones constituyen el denominado conjunto out-of-bag (OOB), que puede utilizarse como muestra de validación interna.

13.9.2.0.2 Estimación del rendimiento predictivo

Para cada réplica bootstrap \(b = 1, \ldots, B\), se siguen los pasos:

Ajuste del modelo de regresión logística en la muestra bootstrap.
Predicción del riesgo sobre las observaciones OOB.
Cálculo de la métrica de interés (por ejemplo, AUC, Brier score o sensibilidad).

El rendimiento global del modelo se estima agregando las métricas obtenidas en las \(B\) réplicas, generalmente se usa la media o la mediana, y puede acompañarse de intervalos percentiles bootstrap. Este enfoque reduce el optimismo inherente a la evaluación in-sample y proporciona una estimación más realista del rendimiento fuera de muestra.

13.9.2.1 Rendimientos aparente y corregido

El rendimiento aparente de un modelo predictivo se obtiene cuando el modelo se ajusta y se evalúa utilizando el mismo conjunto de datos. En el contexto de la regresión logística, si denotamos por \(D\) el conjunto de datos de desarrollo y por \(\hat f_D\) el modelo ajustado en dichos datos, el rendimiento aparente se define como:

\[\text{Perf}_{\text{aparente}} = \text{Perf}(D, \hat f_D)\]

Este valor (\(\text{Perf}\) alude a performance, redimiento en inglés) refleja el grado de ajuste del modelo a los datos observados, pero no constituye una estimación válida de su capacidad de generalización. Al haberse optimizado los coeficientes del modelo para maximizar el ajuste en \(D\), el rendimiento aparente tiende a estar sesgado de forma optimista, especialmente en presencia de múltiples covariables, interacciones o tamaños muestrales moderados.

El optimismo del modelo cuantifica cuánto mejor se comporta el modelo en los datos con los que se ajustó en comparación con datos nuevos procedentes de la misma población. Conceptualmente, el optimismo puede expresarse como: \[\text{Optimismo}=\mathbb{E}\big[\text{Perf}(D^*, \hat f_{D^*})-\text{Perf}(D, \hat f_{D^*})\big]\]

donde \(D^*\) representa una remuestra bootstrap de \(D\). El primer término mide el rendimiento del modelo evaluado en la misma muestra utilizada para su ajuste, mientras que el segundo término evalúa el rendimiento de ese mismo modelo cuando se aplica a los datos originales. La diferencia entre ambos refleja el grado medio de sobreajuste inducido por el proceso de estimación del modelo.

La validación mediante bootstrap permite estimar el optimismo sin necesidad de una cohorte externa. Cada remuestra bootstrap reproduce el proceso real de desarrollo de un modelo predictivo: ajuste en una muestra y evaluación en otra. Dado que, en promedio, aproximadamente un 36.8 % de las observaciones no están presentes en cada remuestra, el bootstrap proporciona una aproximación eficiente a la validación interna. El optimismo se estima como el promedio de las diferencias de rendimiento obtenidas a lo largo de un número elevado de remuestras bootstrap.

El rendimiento corregido por optimismo se obtiene restando la estimación del optimismo al rendimiento aparente:

\[\text{Perf}_{\text{corregido}}=\text{Perf}_{\text{aparente}}-\widehat{\text{Optimismo}}\]

Este valor constituye una estimación del rendimiento esperado del modelo en nuevas muestras de la misma población y representa la medida de rendimiento que debe reportarse cuando no se dispone de validación externa independiente.

Interpretación práctica

El rendimiento aparente describe el ajuste del modelo al conjunto de desarrollo.
El optimismo cuantifica el sobreajuste medio inducido por el proceso de modelización.
El rendimiento corregido proporciona una estimación realista de la capacidad predictiva del modelo fuera de la muestra original.

En estudios de predicción clínica y epidemiológica, la corrección por optimismo mediante bootstrap se considera el enfoque estándar para la validación interna de modelos de regresión logística.

13.9.2.2 Métricas de evaluación habituales

En modelos de regresión logística, el bootstrap se emplea habitualmente para validar:

Capacidad discriminativa (AUC).
Precisión global (Brier score).
Calibración (pendiente y constante de calibración).
Estabilidad de los coeficientes del modelo.
Errores estándar empíricos de los parámetros.

Bootstrap y los contrastes de hipótesis

El bootstrap se emplea fundamentalmente para la estimación del rendimiento predictivo y la estabilidad de los parámetros. Su uso directo para la realización de contrastes de hipótesis y la obtención de valores p no es recomendable si no se ha definido explícitamente un procedimiento de contraste bajo la hipótesis nula.

13.9.2.3 Extensiones del bootstrap

Además del bootstrap clásico, se han propuesto diversas extensiones orientadas a mejorar la estimación del rendimiento predictivo, especialmente en presencia de sobreajuste. Estas variantes combinan de forma distinta la información procedente de las muestras bootstrap y de los datos no incluidos en cada remuestreo. A continuación describen los métodos .632 y .632+, ampliamente utilizados en validación de modelos predictivos biomédicos.

13.9.2.3.1 Método .632

Una extensión clásica del bootstrap es el método .632 (Efron y Tibshirani, 1997), que combina el rendimiento aparente (evaluado en la muestra bootstrap) y el rendimiento OOB (cómo se comporta el modelo con los datos no utilizados para su ajuste, el conjunto out-of-bag) según la expresión:

\[\text{Perf}_{.632}=0.368 \cdot \text{Rendimiento}_{\text{aparente}}+0.632 \cdot \text{Rendimiento}_{\text{OOB}}\]

Este método fue propuesto para corregir el sesgo optimista de la evaluación aparente y es especialmente útil en contextos de tamaño muestral reducido.

13.9.2.3.2 Método bootstrap .632+

Este método, propuesto también por Efron y Tibshirani, extiende el estimador bootstrap .632 clásico con el objetivo de corregir su comportamiento en situaciones de sobreajuste severo. Mientras que el método .632 combina el rendimiento aparente del modelo con el rendimiento out-of-bag (OOB) mediante ponderaciones fijas, el método .632+ introduce un peso adaptativo que depende del grado de sobreajuste observado.

El estimador .632+ del rendimiento predictivo se define como:

\[\text{Perf}_{.632+}=(1 - w)\,\text{Perf}_{\text{aparente}}+w\,\text{Perf}_{\text{OOB}}\]

en donde el peso \(w\) se calcula como: \[w = \frac{0.632}{1 - 0.368\,R}\]

siendo \(R\) una medida del sobreajuste relativo, definida por:

\[R =\frac{\text{Perf}_{\text{OOB}} - \text{Perf}_{\text{aparente}}}{\text{Perf}_{\text{no-info}} - \text{Perf}_{\text{aparente}}}\]

El término \(\text{Perf}_{\text{no-info}}\) representa el rendimiento esperado de un modelo sin capacidad predictiva. En el caso del Brier score, esta cantidad viene dada por:

\[\text{Brier}_{\text{no-info}} = \bar y (1 - \bar y)\]

donde \(\bar y\) es la prevalencia del suceso en la muestra.

Para garantizar la estabilidad del estimador, el valor de \(R\) se restringe al intervalo \([0,1]\). Cuando el sobreajuste es pequeño (\(R \approx 0\)), el peso \(w\) se aproxima a 0.632 y el estimador .632+ coincide prácticamente con el .632 clásico. En cambio, cuando el sobreajuste es elevado (\(R \to 1\)), el peso converge a 1 y el estimador se aproxima al rendimiento OOB, reduciendo el sesgo optimista.

Aunque el método .632+ mejora el comportamiento del .632 clásico en escenarios extremos, en el contexto de la validación interna de modelos de regresión logística se considera principalmente un estimador alternativo o de sensibilidad. El enfoque basado en la corrección del rendimiento aparente por optimismo mediante bootstrap continúa siendo el método recomendado para la estimación principal del rendimiento predictivo.

13.9.3 Validación cruzada y bootstrap: similitudes y diferencias conceptuales

Tanto la validación cruzada (CV) como el bootstrap son métodos de remuestreo ampliamente utilizados para evaluar el rendimiento de modelos estadísticos y predictivos cuando no se dispone de una validación externa independiente.

Ambos procedimientos persiguen un objetivo común, que es estimar cómo se comportará un modelo cuando se aplique a nuevos datos procedentes del mismo proceso generador.

Para ello, los dos métodos:

reutilizan el conjunto de datos original,
separan observaciones para entrenamiento y evaluación,
repiten el proceso múltiples veces,
y agregan los resultados obtenidos.

Sin embargo, a pesar de esta similitud superficial, la cantidad estadística que estiman y la lógica conceptual que los sustenta son diferentes.

La validación cruzada tiene como objetivo principal estimar el error de predicción esperado en datos no observados. En un esquema típico de k-fold cross-validation:

El conjunto de datos se divide en k subconjuntos (folds).
En cada iteración:
- el modelo se ajusta utilizando k - 1 folds,
- se evalúa en el fold restante, que actúa como conjunto de prueba.
El rendimiento final se obtiene promediando los resultados de las k iteraciones.

Desde el punto de vista conceptual, la CV simula la disponibilidad de múltiples muestras independientes procedentes de la misma población. Por este motivo, suele interpretarse como un sustituto de la validación externa cuando esta no es factible.

Por su parte, el bootstrap persigue un objetivo distinto. En lugar de imitar nuevas muestras independientes, se centra en cuantificar el optimismo del modelo, es decir, la sobrestimación de su rendimiento debida al ajuste sobre los mismos datos utilizados para su evaluación.

El procedimiento habitual de validación interna mediante bootstrap es el siguiente:

Se generan múltiples muestras bootstrap mediante remuestreo con reemplazo del conjunto original.
En cada muestra bootstrap:
- se ajusta el modelo,
- se evalúa su rendimiento en la propia muestra bootstrap (rendimiento aparente),
- y se evalúa en el conjunto original.
La diferencia entre ambos rendimientos cuantifica el optimismo del modelo.

Formalmente, ya hemos visto que:

\[Optimismo = Rendimiento_{bootstrap} - Rendimiento_{original}\]

y que el rendimiento corregido se obtiene restando el optimismo estimado al rendimiento aparente:

\[Rendimiento_corregido = Rendimiento_aparente - Optimismo\]

Así, el bootstrap no pretende crear un conjunto de prueba independiente, sino corregir explícitamente el sobreajuste.

Característica	Validación cruzada	Bootstrap
Tamaño del conjunto de entrenamiento	Menor que n	Aproximadamente n
Objetivo principal	Estimar error de generalización	Estimar y corregir optimismo
Tratamiento del sobreajuste	Implícito	Explícito
Estabilidad en muestras pequeñas	Menor	Mayor
Uso tradicional	Machine learning	Modelos clínicos y pronósticos

Cabe destacar que, en el bootstrap, cada muestra contiene observaciones repetidas y, en promedio, aproximadamente el 36.8% de las observaciones originales quedan fuera (out-of-bag). No obstante, estas observaciones no constituyen un conjunto de prueba en el sentido clásico.

En el ámbito de la modelización clínica y pronóstica, autores de referencia como Harrell (2015) y Steyerberg (2019) recomiendan el uso del bootstrap como método preferente de validación interna, especialmente cuando:

el tamaño muestral es limitado,
el modelo incluye selección de variables,
o existe riesgo elevado de sobreajuste

En comparación con la validación cruzada, el bootstrap presenta menor sesgo en la estimación del rendimiento predictivo, a costa de un mayor coste computacional. En particular, resulta ventajoso en situaciones de tamaño muestral pequeño o cuando se desea evaluar la estabilidad del modelo. En términos conceptuales, la validación cruzada evalúa el rendimiento medio del modelo condicionado a una partición concreta de los datos, mientras que el bootstrap estima el rendimiento esperado del procedimiento de modelización completo, lo que explica su menor sesgo en contextos de tamaño muestral reducido.

La Tabla @ref(tab:cv-bootstrap) resume las principales diferencias conceptuales y prácticas entre la validación cruzada y el bootstrap como métodos de validación interna de modelos de regresión logística. El tamaño del entrenamiento indica la proporción de observaciones empleadas para estimar el modelo en cada iteración del procedimiento de validación, lo que influye directamente en el sesgo y la estabilidad de la estimación del rendimiento.

Validación cruzada vs. bootstrap

Aspecto	Validación cruzada (CV)	Bootstrap	Observaciones
Esquema de remuestreo	Partición en \(K\) bloques disjuntos	Remuestreo con reemplazo de tamaño \(n\)	CV es preferible cuando el tamaño muestral es grande
Tamaño del entrenamiento	\[\frac{K-1}{K} \cdot n\]	\[n\]	Bootstrap utiliza toda la información disponible
Conjunto de validación	Bloque excluido en cada iteración	Observaciones out-of-bag (\(\approx\) 36.8%)	Usar OOB o método .632 en bootstrap
Sesgo del rendimiento	Moderado	Bajo	Bootstrap reduce el optimismo
Varianza del estimador	Moderada	Generalmente menor	Ventaja del bootstrap si \(n\) es pequeño
Dependencia de partición	Sí	No	CV debe repetirse o estratificarse
Uso principal	Comparación y selección de modelos	Validación interna del modelo final	No mezclar roles
Selección de predictores	Frecuente	No recomendada sin corrección	Evitar selección ingenua con bootstrap
Métricas habituales	AUC, accuracy	AUC, Brier, calibración	Priorizar AUC y calibración
Coste computacional	Bajo–moderado	Alto	Elegir CV o bootstrap según los recursos
Interpretación	Rendimiento medio fuera de muestra	Rendimiento esperado del procedimiento	Bootstrap es más inferencial
Contexto ideal	Estudios exploratorios	Modelos confirmatorios	Elegir según objetivo del análisis

13.10 Sobreajuste (shrinkage)

Se habla de sobreajuste (overfitting) cuando un modelo se adapta en exceso a las particularidades de los datos con los que ha sido estimado, ajustando no solo la señal real sino también el ruido aleatorio. Como consecuencia, el modelo muestra un rendimiento aparentemente alto en la muestra de ajuste, pero peor capacidad de generalización cuando se aplica a nuevos datos.

En modelos predictivos, el sobreajuste suele manifestarse como probabilidades predichas demasiado extremas, pendientes de calibración inferiores a 1 y optimismo en las estimaciones del rendimiento.

Este problema es especialmente frecuente cuando el tamaño muestral es limitado en relación con la complejidad del modelo. En este contexto, los procedimientos de validación interna, como el bootstrap, permiten estimar el grado de optimismo del rendimiento del modelo y ponen de manifiesto la necesidad de ajustar sus coeficientes.

El shrinkage (contracción) se refiere al conjunto de técnicas destinadas a reducir la magnitud de los coeficientes de un modelo predictivo con el fin de corregir el sobreajuste introducido durante su desarrollo. Al disminuir el optimismo asociado al ajuste en la muestra original, estas técnicas mejoran la estabilidad del modelo, su capacidad de generalización y la calibración de las probabilidades predichas cuando el modelo se aplica a nuevos datos. En muestras finitas, los coeficientes tienden a estar inflados en valor absoluto, lo que se traduce en probabilidades predichas excesivamente extremas y en una sobreestimación del rendimiento aparente.

Desde un punto de vista intuitivo, el shrinkage consiste en hacer que el modelo sea menos extremo en sus predicciones, disminuyendo la magnitud de los coeficientes estimados. Formalmente, en regresión logística el shrinkage suele implementarse mediante la aplicación de un factor de contracción uniforme a los coeficientes del modelo:

\[\beta_i^{\text{sh}} = s \cdot \beta_i, \qquad 0 < s \le 1,\qquad 1 \le i \le k\]

donde \(\beta_i\) representa el coeficiente original y \(s\) es el factor de shrinkage. Un valor \(s = 1\) indica ausencia de corrección, mientras que valores menores que 1 implican una contracción progresiva de los coeficientes.

El shrinkage se aplica a todos los coeficientes del modelo salvo a la constante \(\beta_0\). Sin embargo, dicho coeficiente debe de reajustarse para preservar la calibración global. La fórmula clásica para ello es

\[\beta_0^* = \text{logit}(\bar{y})-\sum_{i=1}^k{\beta_i^{sh} \bar{x}_i},\]

de manera que el modelo final contraído es

\[\text{logit}(p)=\beta_0^* +\sum_{i=1}^k{\beta_i^{sh} x_i}.\]

En el contexto de la validación interna, el factor de shrinkage puede estimarse de forma explícita a partir de la pendiente de calibración. En particular, si se denota por \(\hat{\gamma}\) la pendiente de calibración estimada mediante validación bootstrap, el factor de shrinkage uniforme viene dado por:

\[s = \hat{\gamma}\]

De manera equivalente, cuando el shrinkage se basa en la estimación del optimismo mediante bootstrap, el factor puede expresarse como:

\[s = 1 - \text{optimismo}\]

donde el optimismo representa la diferencia media entre el rendimiento aparente del modelo y su rendimiento evaluado en muestras bootstrap re-muestreadas y posteriormente validadas sobre los datos originales.

La validación mediante bootstrap permite así no solo estimar un rendimiento corregido por optimismo, sino también derivar un factor de shrinkage que puede aplicarse directamente a los coeficientes del modelo. Este procedimiento conduce a un modelo final más parsimonioso y mejor calibrado, con un comportamiento predictivo más fiable en nuevas muestras.

Por su impacto directo sobre la calibración y su fundamentación en validación interna, el shrinkage uniforme estimado mediante bootstrap constituye una estrategia ampliamente recomendada en el desarrollo y validación de modelos predictivos, particularmente en el ámbito clínico.