Tema 3 Probabilidad y variable aleatoria

1 Introducción

En este tema se abordan las herramientas conceptuales y matemáticas que permiten dar el salto desde la descripción de los datos a la toma de decisiones fundamentadas en salud.

Las teorías de la probabilidad y de la variable aleatoria constituyen el puente formal entre la incertidumbre inherente a la práctica clínica y la construcción de conocimiento científico: la inferencia en ciencias de la salud.

2 Aleatoriedad

Determinismo y aleatoriedad

Se habla de

Determinismo: cuando un fenómeno tiene un resultado completamente predecible una vez conocidas sus condiciones iniciales:

mismas condiciones → mismos resultados

Ejemplos:

La hora de salida del sol cada mañana según la posición terrestre: conocidas la fecha, la latitud y la longitud, se puede predecir con exactitud.
Si una bomba de infusión volumétrica está programada para administrar 20 ml/h, y el equipo funciona correctamente, el volumen administrado en una hora será exactamente 20 ml.
La respuesta fisiológica del organismo 1 mg de adrenalina intravenosa, siempre produce (en ausencia de variabilidad biológica o patológica añadida) un aumento inmediato de la frecuencia cardiaca y de la presión arterial.

Aleatoriedad: cuando un fenómeno no puede predecirse con certeza (aunque sean conocidas las condiciones iniciales) y solo se puedan describir sus posibles resultados:

mismas condiciones → diferentes resultados posibles

Ejemplos:

Los juegos de azar describen perfectamente la noción de aleatoriedad.
Dos niños que tengan la misma edad y la misma altura, no tienen el mismo peso.
El cuadro clínico desarrollado o la mortalidad provocada por SARS-Cov2.
La aparición de efectos secundarios tras la administración de un fármaco. Aunque dos pacientes reciban la misma dosis en las mismas condiciones, no se puede predecir con certeza si alguno desarrollará un efecto adverso.

En Ciencias de la Salud, siempre está presente la aleatoriedad

En la práctica, la mayoría de los fenómenos de interés combinan un componente sistemático y otro aleatorio.
- Lo normal, es que un niño de 5 años pese menos que uno de 10: hay un efecto causal de la edad;
- Pero no todos los niños de la misma edad pesan igual: aparece variabilidad aleatoria;
- Y siempre que se mide, se añade el error de medida.
Al estudiar la relación entre diferentes variables, la modelización estadística busca identificar el componente sistemático (determinista) y separar su efecto del componente aleatorio propio de los datos.

Peso infantil = efecto sistemático de la edad (señal) + variabilidad individual (ruido) + error de medida (ruido)

Experimento aleatorio

Un experimento aleatorio es un procedimiento que se puede repetir bajo condiciones similares, pero cuyo resultado no puede predecirse con certeza de antemano, es aleatorio.

Cada repetición puede producir distintos resultados posibles, llamados sucesos elementales

Ejemplo: Medir la presión arterial de un paciente recién ingresado: cada vez que se realiza la medición, el resultado puede variar, aunque las condiciones sean similares.

3 Probabilidad

Dado que los fenómenos propios del área de Ciencias de la Salud no puede predecirse de forma determinista, es necesaria una herramienta formal que permita cuantificar la incertidumbre: la probabilidad.

La probabilidad es una medida (numérica) que cuantifica el grado de incertidumbre asociado a la ocurrencia de un suceso, tomando valores entre 0 (imposibilidad) y 1 (certeza).

La probabilidad permite manejar la incertidumbre inherente a los procesos clínicos

Por ejemplo, se habla de la

Probabilidad de que un paciente presente fiebre.
Probabilidad de que se responda de forma positiva a un tratamiento.
Probabilidad de que se cometa un error en el diagnóstico.

El concepto de probabilidad es clave en inferencia

Algunas situaciones inferenciales en la práctica clínica

Estudiaremos la probabilidad de que la media real de días de estancia hospitalaria se sitúe entre 4 y 6 días.
Analizaremos la probabilidad de que más del 15 % de los pacientes ingresados desarrollen úlceras por presión.
Nos preguntaremos cuál es la probabilidad de observar diferencias en la glucemia entre pacientes diabéticos tratados y no tratados, bajo la hipótesis de que el tratamiento no es efectivo.
Estudiaremos la probabilidad de encontrar un número de efectos adversos tan bajo en un grupo frente a otro si, en realidad, ambos grupos tuvieran el mismo riesgo.
Consideraremos la probabilidad de que los pacientes con la nueva técnica de movilización se recuperen antes únicamente por azar, sin que la técnica tenga un efecto real.
Nos preguntaremos cuál es la probabilidad de observar una reducción tan grande en casos de gripe si la vacuna realmente no cambiase el riesgo.
Evaluaremos la probabilidad de observar una reducción del dolor tan grande como la encontrada si, en realidad, el nuevo analgésico no fuese mejor que el habitual.

Necesitamos la probabilidad, como medida, para valorar si los resultados observados podrían explicarse simplemente por el azar.

3.1 Aproximaciones a la probabilidad

La probabilidad puede entenderse de distintas formas porque no todas las situaciones inciertas son iguales.

El marco axiomático de Kolmogórov proporciona la definición matemática general de probabilidad.

Definición axiomática de Kolmogorov

Andréi Nikoláyevich Kolmogórov (1903-1987) propuso una definición basada en tres reglas (los axiomas):

La probabilidad es una medida que asigna un número entre 0 y 1 a cada suceso, y que debe cumplir tres reglas básicas para ser coherente:

No negatividad. La probabilidad de cualquier suceso es siempre un número mayor o igual que 0; no existen probabilidades negativas.
Probabilidad total igual a 1. Si consideramos todos los resultados posibles juntos, la probabilidad de que ocurra “algo” es 1 (el 100 %). Esto representa la certeza de que algún resultado debe producirse.
Aditividad para sucesos incompatibles. Si dos sucesos no pueden ocurrir a la vez (se dice que son incompatibles), la probabilidad de que ocurra uno u otro es la suma de sus probabilidades.

Por ejemplo, entre los motivos más frecuentes de ingreso en Urgencias Pediátricas se encuentran la fiebre, la dificultad respiratoria y el traumatismo leve. Si consideramos los sucesos ‘el niño ingresa por fiebre’ y ‘el niño ingresa por traumatismo leve’, la probabilidad de que ingrese por uno u otro es la suma de las probabilidades individuales. Son sucesos incompatibles, porque un mismo paciente no puede ingresar simultáneamente por fiebre y por traumatismo leve.

Notación:

Si llamamos $\small A$ a un suceso (por ejemplo, $\small A$ =“tener fiebre”), $\small \,\Pr\left(A\right)$ indica la probabilidad de que este ocurra.

Observaciones:

Si un suceso tiene probabilidad 0 de ocurrir se dice que este suceso es imposible.
Si un suceso tiene probabilidad 1 de ocurrir se dice que este suceso es seguro.
Un suceso cuya probabilidad de ocurrir es mayor a 0 y menor a 1, es un suceso posible; le llamaremos raro o frecuente según dicha probabilidad.
A menudo se expresa la probabilidad en forma de porcentaje, pero a nivel técnico (por ejemplo, al usar las funciones de R), siempre debe manejarse como un valor entre 0 y 1.

Los axiomas de Kolmogorov dicen cómo debe comportarse la probabilidad asociada a cualquier suceso, pero no proporcionan un método para determinarla. Aquí surgen varias aproximaciones: la de Laplace, la frecuentista y la bayesiana.

Todas respetan los principios axiomáticos
Cada una se adapta a una situación específica

Regla de Laplace

La regla de Laplace (debida a Pierre-Simon Laplace, 1749-1827) establece que, cuando todos los resultados posibles de un experimento son igual de probables, la probabilidad de un suceso se puede calcular dividiendo el número de resultados favorables entre el número total de resultados posibles.

\[ \Pr\left( A \right) = \frac{\text{número de casos favorables a } A}{\text{número total de casos posibles}} \]

Esta regla es particularmente útil para calcular probabilidades en los juegos de azar: los resultados individuales son igualmente probables y el número total de resultados es limitado y conocido.

En ciencias de la salud, los resultados rara vez son equiprobables y, por lo general, tampoco podemos conocer de antemano cuántos casos son favorables a un suceso ni cuántos son posibles. Por ello, la regla de Laplace apenas resulta útil en este ámbito.

Para medir la incertidumbre de manera realista, recurrimos a la probabilidad frecuentista, basada en la observación repetida de los sucesos clínicos.

Aproximación frecuentista

Desde el punto de vista frecuentista, la probabilidad de un suceso se interpreta como la proporción de veces que ocurre cuando repetimos un mismo experimento muchas veces, en condiciones similares. A esa proporción observada le llamamos frecuencia relativa.

A medida que el número de repeticiones aumenta, la frecuencia relativa se estabiliza alrededor de un valor, y ese valor estable es lo que llamamos probabilidad.
Esta aproximación cuantifica la incertidumbre usando frecuencias en repeticiones

Figura 2: Estabilización de la frecuencia relativa conforme aumenta el número de repeticiones ($n$)

Así, podemos definir la probabilidad asociada a la ocurrencia de un suceso $\small A$ como

\[ \displaystyle \Pr(A) = \lim_{n \to \infty} \frac{n_{A}}{n} \]

en donde $\small n$ es el número de veces que se repite el experimento y $\small n_A$ el número de veces que ocurre el suceso $\small A$.

Ejemplo: en los turnos de urgencias se viene registrando, desde hace tiempo, que aproximadamente 12 de cada 100 pacientes llegan con fiebre de forma consistente. Entonces $\small \Pr\left(\text{fiebre al ingreso}\right) \approx 0.12$.

Aproximación bayesiana

En el enfoque bayesiano, la probabilidad (probabilidad a posteriori) se obtiene combinando lo que creíamos antes (probabilidad a priori) con la información que aportan los datos (la verosimilitud).

El enfoque bayesiano interpreta la probabilidad como un grado de creencia razonable sobre un suceso, basado en la información disponible. La probabilidad se obtiene como el producto normalizado de lo que creemos por lo que muestran los datos:

\[ \displaystyle \text{Probabilidad }(posteriori) = \frac{\text{lo que creemos } (priori) \times \text{verosimilitud}}{\text{evidencia}} \]

Esta creencia no es fija: se actualiza cuando se obtiene nueva evidencia.

Ejemplo: Se sabe que la prevalencia de determinado tipo de infección es del 10 % (esta es la probabilidad a priori). Un paciente se somete a un test diagnóstico que da positivo en el 95 % de los casos en los que realmente hay infección (la sensibilidad del test); esta es la verosimilitud. Si el resultado del test es positivo, esa nueva información hace que la probabilidad de que el paciente tenga la infección sea mucho mayor que el 10 % inicial.
El resultado del test permite actualizar la probabilidad a priori y obtener la probabilidad a posteriori.

El enfoque bayesiano es especialmente útil en ciencias de la salud, donde casi nunca se parte de cero: siempre se cuenta con información previa sobre el paciente, la prevalencia de la enfermedad o los resultados de pruebas anteriores.

3.2 Cálculo básico de probabilidades

Notación

Dados dos sucesos $\small A$ y $\small B$:

Suceso complementario de $\small A$: denotado habitualmente como $\small A^c$, es el suceso formado por todos los resultados posibles del experimento que son diferentes al suceso $\small A$
Unión de sucesos: $\small A \cup B$ es el suceso formado por “ocurre $\small A$ o bien ocurre $\small B$ o bien ocurren los dos”
Intersección de sucesos: $\small A \cap B$ es el suceso formado por “ocurre $\small A$ y también ocurre $\small B$”

A continuación, vemos algunas reglas básicas de cálculo:

Probabilidad del suceso complementario: que no ocurra un suceso

\[\boxed{\Pr\left(A^{c}\right) = 1-\Pr\left(A\right)}\]

Ejemplo clínico: La prevalencia de la diabetes de tipo 2 en España es del 11%. Esto quiere decir que, elegido un sujeto al azar de esta población, la probabilidad de que tenga diabetes es

\[ \Pr\left(\text{diabetes}\right)=0.11 \]

El suceso complementario es “no tener diabetes”, y su probabilidad asociada será:

\[ 1-\Pr\left(\text{diabetes}\right)=1-0.11=0.89 \]

Probabilidad de la unión de sucesos: que ocurra un suceso u otro o los dos

Para determinar la probabilidad de que ocurra $\small A$ o $\small B$ hay que comenzar preguntándose si $\small A$ y $\small B$ son compatibles (pueden ocurrir a la vez) o incompatibles (no pueden ocurrir a la vez)

1. Sucesos incompatibles (mutuamente excluyentes)

No pueden ocurrir a la vez, es decir $\small \Pr(A \cap B)=0$.
Regla de la unión para sucesos incompatibles:

\[ \displaystyle \boxed{\Pr(A \cup B)=\Pr(A)+\Pr(B)} \]

Ejemplo: Motivo de ingreso en Urgencias Pediátricas. Sabiendo que $\Pr(\text{fiebre}) = 0.45$ y $\Pr(\text{trauma}) = 0.20$ (son las prevalencias de cada causa). Un niño no puede ingresar por ambas causas a la vez (son sucesos incompatibles). La probabilidad de que ingrese por una u otra es:

\[ \displaystyle \Pr(\text{fiebre} \cup \text{trauma}) = 0.45 + 0.20 = 0.65 \]

2. Sucesos compatibles

Pueden ocurrir simultáneamente: $\small \Pr(A \cap B)>0$.
La regla general de la unión de sucesos es:

\[ \displaystyle \boxed{\Pr(A \cup B)=\Pr(A)+\Pr(B)-\Pr(A \cap B)} \]

Ejemplo: Infección urinaria no complicada (ITU). Aproximadamente el 30% de las ITU cursan con fiebre. La sensibilidad de la PCR para detectar Escherichia coli (el patógeno más habitual) es del 95%. En una muestra clínica se observa que alrededor del 12% de los casos presentan fiebre y PCR positiva a la vez. Se desea calcular la probabilidad de que un paciente con sospecha de ITU presente fiebre o PCR positiva.

La información que conocemos es: $\small P(\text{fiebre}) = 0.30$, $\small P(\text{PCR}^{+}) = 0.95$, $\small P(\text{fiebre} \cap \text{PCR}^{+}) = 0.12$. Entonces

\[ \Pr(\text{fiebre} \cup \text{PCR}^{+})= 0.30 + 0.95 - 0.12 = 0.83 \]

Probabilidad de la intersección de sucesos: que ocurra un suceso y el otro

Para determinar la probabilidad de que ocurran $\small A$ y $\small B$ hay que comenzar preguntándose si $\small A$ y $\small B$ son independientes (que ocurra uno no afecta a la probabilidad de que ocurra el otro) o dependientes (que ocurra uno sí que afecta a la probabilidad de que ocurra el otro)

1. $\small A$ y $\small B$ son sucesos independientes

Que ocurra uno no modifica la probabilidad del otro.
Regla de la intersección para sucesos independientes:

\[ \displaystyle \boxed{\Pr(A \cap B)=\Pr(A)\Pr(B)} \]

Ejemplo: En una consulta de enfermería comunitaria se observa que la prevalencia de la hipertensión arterial es del 30%. Por otra parte, la proporción de población vacunada frente a la gripe común es del 40%. Se trata de determinar la probabilidad de que un paciente sea hipertenso y esté vacunado.

La información es $\small P(\text{HTA}) = 0.30$, $\small P(\text{vacunado gripe}) = 0.40$. Ambos sucesos son compatibles (una persona puede ser hipertensa y estar vacunada) y no guardan relación causal entre sí, son independientes. Por lo tanto, la probabilidad de que una persona sea hipertensa y esté vacunada es:

\[ \displaystyle \Pr(\text{HTA} \cap \text{vacunado gripe}) = 0.30 \times 0.40 = 0.12 \]

2. $\small A$ y $\small B$ son sucesos dependientes

La probabilidad de uno cambia cuando sabemos que ha ocurrido el otro.
La Probabilidad de $\small A$ condicionada a $\small B$ se define como:

\[ \displaystyle \boxed{\Pr(A \mid B)=\frac{\Pr(A \cap B)}{\Pr(B)}} \]

esto es “la probabilidad de que ocurra $\small A$ sabiendo que ha ocurrido $\small B$”. Es decir, la probabilidad de que coincidan ambos sucesos dividida por la probabilidad de que realmente ocurra el suceso condicionante $\small B$.

Si de la expresión anterior, despejamos la probabilidad conjunta de que ocurran $\small A$ y $\small B$”, obtenemos:

\[ \displaystyle \boxed{\Pr(A \cap B) = \Pr(A \mid B) \Pr(B)} \]

Ejemplo: En una UCI se observa que la probabilidad de que un paciente desarrolle una neumonía asociada a ventilación mecánica (NAVM) es del $\small 10\%$. La proporción de pacientes que están intubados es del $\small 20\%$, pero la probabilidad de desarrollar NAVM entre los intubados es mucho mayor: $\small \Pr(\text{NAVM} \mid \text{intubado}) = 0.30$.

Como la probabilidad de NAVM depende de si el paciente está intubado, ambos sucesos son dependientes. La probabilidad de que un paciente esté intubado y además desarrolle NAVM es:

\[ \Pr(\text{NAVM} \cap \text{intubado}) = \Pr(\text{NAVM} \mid \text{intubado})\,\Pr(\text{intubado}) = 0.30 \times 0.20 = 0.06. \]

4 Variable aleatoria

Una variable aleatoria (VA) es una función que asigna un número a cada resultado posible de un experimento aleatorio.

Dada una característica de interés, el valor observado en un paciente es un dato.
Una variable aleatoria es el modelo que describe cómo se distribuyen los datos posibles en la población
- La población aporta la variabilidad real.
- La variable aleatoria aporta la formalización matemática de esa variabilidad.
El concepto de variable aleatoria conecta la teoría de la probabilidad con la inferencia estadística, pues proporciona el marco matemático para describir la variabilidad y la incertidumbre de los fenómenos en la población.
- Precisamente, la inferencia estadística consiste en utilizar los datos observados en una muestra para extraer información sobre la variable aleatoria en la población.
Podemos clasificar las variables aleatorias en dos grandes grupos:
- Variables aleatorias discretas (VAD) ← toman valores enteros, son los recuentos en general.
- Variables aleatorias continuas (VAC) ← toman valores reales, son las medidas en general.

Variable estadística ≠ Variable aleatoria

Cuando recogemos información en la práctica —el sexo del paciente, su nivel de dolor o su presión arterial, el número de ingresos diarios en el hospital, etc.— hablamos de tipos de datos (cualitativos y cuantitativos), que describen la naturaleza del valor observado y su métrica.
En cambio, una variable aleatoria no es el dato observado, sino un modelo matemático que representa un fenómeno incierto antes de conocer el resultado de su observación.
Una variable aleatoria:
- asigna un valor numérico a cada resultado posible de un experimento aleatorio,
- está asociada a una distribución de probabilidad que describe la incertidumbre del fenómeno,
- permite calcular probabilidades, simular escenarios clínicos y realizar inferencia estadística.
Por tanto, la variable aleatoria no es el dato observado, sino su representación probabilística. Y como herramienta matemática, debe ser siempre numérica.

Formalizar es tomar un fenómeno real, describirlo con precisión y expresarlo mediante un modelo matemático.

Existe una correspondencia natural entre los datos cuantitativos (discretos o continuos) y las variables aleatorias del mismo tipo (discretas o continuas).
Los datos categóricos, mantienen esta correspondencia cuando las categorías se codifican numéricamente o al considerar la frecuencia con que aparecen.

Ejemplos:

Al medir la glucemia, obtenemos un valor concreto (dato cuantitativo continuo).
Pero antes de medirla, el resultado es incierto y lo modelizamos como una variable aleatoria continua.
El sexo del paciente es un dato categórico. No es una variable aleatoria por sí mismo.
Sin embargo, el número de mujeres en una muestra de $\small n$ pacientes sí constituye una variable aleatoria; ese recuento puede variar entre diferentes muestras.

La realización de una variable aleatoria $\small X$ es el valor numérico $\small x$ que se obtiene al observar el resultado del experimento en una ocasión concreta.

Ejemplo

En un servicio de urgencias podemos definir la variable aleatoria $\small X$ como la saturación de oxígeno (SpO₂) al ingreso de un paciente.

Esta variable representa el fenómeno general que queremos estudiar, caracterizado por la incertidumbre propia de la población atendida. Sin embargo, cuando medimos a un paciente concreto y obtenemos, por ejemplo, una lectura de $\small 92$%, ese valor específico, que podemos denotar por $\small x=92$%, constituye una realización de $\small X$

“$\small X$” es la variable, “$\small x$” es un valor numérico, su realización; escribimos $\small X=x$ para indicar que la variable aleatoria $\small X$ toma un valor $\small x$.

Si en otros pacientes observamos saturaciones de oxígeno $\small x=97$% o $\small x=92$%, cada uno de esos valores constituye otra realización de la misma variable aleatoria $\small X$.

Así, la variable aleatoria es el concepto teórico que modeliza el fenómeno clínico, mientras que las realizaciones son los datos concretos de esa variable que recogemos en la práctica asistencial.

5 Caracterización de las variables aleatorias

Distribución de probabilidad

Por distribución de probabilidad de una variable aleatoria debemos entender la descripción de qué valores puede tomar y con qué probabilidad, en el caso discreto, o con qué densidad de probabilidad, en el caso continuo, lo hace.

Según el tipo de variable aleatoria, distinguimos:

VA Discreta: Su distribución se describe mediante una función de probabilidad, $\small p(X)$:
- Esta función asigna a cada valor posible una probabilidad exacta: $\small p(x_i)=\Pr(X=x_i)$.
- Como sabemos, las probabilidades deben ser ≥ 0 y sumar 1: $\small \sum{p(x_i)=1}$
VA Continua: Su distribución se describe mediante una función de densidad, $\small f(X)$:
- Esta función no asigna directamente probabilidades a valores aislados.
- La probabilidad se obtiene como el área bajo la curva definida por $\small f(X)$.
- El área bajo toda la curva vale 1.

Figura 3: Función de probabilidad (izda) y función de densidad (dcha) de dos variables aleatorias.

La función de probabilidad o de densidad acumuladas se llaman funciones de distribución $\small F(X)$.
Dado un valor $\small x$ de la VA $\small X$, la función de distribución permite obtener $\small \Pr(X \le x)$.

Parámetros de la distribución

La forma de la distribución de una variable aleatoria queda determinada por sus parámetros
- Los parámetros de la distribución representan matemáticamente las características reales de la población.
- Un parámetro de la distribución es la versión matemática del parámetro poblacional: ambos describen la misma característica, pero uno en el mundo real y el otro en el modelo probabilístico.
- Tanto los parámetros de una distribución como los parámetros poblacionales, se representan habitualmente con letras del alfabeto griego. Esto permite distinguirlos claramente de los estadísticos muestrales. Habitualmente:
  - $\small \mu\,\,$ representa la media poblacional,
  - $\small \sigma^2$ y $\small \sigma\,\,$ representan la varianza y la desviación típica, respectivamente,
  - $\small \pi\,\,$ la proporción,
  - etc.

Medidas derivadas de la distribución: esperanza y varianza

Del mismo modo que en la descripción estadística de una muestra utilizamos los estadísticos media y varianza para resumir la posición central y la variabilidad de una distribución de frecuencias, ahora introducimos los conceptos de esperanza matemática y varianza como medidas análogas, pero aplicadas a la distribución de una variable aleatoria:
- La esperanza matemática de una VA, $\small \mathbb{E}(X)$, es el valor central de su distribución de probabildad (VAD) o de densidad de probabilidad (VAC).
  - Es el valor promedio que esperaríamos a largo plazo si pudiéramos observar la variable indefinidas veces.
  - Podemos decir que es la media teórica.
- La varianza de una VA, $\small \mathrm{Var}(X)$, cuantifica la variabilidad esperada en dicha distribución.
  - En el ámbito clínico, la varianza indica cuánto fluctúa una medida en la población. Por ejemplo, cuánto varían las presiones arteriales, los niveles de glucemia o los tiempos de recuperación tras una intervención.
Con frecuencia, la esperanza y la varianza coinciden con parámetros de la distribución, pero no siempre es así

6 Distribuciones de variables aleatorias

Vamos a estudiar cómo diferentes modelos de distribución de probabilidad describen el comportamiento de los datos observados en Enfermería
- Partiremos de modelos discretos simples —uniforme y Bernoulli— para considerar después dos distribuciones de relevancia en Ciencias de la Salud, la distribución binomial y la distribución de Poisson.
- Finalmente, veremos la distribución continua de mayor interés en la estadística aplicada, la distribución normal.
Este recorrido permitirá interpretar fenómenos clínicos habituales y comprender las bases estadísticas de la toma de decisiones en salud.

6.1 Distribución Uniforme Discreta

La distribución uniforme discreta describe situaciones en las que un conjunto limitado de resultados posibles tiene la misma probabilidad de ocurrir.
- Es decir, esta distribución caracteriza experimentos aleatorios en donde cada resultado es igual de probable que los demás.
- Es uno de los modelos más simples de distribución y nos ayuda a entender qué es una variable aleatoria y cómo asignamos probabilidades.
- Según este modelo, si un experimento aleatorio puede generar $\small k$ resultados posibles, la probabilidad de observar cada uno de ellos es \[ \displaystyle \Pr(X=x_i)=\frac{1}{k} \]

Ejemplo

Se desea seleccionar aleatoriamente a uno de los 15 pacientes de una planta para revisar la correcta aplicación de una técnica asistencial.

Consideramos la variable aleatoria $\small X$ = número que identifica al paciente.
Por lo tanto, los valores posibles de esta VA son $\small \lbrace1,2,\dots,k=15\rbrace$
Cada paciente $\small x_i$ tiene una probabilidad $\small 1/15=0.0667$ (el $\small 6.7\%$) de ser elegido. La función de probabilidad de $\small X$ es entonces

\[ \displaystyle \Pr(X=x_i)=\frac{1}{15} \]

Figura 4: Función de probabilidad de la distribución $\small \mathcal{U}(1,15)$.

Observaciones:

Se trata de una distribución “plana”.
Es la distribución asociada a los juegos de azar (o debería serlo).
Este modelo tiene un único parámetro que lo caracteriza: el número de resultados posibles $\small k$.

Notación: Cuando una variable aleatoria $\small X$ tiene distribución uniforme con valores desde 1 hasta $\small k$, se indica

\[ \displaystyle X \sim \mathcal{U}(1,k) \]

El símbolo “$\sim$” se lee “se distribuye como”.

El muestreo aleatorio simple

La distribución uniforme discreta se relaciona de forma natural con el concepto de muestra aleatoria simple (MAS)
- Precisamente, una MAS se define como un procedimiento de muestreo en el que cada sujeto, historia clínica o registro de interés posee: la misma probabilidad de inclusión en la muestra y su elección es independiente de la de los demás, lo que garantiza su representatividad.
- Matemáticamente, si la población tiene $\small N$ elementos, la probabilidad de seleccionar cualquiera de ellos debe de ser $\small 1/N$, lo que coincide exactamente con la estructura de una distribución uniforme discreta.

El código en R para seleccionar una MAS de una población de tamaño $\small N$ es:

# Población: registros o pacientes (supongamos que los registros del hospital son N=1000)
N <- 1000
poblacion <- 1:N

# Selección MAS de tamaño n=10 (elegimos un tamaño pequeño para ver la salida completa)
n <- 10
MAS <- sample(poblacion, n)

sort(MAS) # utilizamos sort() para que muestre los valores ordenados

 [1]  35 305 380 425 461 465 515 618 835 875

El código devuelve el número identificativo de los pacientes que deben pertenecer a la muestra. Cada vez que ejecutemos este código, nos dará un listado diferente.

En los textos de estadística, son clásicas las tablas de números aleatorios: un listado de dígitos generados sin ningún patrón predecible, organizado normalmente en filas y columnas, que se utiliza para seleccionar muestras o realizar simulaciones de forma aleatoria.

La distribución uniforme no solo sirve como modelo teórico, sino como fundamento probabilístico del muestreo aleatorio simple, una técnica esencial en investigación para obtener datos válidos y reducir sesgos.

6.2 Distribución de Bernoulli

La distribución de Bernoulli describe situaciones en las que un experimento solo puede producir dos resultados posibles, típicamente llamados éxito y fracaso. Este es el modelo fundamental para variables dicotómicas, muy frecuentes en la práctica clínica.

Una variable aleatoria $\small X$ sigue una distribución Bernoulli cuando toma valores 0 (fracaso) o 1 (éxito) y la probabilidad de “éxito” es $\small \pi$, el parámetro de la distribución.

Esto se indica como

\[ X \sim \mathcal{Be}(\pi) \] que se lee diciendo “la variable aleatoria $\small X$ tiene distribución de Bernoulli con parámetro $\small \pi$”.

La función de probabilidad viene dada por:

\[ \Pr(X = x) = \begin{cases} \pi & \text{si } x = 1 \\ 1 - \pi & \text{si } x = 0 \end{cases} \]

Las propiedades fundamentales de esta variable aleatoria son:

Esperanza: $\small \mathbb{E}(X) = \pi$, que refleja la probabilidad media de observar un “éxito” en un ensayo Bernoulli.
Varianza: $\small \mathrm{Var}(X) = \pi (1 - \pi)$, que mide la variabilidad entre resultados de éxito (1) y fracaso (0).
Para medir esta variabilidad en la misma escala de la variable, podemos usar la desviación típica: $\small \, \mathrm{sd}(X)=\sqrt{\mathrm{Var}(X)}$.
En una distribución de Bernoulli, siempre se cumple que $\small 0\le \mathrm{sd}(X) \le 0.5=$ ( ¿por qué?)

Ejemplo

Consideramos la variable aleatoria $\small X$ que representa el sexo biológico al nacer, con:

$\small X = 1$: nacimiento de un niño
$\small X = 0$: nacimiento de una niña

En España, la probabilidad de que un recién nacido sea niño es aproximadamente $\small \pi = 0.515$. Por tanto:

\[ X \sim \text{Be}(0.515) \]

La probabilidad de que el recién nacido sea niño es 0.515 y la de que sea niña es $\small 1 - 0.515 = 0.485$. La varianza es $\small Var(X)=0.249$. Podemos comprobar que se trata de una varianza alta, esto refleja el hecho de que las dos categorías están prácticamente en equilibrio.

¿Cuándo hay más incertidumbre (para qué valor del parámetro) ante un nuevo resultado de este tipo de variable aleatoria?

Relevancia de las variables de tipo Bernoulli

A pesar de su aparente simplicidad, las variables Bernoulli desempeñan un papel esencial en la modelización de numerosos fenómenos propios de la epidemiología, la medicina y las ciencias de la salud.
De hecho, los modelos de regresión logística binaria se utilizan precisamente para explicar el valor de este tipo de variables en función de diversos factores, como la edad, el sexo o la presencia de comorbilidades.

6.3 Distribución Binomial

Si entendemos la distribución de Bernoulli como el resultado de un único ensayo con dos posibles desenlaces: éxito ($\small X=1$) o fracaso ($\small X=0$), la distribución binomial surge de forma natural cuando repetimos ese mismo ensayo varias veces y contamos cuántos éxitos obtenemos.

La distribución binomial, con parámetros $\small n$ y $\small \pi$, es la suma de $\small n$ variables de tipo Bernoulli independientes con la misma probabilidad de éxito $\small \pi$:

\[ \text{Si } X=X_1+X_2+\dots+X_n,\quad \text{con } X_i\sim \mathcal{Be}(\pi) \] Entonces: \[ X \sim \mathcal{B}(n, \pi) \]

Ejemplo: Hemocultivos contaminados

En un laboratorio de análisis clínicos se ha observado que el 5% de los hemocultivos que reciben presentan contaminación. Se trata de modelizar cuántas contaminaciones pueden ocurrir al realizar 12 extracciones de sangre en un turno.

Cada extracción, realizada de forma independiente, $\small i=1,\dots,n=12$ es un ensayo Bernoulli:

Éxito = “contaminación” $\small \left(X_i=1\right)$
Fracaso = “no contaminación” $\small \left(X_i=0\right)$
Probabilidad de contaminación: $\small \pi= \Pr(X_i=1) = 0.05$

En un turno se realizan $\small n = 12$ extracciones.

La variable $\small X =\sum_{i=1}^{12}{X_i} =$ “número de hemocultivos contaminados en el turno” es:

\[ X \sim \mathcal{B}(12, 0.05) \]

Función de probabilidad binomial

Función de probabilidad. Al repetir $\small n$ ensayos de tipo Bernoulli de forma independiente y con probabilidad $\small \pi$, la probabilidad de obtener exactamente $\small x$ éxitos se construye combinando el número de formas posibles de conseguir esos $\small x$ éxitos con la probabilidad de cada una de esas secuencias. Esa combinación da lugar a la función de probabilidad binomial

\[ P(X = x) = \binom{n}{x} \, \pi^{x} \, (1-\pi)^{\,n-x} \] en donde

\[ \begin{aligned} \binom{n}{x} & \;=\; \text{número de formas de elegir los } x \text{ éxitos},\\[4pt] \pi^{\,x} & \;=\; \text{probabilidad de que ocurran esos } x \text{ éxitos},\\[4pt] (1-\pi)^{\,n-x} & \;=\; \text{probabilidad del resto de ensayos (fracasos)}. \end{aligned} \]

Función de probabilidad del número de hemocultivos contaminados

… Distribución Binomial

Esperanza y varianza. Si $\small X \sim \mathcal{B}(n,\pi)$ entonces:

\[ \mathbb{E} \left( X \right)=n\pi, \qquad \mathrm{Var}\left( X \right)=n\pi(1-\pi) \]

Esperanza y varianza del número de hemocultivos contaminados

La esperanza es \[ \mathbb{E} \left( X \right)=n\pi = 12 \times 0.05 = 0.6, \qquad \mathrm{Var}\left( X \right)=n\pi(1-\pi)=12\times 0.05\times0.95=0.57 \]

Interpretación:

Por término medio, si en muchos turnos realizáramos 12 extracciones con una probabilidad de contaminación del 5%, esperaríamos alrededor de 0.6 contaminaciones por turno. Esto no significa que vaya a haber “0.6 contaminaciones” en cada turno concreto, lo que quiere decir es que, si observáramos muchos turnos, aproximadamente veríamos

6 contaminaciones cada 10 turnos,
o 3 contaminaciones cada 5 turnos.

Es un promedio teórico, que describe la tendencia del proceso a largo plazo. Que la esperanza sea menor a 1 debe interpretarse como que, en un turno típico, lo más habitual es no observar ninguna contaminación, y solo ocasionalmente una (muy raramente más de una).

La varianza indica cuánto varía el número de contaminaciones de un turno a otro. En este caso, \[\mathrm{Var}\left( X \right)=0.57\]

es un valor relativamente bajo, lo que implica que el número de contaminaciones cambia muy poco entre turnos. Para interpretarlo mejor, podemos determinar la desviación estándar (que está en las unidades de la esperanza):

\[ \mathrm{sd}(X)=\sqrt{\mathrm{Var}\left( X \right)} \,\,=\,\sqrt{0.57}=0.755 \]

lo cual significa que la cantidad de contaminaciones por turno suele desviarse menos de una unidad respecto a la media.

Conclusión:

Como la probabilidad de contaminación es baja ($\pi=0.05$), lo habitual es que la mayoría de turnos tengan 0 contaminaciones, apareciendo 1 solo de forma ocasional. La variabilidad entre turnos es muy reducida, menos de una unidad, porlo que podemos considerar que el proceso es muy estable.

Funciones binomiales

Función	Qué hace	Ejemplo clínico	R
dbinom(x, n, p)	Probabilidad puntual: $\small\Pr(X = x)$	Probabilidad de que exactamente 2 de 12 cultivos estén contaminados ($\small \pi = 0.05$)	`dbinom(2, 12, 0.05)`
pbinom(x, n, p)	Probabilidad acumulada: $\small \Pr(X \le x)$	Probabilidad de que como máximo 2 (de 12) cultivos estén contaminados	`pbinom(2, 12, 0.05)`
qbinom(alfa, n, p)	Cuantil: mínimo $x$ con $\small \Pr(X \le x) \ge \alpha$	Número mínimo de cultivos contaminados para alcanzar el 95 % de probabilidad acumulada	`qbinom(0.95, 12, 0.05)`
rbinom(t, n, p)	Genera t realizaciones aleatorias de la binomial	Simular los resultados de 10 ensayos, cada uno con n=12 cultivos ($\small \pi = 0.05$)	`rbinom(10, 12, 0.05)`

No toda variable aleatoria binaria es binomial

Una variable puede ser dicotómica (sí/no) sin que sus resultados sigan una distribución binomial.

La binomial es un modelo ideal que asume que los sujetos son homogéneos, las observaciones independientes y una probabilidad $\pi$ constante de presentar el evento.

Ante una situación práctica, hay que cuestionarse si

La Probabilidad de éxito es constante. Aunque la variable sea sí/no, la probabilidad del evento puede variar entre pacientes (edad, comorbilidad, gravedad…) o cambiar con el tiempo. Si no existe un único valor de $\pi$, la variable sigue siendo dicotómica, pero ya no es binomial.
Los sujetos o las observaciones son independientes. En una planta de hospitalización, la infección nosocomial de un paciente puede aumentar el riesgo de los demás (contacto, entorno, carga asistencial…). . Al romperse la independencia entre “ensayos”, el modelo binomial deja de ser adecuado.
El número de ensayos es fijo y conocido de antemano. Si el número de observaciones varía, se incumple la condición de “$n$ constante”. En el ejemplo anterior, el número de extracciones hematológicas por turno puede ser 12 algunos días, y otros más o menos, lo que rompe la estructura binomial.
La variable binaria surge por dicotomización forzada de una realidad más compleja. Si se reduce una variable rica (como tipos y gravedad de complicaciones) a un simple sí/no, el proceso que genera los datos puede no seguir un patrón binomial: la probabilidad $\pi$ no tiene por qué ser estable. Dicotomizar simplifica, pero no garantiza una distribución binomial.

6.4 Distribución de Poisson

En la práctica enfermera nos encontramos con sucesos que ocurren de forma ocasional, aparentemente impredecible, pero dentro de un marco estable:

El número de neumotórax espontáneos detectados por semana
El número de episodios de edema agudo de pulmón atendidos por mes.
El número de accesos venosos retirados por flebitis por semana.
El número de infecciones asociadas a catéter en una UCI en un trimestre.
El número de errores de medicación en un turno.

En todos estos casos:

Contamos cuántas veces ocurre un suceso: 0, 1, 2,…
El intervalo de observación está fijado (tiempo, espacio o número de pacientes).
Los sucesos ocurren de forma independiente.

Nos interesa modelizar la incertidumbre asociada al recuento.

… Distribución de Poisson

La distribución de Poisson es una distribución de probabilidad discreta que modeliza el número de veces que ocurre un suceso en un intervalo fijo de tiempo o espacio, bajo las siguientes condiciones:

Los sucesos ocurren de manera independiente.
La intensidad, o tasa media de ocurrencia, es constante.
La probabilidad de que ocurran dos sucesos exactamente al mismo instante es despreciable.

En tal caso, si la variable aleatoria $\small X$ representa el número de sucesos en el intervalo, entonces: \[ X \sim \mathcal{P}(\lambda) \] en donde $\small \lambda>0$ es el valor medio de la variable, que caracteriza la intensidad del fenómeno y constituye el único parámetro de la distribución.

Función de probabilidad

La función de probabilidad de la distribución de Poisson con parámetro $\small \lambda$ es

\[ P(X = x) = \frac{e^{-\lambda}\lambda^x}{x!}, \qquad \text{para}\,\, x = 0,1,2,3,\dots \]

Esperanza y varianza: Una característica importante de la distribución de Poisson es que su varianza coincide con su media:

\[ \mathbb{E}(X)=\mathrm{Var}(X)=\lambda \]

Esto se traduce en que cuando el número medio de sucesos aumenta, también lo hace la variabilidad (por pura necesidad matemática).

… Distribución de Poisson

Ejemplo:

En una planta de Cardiología, el equipo de enfermería registra diariamente el número de episodios de arritmias detectados por telemetría en los pacientes ingresados. Tras un seguimiento de 30 días, se observa que el número medio de episodios de arritmia por día es de:

\[ \lambda=4.2\,\, \text{episodios/día} \]

Se asume que los episodios ocurren:

de manera independiente,
con una tasa media constante,
y que la probabilidad de que dos episodios ocurran exactamente en el mismo instante es despreciable.

Entonces, la variable aleatoria $\small X=$ “número diario de episodios de arritmia diarios” puede modelizarse mediante una distribución de Poisson

\[ X \sim \mathcal{P}(4.2) \]

$Función de probabilidad de la distribución de Poisson con parámetro \lambda=4.2$

Funciones de la distribución de Poisson

Función	Qué hace	Ejemplo clínico	R
dpois(x, λ)	Probabilidad puntual: $\small\Pr(X = x)$	Probabilidad de que en un día haya exactamente 3 episodios de arritmia (λ = 4.2)	`dpois(3, 4.2)`
ppois(x, λ)	Probabilidad acumulada: $\small\Pr(X \le x)$	Probabilidad de que en un día haya como máximo 3 episodios de arritmia	`ppois(3, 4.2)`
qpois(α, λ)	Cuantil: mínimo $x$ con $\small\Pr(X \le x) \ge \alpha$	Número mínimo de episodios de arritmia para alcanzar el 95 % de probabilidad acumulada	`qpois(0.95, 4.2)`
rpois(t, λ)	Genera t realizaciones aleatorias de la Poisson	Simular los episodios de arritmia observados durante 10 días	`rpois(10, 4.2)`

Interpretación de la varianza en el ejemplo clínico

Como \[ \mathrm{sd}\left( X \right)=\sqrt{\mathrm{Var}\left( X \right)} = \sqrt{\lambda}= \sqrt{4.2}= 2.04 \]

podríamos interpretar que el número de episodios de arritmia que se observan en un día suele alejarse de la media (4.2) aproximadamente en ±2 episodios, por lo que cabe esperar que se observen entre 2 y 6 episodios diarios.

Observemos que la distribución de Poisson no es simétrica. Hay que tener cuidado con la interpretación de la desviación típica. Para calcular de forma exacta la probabilidad de que un día se observen entre 2 y 6 episodios de arritmia:

\[ \Pr(2 \le X \le 6) \]

lo hacemos restando las funciones de distribución de $\small X$:

\[ \Pr(X\le 6) - \Pr(X<2) \quad = \quad \Pr(X\le 6) - \Pr(X \le 1) \]

El código en R para hacer este cálculo es:

ppois(6, 4.2) - ppois(1, 4.2)

[1] 0.789487

Es decir, que el 78.9% de los días se observaran entre 2 y 6 episodios de arritmias.

La Ley de los Sucesos Raros

Tradicionalmente se ha llamado a la distribución de Poisson la ley de los sucesos raros , porque surge como modelo límite de la distribución binomial cuando $\small n$ es grande (mayor a 20) y $\small \pi$ pequeño (menor a 0.05). Esto representa sucesos que tienen muy poca probabilidad de ocurrir en cada observación de tipo Bernoulli, pero que pueden acumularse a lo largo de un gran número de oportunidades.

6.5 La distribución Normal

Las distribuciones vistas hasta ahora eran discretas, basadas en el recuento de sucesos. Pasamos ahora a estudiar una distribución continua, que describe variables que pueden tomar cualquier valor dentro de un intervalo.

En la práctica de la enfermería medimos constantemente variables biológicas:

Presión arterial sistólica
Glucemia basal
Saturación de oxígeno
Niveles de hemoglobina

Cuando observamos estas variables en una población amplia y relativamente homogénea, ocurre algo sorprendente: la mayoría de los valores se concentran de forma simétrica alrededor de un valor central y los valores extremos son poco frecuentes.

Histogramas vivientes

Figura 6: Distribución observada de la estatura humana.
La figura de la izquierda corresponde a un conjunto de 175 reclutas del ejército inglés a finales del siglo XIX
(Tomado de Blakeslee & Hered, 1914, por Ayala & Kiger, Modern Genetics, 1984).
La imagen de la derecha fue tomada en 1975 a un conjunto de estudiantes de la U. de Madison
(B. Joiner, “Living Histograms” Int. Stat. Rev., 1975).
En este caso se aprecia la distribución bimodal inducida por la presencia de individuos de ambos sexos.

Muchos fenómenos naturales siguen la misma pauta

Figura 7: Histogramas y curvas KDE (en azul) mostrando la distribución de un indicador fisiológico en sujetos sanos. Al aumentar el tamaño muestral, se aprecia la convergencia de la distribución a la forma de campana mostrada por el modelo en rojo: la campana de Gauss.

La distribución normal es un modelo probabilístico continuo que describe variables cuantitativas en las que:

Los valores se distribuyen simétricamente alrededor de la media.
La mayoría de los valores están cerca del centro.
Los valores extremos son cada vez menos frecuentes cuanto más se alejan de la media.

Este modelo describe adecuadamente el comportamiento de numerosas variables biológicas en poblaciones amplias. Además, constituye la base teórica de gran parte de los métodos inferenciales utilizados en investigación.

… Distribución Normal

La distribución normal es una distribución para variables aleatorias continuas, simétrica y unimodal, que queda completamente determinada por dos parámetros la media $\small\mu$ y la desviación típica $\small\sigma$. Cuando una VAC sigue esta distribución, se expresa mediante la notación

\[ X \sim \mathcal{N}\left(\mu, \sigma\right). \]

Función de densidad de la distribución normal

Recordemos que, cuando la VA es continua, no hablamos de función de probabilidad, sino de función de densidad.
En el caso de la distribución normal, esta densidad viene dada por

\[ \displaystyle f(x) = \frac{1}{\sigma \sqrt{2\pi}} \, \exp\left( -\frac{1}{2}\left( \frac{x - \mu}{\sigma} \right)^2\right), \qquad x \in \mathbb{R} \]

(Es la fórmula que habría que implementar en un programa para que dibuje la curva en forma de campana)

En esta expresión

$\small \pi\,$ es el número pi (=3.141632…), no representa a ninguna proporción.
$\small \mu$ y $\small \sigma$ son los parámetros de posición y dispersión, respectivamente, de la distribución.

Parámetros de la distribución normal

La distribución normal se caracteriza por dos parámetros:

El parámetro de posición $\small \mu$. Es el centro de la distribución, su eje de simetría.
El parámetro de dispersión $\small \sigma$. Representa la amplitud de la curva (distancia desde el eje de simetría a su punto de inflexión)

Figura 8: (A) Qué representan los parámetros de la distribución normal.
(B) Las curvas $\small N_1$ y $\small N_2$ tienen el mismo valor de $\mu$, pero distinto $\sigma$. $\small N_2$ y $\small N_3$ tienen el mismo valor de $\sigma$, pero distinto $\mu$.
En todas, el área bajo la curva vale 1.

(c) Pedro Femia bajo licencia

CC-BY-SA

Cálculo de probabilidades con la distribución normal

La función de densidad $\small f(x)$ describe la forma de la campana de Gauss, pero los valores que alcanza no son probabilidades.

Estamos tratando con una variable continua. Esto implica que la probabilidad se asocia a un intervalo de valores, no a un valor puntual
La probabilidad asociada a un intervalo, digamos $\small (x _a,\, x_b)$, es el área bajo la curva comprendida entre los límites $\small x_a$ y $\small x_b$ del intervalo.
En la práctica, el cálculo de probabilidades se realiza mediante la función de distribución $\small F(x)$, que es la función que aplicada sobre un punto dado $\small x$, acumula el área desde $\small -\infty$ hasta $\small x$

\[ F(x)=\Pr \left( X \le x \right) \]

De este modo, la probabilidad asociada a un intervalo $\small (x _a,\, x_b)$, se obtiene como $\small F(x_b)-F(x_a)$$

Ilustración del cálculo de la probabilidad asociada al intervalo $\small (x _a,\, x_b)$.
Para ganar en apreciación, se ha tomado como $\small x_a$ el primer cuartil, $\small x_a=Q_1$, y $\small x_b$ el tercer cuartil $\small x_b=Q_3$

(c) Pedro Femia bajo licencia

CC-BY-SA

Esperanza y varianza: en la distribución normal se tiene

\[ \mathbb{E}(X)=\mu,\qquad \mathrm{Var}(X)=\sigma^2 \]

Es decir, que $\mu$ es la media de la distribución y $\sigma$ su desviación típica; en distribución normal, la esperanza y la varianza coinciden con los parámetros de la distribución.

En el caso particular en que $\small \mu=0$ y $\small \sigma=1$ se tiene la distribución normal estándar, o distribución normal típica: la $\small \mathcal{N}\left(0, 1\right)$.
Esta distribución constituye una herramienta importante y la vemos con más detalle en la próxima sección.

6.5.1 La distribución normal estándar

El cálculo de la función de distribución normal, $\small F(x)$, no es nada sencillo, implica integrar $\small f(x)$. Por eso, los textos de estadística incluyen unas tablas de la distribución normal. Pero estas tablas solo recogen los valores de la normal estándar $\small \mathcal{N}\left(0, 1\right)$. Para usarlas, cualquier normal $\small \mathcal{N}\left(\mu, \sigma\right)$ debe estandarizarse, o tipificarse.

El uso de estas tablas ha perdido relevancia con el software actual y, probablemente, acabarán desapareciendo de los libros.
Sin embargo, la tipificación mantiene un gran valor conceptual: permite

Unificar escalas
Comparar valores procedentes de diferentes variables, y
Expresar cualquier medida en términos de “cuántas desviaciones típicas” se aleja de su media.

Así, la tipificación constituye una herramienta esencial de estandarización, que permite interpretar y comparar valores de forma coherente.

Va a ser una transformación fundamental en inferencia.

Tipificación

Dada una variable $\small X \sim \mathcal{N}\left(\mu, \sigma\right)$, se denomina tipificación a la transformación

\[ Z=\frac{X-\mu}{\sigma} \]

La variable tipificada tiene distribución $\small Z \sim \mathcal{N}\left(0, 1 \right)$.
A la función de distribución de la normal estándar se la suele representar como $\small \Phi(z)$. Así, dado un valor $\small z_0$, $(z_0)=(Zz_0) cuando $\small Z \sim \mathcal{N}\left(0, 1 \right)$.

Figura 9: Suponiendo que el nivel de hemoglobina $X$ se distribuye como una normal de media $\mu=15$ g/dL y desviación típica $\sigma=2.1$ g/dL. La probabilidad de observar valores menores o iguales a $x_0=13$ mg/dL es $\Phi\left( (13-15)/2.1 \right)=0.17$

(c) Pedro Femia bajo licencia

CC-BY-ND

Equivalencia entre las escalas tipificada y percentil

Figura 10: Equivalencia entre escalas tipificada y percentil, en (A) la función de densidad y (B) la función de distribución. La escala tipificada cuantifica “cúantas desviaciones típicas hay desde la observación a la media de la distribución”. En una normal típica, el intervalo $\pm 1.96$ recoge al 95% central de la masa de probabilidad de la distribución.

(c) Pedro Femia bajo licencia

CC-BY-ND

Interpretación de un valor tipificado

Para interpretar un valor tipificado debemos fijarnos en dos aspectos:

El signo: un valor negativo indica que ese valor está por debajo de la media; un valor positivo, que está por encima.
La magnitud: indica a cuántas desviaciones típicas de distancia está ese valor de la media.

Por ejemplo: un valor tipificado de 2 significa que la observación está a dos desviaciones típicas por encima de la media. Si el valor es -2, quiere decir que está también a 2 desviaciones típicas, pero por debajo de la media.

En general, se considera que una observación está “lejos de la media” cuando se sitúa a más de dos desviaciones típicas de distancia.

Al tipificar una observación con los parámetros de posición y dispersión del grupo al que pertenece, estamos situando a esa observación en el contexto de su grupo de forma similar a como hace la escala percentil.

La interpretación de un valor tipificado es

Válida cuando la distribución es normal y sigue siendo razonable cuando la distribución es aproximadamente simétrica.
Si la distribución es marcadamente asimétrica, la interpretación en términos de distancia a la media deja de ser fiable y puede resultar engañosa.

6.5.2 Cálculos con la distribución normal

Funciones normales

Función	Qué hace	Ejemplo clínico	R
dnorm(x, μ, σ)	Valor de la densidad en `x` (no es una probabilidad)	Valor de la densidad de la hemoglobina en x₀ = 13 g/dL para N(15, 2.1) (en la práctica esto no suele ser de interés)	`dnorm(13, 15, 2.1)`
pnorm(x, μ, σ)	Probabilidad acumulada P(X ≤ x)	Probabilidad de tener una Hb ≤ 13 g/dL en la población N(15, 2.1)	`pnorm(13, 15, 2.1)`
qnorm(α, μ, σ)	Cuantil: valor x con P(X ≤ x) = α	Valor de Hb que representa el percentil 25 en N(15, 2.1)	`qnorm(0.25, 15, 2.1)`
rnorm(t, μ, σ)	Genera `t` valores aleatorios de una normal	Simular 10 valores de Hb de una población N(15, 2.1)	`rnorm(10, 15, 2.1)`

Ejemplo

Consideramos la variable hemoglobina (Hb), que en una población adulta tiene la distribución:

\[ Hb \sim \mathcal{N}(15,\;2.1) \]

Tomamos algunos valores de referencia, como $\small x_0 = 13$ y $\small x_0=18$ mg/dL, y calculamos probabilidades e intervalos útiles en clínica.

1. Probabilidad de que el nivel de hemoglobina sea inferior a 18 mg/dL

pnorm(18, mean = 15, sd = 2.1)

[1] 0.9234363

2. ¿Cuánto vale el nivel $x_0=$18 mg/dL estandarizado?

z <- (18 - 15) / 2.1
z

[1] 1.428571

Esto quiere decir que $\small x_0=18$ está a 1.43 desviaciones típicas por encima de la media de la distribución.

3. Probabilidad de que el nivel de hemoglobina sea superior a 18 mg/dL

1 - pnorm(18, mean = 15, sd = 2.1)

[1] 0.07656373

4. Probabilidad de que la hemoglobina esté entre 13 y 18 mg/dL

pnorm(18, 15, 2.1) - pnorm(13, 15, 2.1)

[1] 0.7529844

5. Entre qué valores se encuentra el 50% de la distribución

li <- qnorm(0.25, mean = 15, sd = 2.1) # primer cuartil
ls <- qnorm(0.75, mean = 15, sd = 2.1) # tercer cuartil
c(li, ls)

[1] 13.58357 16.41643

6. Generación de $\small n=10$ observaciones aleatorias del nivel de Hb de esta población

muestra <- rnorm(n = 10, mean = 15, sd = 2.1)
sort(round(muestra, 1)) # ordenamos los valores en la salida redondeados a 1 decimal

 [1] 13.8 13.9 13.9 14.5 14.8 15.7 16.2 16.6 17.5 17.9

Estandarización de un vector

La tipificación de una variable supone estandarizarla de acuerdo a unos valores de posición y de dispersión de referencia. Estos valores pueden ser $\mu$ y $\sigma$ cuando la referencia es la población, o $\bar{x}$ y $s$ cuando se considera la posición y dispersión de la propia muestra. En este segundo caso, es util la función ‘scale()’. Veamos un ejemplo:

muestra <- rnorm(n = 10, mean = 15, sd = 2.1) # generamos una muestra aleatoria
sort(round(muestra, 1)) # observamos sus valores ordenados y redondeados a 1 decimal

 [1] 12.2 12.5 12.5 12.7 13.3 14.3 14.5 15.5 16.0 16.2

# observemos su media y desviación típicas:

mean(muestra)

[1] 13.95993

sd(muestra)

[1] 1.534807

z <- scale(muestra) # tipificamos la muestra con su media y dt (las muestrales)
sort(round(z, 3)) # observamos los valores tipificados ordenados y con 3 decimales

 [1] -1.138 -0.963 -0.952 -0.835 -0.438  0.205  0.366  0.995  1.313  1.447

6.6 Teorema del límite central y distribución de la media muestral

Cuando trabajamos con datos reales ―y lo hacemos siempre a partir de una muestra― surge una cuestión fundamental: ¿qué ocurre con los valores que calculamos a partir de los datos?

Como la muestra es aelatoria, estadísticos como la media muestral, la proporción o la varianza no son números fijos y deterministas, sino que también son variables aleatorias.

Esta variabilidad muestral es la clave que conecta la probabilidad con la inferencia estadística.

Distribución muestral

La distribución muestral o distribución en el muestreo describe cómo varía un estadístico al repetir el muestreo muchas veces.

Saber esto constituye un aspecto clave para la inferencia, ya que permite cuantificar la incertidumbre implícita en un estadístico.

Figura 11: La media muestral es una variable aleatoria continua. Si pudiésemos tomar muchas muestras en las mismas condiciones, sería posible representar su distribución empírica.
Se habla indistintamente de la **distribución muestral de la media** o de la **distribución de la media en el muestreo**.

(c) Pedro Femia bajo licencia

CC-BY-SA

Teorema del Límite Central (TLC)

El Teorema del Límite Central (TLC) establece que, cuando tomamos muestras suficientemente grandes, la distribución de la media muestral se aproxima a una distribución normal, independientemente de la forma de la distribución de la población original.

Incluso si los datos originales tienen una distribución muy asimétrica, colas largas o irregularidades (algo extremadamente frecuente en salud), la media sigue un comportamiento muy regular y predecible.

Si la variable original es normal, la media muestral es siempre normal, incluso con muestras pequeñas. Esto simplifica enormemente el análisis estadístico en estudios clínicos.
Si la variable original no es normal (por ejemplo, es asimétrica), la media muestral tiene distribuciónaproximadamente normal si el tamaño muestral es suficientemente grande (en la práctica $n>30$ o $n>60$, según la simetría de la variable).

Figura 12: (A) Distribución del tiempo hasta la primera valoración en Urgencias, una variable fuertemente asimétrica: la mayoría de pacientes son atendidos en tiempos relativamente cortos, pero pueden aparecer retrasos prolongados que generan una cola larga. La media es de 120 minutos, con valores que van desde prácticamente 0 hasta varios cientos de minutos. (B) Distribución de las medias obtenidas a partir de 5000 muestras de tamaño $n = 30$ tomadas de esta misma variable. A pesar de la marcada asimetría de la distribución original, las medias muestrales muestran una forma aproximadamente normal, ilustrando de manera visual la acción del Teorema del Límite Central.

(c) Pedro Femia bajo licencia

CC-BY-SA

¿Por qué tantas variables biológicas son normales?

La distribución normal surge de forma natural cuando evaluamos el resultado de la suma de pequeñas causas independientes y de magnitud equiparable.

Muchas variables clínicas (talla, presión arterial, glucemia, frecuencia cardíaca…) no dependen de un único factor, sino de muchos efectos pequeños e independientes que influyen de manera aditiva. Cada persona:
- presenta variaciones genéticas leves
- está expuesta a diferencias ambientales
- tiene diferentes hábitos de vida
- está sometida a la variabilidad fisiológica natural
Además, cada vez que se mide son inevitables los pequeños errores de medida (otra causa más de variabilidad)

Figura 13: Cuando una variable es la suma de muchos factores aditivos independientes de magnitud equiparable,
el **Teorema del Límite Central** asegura que su distribución **tiende a ser normal**,
aunque los factores individuales no lo sean.

(c) Pedro Femia bajo licencia

CC-BY-SA

La presencia frecuente de la distribución normal en muchas variables clínicas no se explica únicamente por el teorema del límite central. También intervienen mecanismos fisiológicos de regulación, como la homeostasis, y no solo la suma de múltiples factores independientes.
En general, la regulación genera una concentración de valores alrdedor de un punto de equilibrio fisiológico, ya que las desviaciones extremas son corregidas de forma eficiente y sostenida. Desde el punto de visa estadístico, esto es una restauración haica la media que favorece la aparición de distribuciones simétricas y unimodales.

Parámetros de la distribución muestral de la media

Hemos visto que la media muestral se comporta como una observación de una variable aleatoria con distribución normal, pero ¿cuáles son los parámetros de esta distribución? (esto es crucial para la inferencia, como comenzaremos a ver en el tema siguiente).

Si la variable original tiene:

media poblacional: $\small \mu$
desviación típica poblacional: $\small \sigma$

entonces, para muestras aleatorias de tamaño $\small n$:

\[ \bar{X} \sim N\left(\mu,\; \frac{\sigma^2}{n}\right) \]

Interpretación

Media de la distribución muestral:
$\small \mathbb{E}(\bar{X}) = \mu$. Como veremos en el tema 4, la media muestral es un estimador centrado y consistente de la media poblacional; esto implica que “la media de las medias converge a la media poblacional”.
Varianza de la distribución muestral: $\small \mathrm{Var}(\bar{X}) = \sigma^2/n$
Error estándar $\small SE(\bar{X}) = \frac{\sigma}{\sqrt{n}}$
- Mide cuánto puede variar la media muestral de una muestra a otra.
- Refleja el robustecimiento de la media muestral conforme aumenta el tamaño muestral.

Figura 14: Distribuciones de la variable original y de la media muestral para un tamaño de muestra moderado.
Ambas distribuciones están centradas en la misma media $\mu$.
La distribución muestral de la media presenta menor dispersión que la variable original, y su variabilidad disminuye a medida que aumenta el tamaño muestral.

(c) Pedro Femia bajo licencia

CC-BY-SA

Matiz importante

Cuando hablamos de la variable original, la variabilidad natural entre individuos se mide con la desviación típica ($\sigma$). Es la dispersión “real” de los valores en la población.
Cuando trabajamos con la media muestral, lo que nos interesa es cuánto varía la media de una muestra a otra si repitiéramos el muestreo. Esta variabilidad es la de un estadístico, no la de una variable, y se llama error estándar ($\sigma / \sqrt{n}$).

El error estándar de la media es siempre menor que la desviación típica, y disminuye al aumentar el tamaño muestral, porque la media es más estable que los valores individuales.

En la literatura en inglés, se alude a esta variabilidad como SEM (Standard Error of Mean)

Sobre la dispersión de la distribución de la media muestral

Figura 15: El aumento del tamaño muestral en 50 casos más, no implica la misma reducción en la variabilidad de la distribución de la media muestral
al pasar de $n=50$ a $n=100$ que al pasar de $n=100$ a $n=150$.

(c) Pedro Femia bajo licencia

CC-BY-SA

7 Referencias y lecturas recomendadas

Agresti, A., & Kateri, M. (2022). Foundations of Statistics for Data Scientists With R and Python (1st Ed.). Chapman & Hall/CRC Texts in Statistical Science.

Altman, D. G. (1991). Practical Statistics for Medical Research. London: Chapman & Hall.

Koepsell, T. D., & Weiss, N. S. (2025). Epidemiologic Methods: Studying the Occurrence of Illness (2.ª ed.). New York, NY, USA: Oxford University Press.

Martín Andrés, A., & Luna del Castillo, J. de D. (2004). Bioestadística para las Ciencias de la Salud. Madrid: Norma.

Martín Andrés, A., & Luna del Castillo, J. de D. (2013). 40 ± 10 horas de Bioestadística. Madrid: Ed. Norma-Capitel.

Rosner, B. (2016). Fundamentals of Biostatistics (8.ª ed.). Boston: Brooks/Cole.

Función	Qué hace	Ejemplo clínico	R
dbinom(x, n, p)	Probabilidad puntual: \(\small\Pr(X = x)\)	Probabilidad de que exactamente 2 de 12 cultivos estén contaminados (\(\small \pi = 0.05\))	`dbinom(2, 12, 0.05)`
pbinom(x, n, p)	Probabilidad acumulada: \(\small \Pr(X \le x)\)	Probabilidad de que como máximo 2 (de 12) cultivos estén contaminados	`pbinom(2, 12, 0.05)`
qbinom(alfa, n, p)	Cuantil: mínimo \(x\) con \(\small \Pr(X \le x) \ge \alpha\)	Número mínimo de cultivos contaminados para alcanzar el 95 % de probabilidad acumulada	`qbinom(0.95, 12, 0.05)`
rbinom(t, n, p)	Genera t realizaciones aleatorias de la binomial	Simular los resultados de 10 ensayos, cada uno con n=12 cultivos (\(\small \pi = 0.05\))	`rbinom(10, 12, 0.05)`

Tema 3 Probabilidad y variable aleatoria

1 Introducción

2 Aleatoriedad

3 Probabilidad

3.1 Aproximaciones a la probabilidad

3.2 Cálculo básico de probabilidades

4 Variable aleatoria

5 Caracterización de las variables aleatorias

6 Distribuciones de variables aleatorias

6.1 Distribución Uniforme Discreta

6.2 Distribución de Bernoulli

6.3 Distribución Binomial

6.4 Distribución de Poisson

6.5 La distribución Normal

6.5.1 La distribución normal estándar

6.5.2 Cálculos con la distribución normal

6.6 Teorema del límite central y distribución de la media muestral

7 Referencias y lecturas recomendadas

8 Material de este proyecto

Tema 3
Probabilidad y variable aleatoria