4 Métodos descriptivos

Autor/a

En general, hay tres estrategias para sintetizar la información muestral:

Tablas de frecuencias
Diagramas de frecuencias
Medidas descriptivas

En todos los casos, la forma de resumir la información recogida en una variable está condicionada por el tipo que esta tenga; no será lo mismo resumir el contenido de una variable de tipo binario (como la presencia o no de cierta patología), que una de tipo cuantitativo (como el nivel de colesterol).

En lo que sigue, se va a suponer que el orden de obtención de los datos es irrelevante, es decir, que los datos no constituyen una serie con secuencia temporal.

4.1 Tablas de frecuencias

Por tabla de frecuencias de una variable se entiende la presentación tabular de las categorías, o de los valores, que toma dicha variable y la frecuencia, o veces que se repiten, en la muestra.

Cuando la variable es de tipo nominal, el orden de presentación de las categorías es irrelevante y se pueden definir dos tipos de frecuencias: las absolutas y las relativas.

En la Figura 4.1 se presenta la tabla de frecuencias de la variable grupo_sanguineo correspondiente a una muestra de \(n=500\) casos. Podemos denominar \(n(A)\) a la frecuencia absoluta de la categoría \(A\), es decir, al número de veces que se repite esta categoría de la variable. Normalmente, para hacer más operativa la alusión a las categorías, se suele utilizar una notación con subíndices, de manera que \(n_1, n_2,...\) aluden a las frecuencias absolutas de las categorías colocadas en primero, segundo,… lugar de la tabla, respectivamente. De forma genérica, es más habitual considerar la notación \(n_i\) para aludir a la frecuencia absoluta de la categoría \(i\)-ésima.

La estandarización de la frecuencia relativa respecto al número total de observaciones, \(n\), es la frecuencia relativa, que se obtiene como \[f_i=\frac{n_i}{n}.\]

Esta proporción es siempre un tanto por uno y al multiplicarla por 100 se convierte en un tanto por ciento.

Una variable de tipo nominal no admite más frecuencias que las que se acaban de presentar, sin embargo, cuando aparece la relación de orden entre las categorías de la variable -es el caso de variables de tipo ordinal y de tipo cuantitativo-, es posible definir las frecuencias acumuladas. La frecuencia absoluta acumulada de una categoría representa el número de casos que corresponden a dicha categoría o a las anteriores a ella. Lo mismo es aplicable para las frecuencias relativas acumuladas, que para una categoría dada, representan la proporción de casos que pertenecen a ella o a las anteriores. En la Figura 4.2 se presentan estas frecuencias (las relativas en forma de porcentaje) y el procedimiento de cálculo. Así, por ejemplo, de esta tabla se deduce que el 56.4% de los casos no han mejorado (son los 282 casos incluidos en la categoría “igual” o en las anteriores).

Las variables cuantitativas de tipo discreto se pueden resumir de esta misma manera, pero siempre que la riqueza de valores distintos sea reducida. Cuando no es así, el tratamiento con las variables discretas es el mismo que con las de tipo continuo, se debe considerar una agrupación en intervalos.

En la Figura 4.1 (a) se presentan dos tablas descriptivas de la distribución de frecuencias de la variable edad tratada de forma discretizada. En la Figura 4.1 (a) de la izquierda, los n=500 casos se distribuyen en k=6valores distintos de la edad, de manera que es posible especificar la frecuencia correspondiente a cada una de estas 6 clases. Sin embargo, en la Figura 4.1 (b), los valores observados de la edad cubren un rango muy amplio (desde menos de 20 hasta màs de 40), y no sería una síntesis muy útil una tabla con tantas filas y frecuencias relativamente reducidas para cada valor. El recurso es agrupar la variable en intervalos y presentar las frecuencias con las que distribuyen los casos en esos intervalos.

Tabla 4.1: Dos formas de resumir la variable edad cuando se trata de forma discreta.

La forma de elaborar los intervalos no es única, pero deben observarse ciertas reglas. Los intervalos deben ser

Homogéneos: todos deben tener la misma amplitud (la amplitud es la diferencia entre los límites superior e inferior, en la tabla de la Figura 4.1 (b), la amplitud de los cuatro intervalos centrales es de 4 años).
Exhaustivos: deben abarcar a todo el recorrido de la variable, y
excluyentes: dos intervalos no pueden solaparse.

Las dos últimas condiciones garantizan que cada observación esté incluida en uno, y solo uno, de los intervalos. Como veremos más adelante, es muy habitual que la distribución de una variable cuantitativa se densifique en una región más o menos central del recorrido de la variable y que las frecuencias decaigan por cada lado a medida que los valores se alejan de esta parte central. Se alude a las porciones extremas como las colas de la distribución.

Para que una tabla de frecuencias sea un buen resumen de la distribución de las frecuencias observadas, debe de reproducir bien la presencia, o no, de esta estructura. Por ello, cuando aparecen pocos valores que resultan extremos, se recurre a intervalos como el primero y el último de la Figura 4.1 (b). Se trata de evitar tener que indicar un número excesivo de intervalos con colas largas que presenten frecuencias muy bajas o incluso nulas. En cualquier caso, siempre debe primar el sentido común, una tabla de frecuencias es un resumen y el objetivo debe de ser hacer un buen resumen. También puede resultar llamativa una peculiaridad de la tabla de la Figura 4.1 (b). Estrictamente hablando, los intervalos presentados no son exhaustivos, ya que hay un hueco de una unidad entre cada uno de ellos (del 21-25 se pasa al 26-30, y así con los demás). Esta forma de elaborar los intervalos pone de manifiesto que la variable, aunque sea de tipo continuo, se está tratando de forma discretizada. Es decir, solo se consideran los valores enteros, no existen observaciones como 25.5 o 25.7. O son 25 o son 26 años. De lo contrario, hay que solapar los límites para cumplir con la exhaustividad, como ocurre en la tabla presentada en la Figura 4.3. En ella, la especificación de los intervalos se ha hecho con la notación matemática habitual para indicar si un intervalo es abierto (se indica con paréntesis y se traduce en que el límite no entra en el intervalo) o cerrado (indicado con corchete, ahora el límite sí que está incluido en el intervalo), de manera que, por ejemplo, el primer intervalo no contiene al valor 101 pero sí al 128.

La agrupación en intervalos invita a cuestionarse cuántos intervalos se deben hacer. Esto va a depender del recorrido de la variable y del tamaño muestral. Existen criterios, como el clásico de Sturges (1926), para calcular el número de intervalos, pero siempre debe primar el sentido común: muchos intervalos no resumen la distribución y pocos la resumen demasiado. También suele ser recomendable que el número de intervalos sea impar, facilitando así el análisis visual de las distribuciones simétricas.

4.1.1 Procedimientos de R para obtener tablas de frecuencias

La función del sistema base para obtener la tabla de frecuencias de una variable es table(). Veamos algunos ejemplos, comenzando por considerar una variable de tipo nominal (factor)

gruposanguineo<-factor(c("A","B","A","AB","A","O","A","B","A"),levels=c("A","B","AB","O"))
table(gruposanguineo)/length(table)

gruposanguineo
 A  B AB  O 
 5  2  1  1

La función table() devuelve una tabla con las categorías en la primera fila y las frecuencias correspondientes absolutas en la segunda. Aunque la variable no es ordinal, las categorías se ordenan según se ha especificado en el parámetro levels de la función factor(). Una situación análoga se da con las variables ordinales (definidas con ordered()).

estado<-ordered(c("igual","igual","peor","mejor","peor","igual","mejor","igual","mejor","mejor"),levels=c("peor","igual","mejor"))
table(estado)

estado
 peor igual mejor 
    2     4     4

En el caso de variables cuantitativas, cuando la variable es discreta y su recorrido (número de valores distintos) es limitado, la tabulación mediante table() sigue siendo de utilidad:

diasingreso<-c(1,3,2,1,5,6,4,3,1,4)
table(diasingreso)

diasingreso
1 2 3 4 5 6 
3 1 2 2 1 1

Sin embargo, table() no hace ningún tipo de agrupación en intervalos, por lo que su interés es limitado cuando la variable presenta cierta riqueza de valores distintos, como es el caso de las continuas:

# para una variable continua
calcio<-c(9.8,9.5,8.7,10.2,9.3,9.6,8.9,10.4,9.9,10.2)
table(calcio)

calcio
 8.7  8.9  9.3  9.5  9.6  9.8  9.9 10.2 10.4 
   1    1    1    1    1    1    1    2    1

Con table() tampoco es posible obtener directamente otro tipo de frecuencias, tales como las relativas o las acumuladas.

BioestadísticaR implementa la función freq() para facilitar la creación de tablas de frecuencias más elaboradas. Además de la frecuencia absoluta, freq() proporciona la relativa y la relativa acumulada, automatizando la agrupación en intervalos si es que la variable hace esto necesario. La sintaxis completa de freq() es la siguiente:

freq(x = NULL, acum = TRUE, cuts = 0, agrup = TRUE, decs = 3, grf = TRUE)

x vector de datos a tabular
acum valor lógico indica si se muestran (TRUE) o no (FALSE) las frecuencias acumuladas. El valor por defecto es TRUE
cuts permite modificar el número de intervalos. Si se omite y la variable tiene más de 10 valores distintos, se usa el criterio de Sturges.
agrup es un valor lógico. Si se establece agrup = FALSE, no se hace agrupación en intervalos aunque la variable tenga más de 10 valores diferentes.
grf es un valor lógico que condiciona si se presenta una salida gráfica (por defecto es TRUE ) el tipo de diagrama lo establece el tipo de la variable y su riqueza de valores distintos.

Veamos un ejemplo:

estado <- ordered(c("igual","igual","peor","igual","peor","igual","mejor","igual","mejor","mejor"),levels=c("peor","igual","mejor"))
BioestadisticaR2::freq(estado, grf=FALSE)


Distribución de frecuencias
--------------------------------
Variable:  estado 
n= 10 
 
      x Freq Prop Prop.Acum
1  peor    2  0.2       0.2
2 igual    5  0.5       0.7
3 mejor    3  0.3       1.0

La función freq() se ha invocado anteponiendo el nombre del paquete BioestadisticaR2 separando con :: el nombre de la función. Esta sintaxis le indica a R en qué paquete está la función freq(). Se puede obviar esta sintaxis si cargamos previamente la librería (mediante el panel de paquetes de RStudio o bien escribiendo en la consola library(BioestadisticaR2)). En adelante se usará siempre la sintaxis BioestadisticaR2::función para distinguir claramente entre las funciones que corresponden al paquete y las del lenguaje base (sin prefijo). Se ha indicado grf=FALSE para no alargar este documento, si deja esta opción en TRUE podrá ver el diagrama resultante en el panel de gráficos de RStudio.

4.2 Diagramas de frecuencias

Un diagrama de frecuencias es una representación gráfica que permite visualizar cómo se distribuyen las observaciones de una variable en una muestra. En este tipo de gráficos se muestran las categorías (si la variable es cualitativa) o los valores (si es cuantitativa), y la frecuencia con que cada una de esas categorías o valores aparece en los datos.

La idea principal es que el elemento gráfico usado para representar cada categoría —por ejemplo, una barra, un punto o una sección de un gráfico circular— sea igual o proporcional a su frecuencia. De esta forma, el tamaño o la altura de cada figura refleja cuántas veces se repite ese valor o categoría, facilitando la comparación visual entre ellas.

Las frecuencias consideradas pueden ser las absolutas o las relativas (esto no cambiará la apariencia global del gráfico). Cuando la métrica de la variable sea ordinal o cuantitativa, se pueden considerar también las frecuencias acumuladas, para dar lugar a los diagramas acumulativos.

El tipo o métrica de la variable también impone qué diagramas van a ser apropiados, o no, para representarla. El la Figura 4.4 se resumen los tipos básicos de diagramas de frecuencias y los tipos de variable en que resultan adecuados.

4.2.1 Diagrama de sectores

A pesar de su popularidad histórica, se trata de un tipo de representación cada vez menos utilizada, ya que suele ofrecer menos ventajas que el diagrama de barras. Su uso está restringido al caso en el que la variable representada es cualitativa nominal, pues no refleja adecuadamente relaciones de orden entre categorías.

En este tipo de gráfico, cada categoría se asocia con el área de un sector circular. Dado que dicha área depende del ángulo \(\alpha\) que define el sector, basta con multiplicar los 360 grados de la circunferencia por la frecuencia relativa de cada categoría para obtener el ángulo correspondiente: \[ \alpha_i = 360 \frac{f_i}{n}.\]

Se trata de un diagrama que ocupa mucho espacio y ofrece un contenido informativo limitado. Además, la percepción visual de los ángulos es menos intuitiva que la comparación de alturas en un diagrama de barras, lo que dificulta una lectura rápida y precisa de los datos.

4.2.2 Diagrama de barras

Se trata de una representación en un sistema de ejes cartesianos en donde a cada categoría de la variable se le asigna una barra cuya altura es igual o proporcional a la frecuencia con que se repite en la muestra. En estos diagramas, la anchura de la barra es irrelevante (aunque debe ser la misma para todas las barras). Estos diagramas sí que permiten reproducir la relación ordinal entre las categorías, de manera que son adecuados para variables categóricas, ordinales y cuantitativas discretas. Cuando las cuantitativas presentan mucha variedad de valores distintos (imitando a las continuas) normalmente es preferible utilizar el histograma para representarlas.

La representación puede hacerse considerando en el eje de abscisas a la variable y en el de ordenadas a la frecuencia, o al revés.

Una variante de estos diagramas son los diagramas de Pareto. Se trata de diagramas de barras en los que las categorías de la variable se ordenan de acuerdo a su frecuencia, lo que permite destacar la relevancia progresiva de las categorías. Como esta ordenación alterará la impuesta por la posible relación ordinal entre las categorías, el diagrama resulta adecuado solamente para variables de tipo cualitativo.

4.2.3 Histograma

Se trata de la representación adecuada para variables continuas o discretas que presenten mucha riqueza de valores distintos (imitando la continuidad). Para construir un histograma, el primer paso es agrupar los valores de la variable en intervalos homogéneos. El motivo gráfico asignado a cada intervalo es un rectángulo con un área proporcional a la frecuencia correspondiente a dicho intervalo. La homogeneidad de los intervalos se traduce en que todos los rectángulos van a tener la misma base, con lo que bastará con hacer que su altura sea proporcional a la frecuencia. Como ocurre con el diagrama de barras, en un histograma se pueden disponer los valores de la variable (los intervalos) en el eje de abscisas (es lo más habitual) o en el de ordenadas, generando una imagen rotada 90º respecto a la anterior.

Conviene destacar la principal diferencia entre un diagrama de barras y un histograma. Como ya se ha indicado, en el primero, la anchura de la barra es irrelevante, es una cuestión de estética, en lugar de una barra se podría dibujar una línea. La idea es que las barras no se solapan, hay un “hueco” entre una barra y la siguiente, poniendo de manifiesto la falta de continuidad entre las categorías o los valores representados. Por ejemplo, en la Figura 4.5 no hay nadie con edades intermedias entre 15 y 16 años. Sin embargo, en el histograma, el punto donde acaba un intervalo constituye el comienzo del siguiente, de manera que los rectángulos asignados a cada intervalo sí que deben transmitir esa idea de continuidad (Figura 4.6).

4.2.4 Polígono de frecuencias

El polígono de frecuencias es un diagrama clásico de la estadística descriptiva que representa la distribución de una variable cuantitativa mediante una línea poligonal. En el eje horizontal se sitúan los valores de la variable (en variables discretas) o los puntos medios de los intervalos de clase (en variables continuas o discretas agrupadas), y en el eje vertical, las frecuencias correspondientes; los puntos se unen mediante segmentos rectos (Figura 4.7, izquierda).

Tradicionalmente, se ha utilizado como complemento al diagrama de barras o al histograma, aunque en la práctica actual su uso es menos frecuente. Un indicio de ello es que el código base de R no incorpora una función específica para generarlo de forma directa.

No obstante, sigue siendo útil en contextos concretos, especialmente con variables ordinales (por ejemplo, escalas de 5 o 7 puntos) o variables discretas de recorrido limitado, como recuentos clínicos. En estos casos, facilita la comparación entre grupos, ya que permite superponer varios polígonos sin el solapamiento de barras propio del histograma.

4.2.5 Curvas KDE y ECDF

La estimación por núcleos (KDE) (Kernel Density Estimation) es un método para estimar la función de densidad de probabilidad de una variable continua a partir de una muestra. Se trata de una curva suave, continua y que no requiere la categorización de la variable en intervalos de clase, como hace el histograma (Figura 4.7, derecha).

Dada una muestra \(x_1, x_2, \dots, x_n\), la estimación KDE viene dada por:

\[\hat{f}_h(x) = \frac{1}{n\,h} \sum_{i=1}^n K\left(\frac{x - x_i}{h}\right)\]

en donde:

\(K(u)\) es una función núcleo (kernel) que actúa como suavizador (evita que la curva se presente como una poligonal) y suele ser de tipo gaussiano: \(K(u)=\frac{1}{\sqrt{2\pi}} e^{-u^2/2}\).
\(h\) es el ancho de banda (bandwidth) o parámetro de suavizado. La elección de \(h\) es crucial:
- Si \(h\) es pequeño genera una curva muy ondulada (sobreajuste).
- Si \(h\) grande la curva es demasiado lisa (infraajuste).
En la práctica, este valor se establece en función del tamaño y la variabilidad de la muestra. Hay varios criterios, como la regla de Silverman: \[h=0.9 \min \left(s,\, RIQ/1.34 \right) n^{-1.5},\] siendo \(s\) la desviación típica muestral y \(RIQ\) el rango intercuartílico; o la de Scott: \[h=1.06\, s\, n^{-1.5}.\]
\(n\) es el tamaño muestral.

La curva final se obtiene al sumar todas las funciones núcleo y permite identificar con claridad diversas características de la distribución, como son su posible simetría o asimetría, la presencia de colas poco o excesivamente pesadas, o la existencia de subgrupos o múltiples valores modales.

Por otra parte, este tipo de representación facilita la comparación entre varias curvas, ya que no se solapan entre sí como ocurre con los histogramas.

Como versión acumulativa de la KDE, se presenta la función de distribución acumulada empírica (ECDF, por Empirical Cumulative Distribution Function), que describe la proporción de observaciones que son menores o iguales que un valor dado.

Para una muestra \(x_1, x_2, \dots, x_n\), la ECDF se define como: \[\hat{F}_n(x) = \frac{1}{n} \sum_{i=1}^n I(x_i \le x)\]

en donde:

\(I(\cdot)\) es la función indicadora (toma el valor 1 si se cumple la condición lógica de su argumento o cero cuando no es así).
\(\hat{F}_n(x)\) es siempre no decreciente, acotada entre \(0\) y \(1\) y presenta saltos de tamaño \(1/n\), que es el aporte que hace cada observación al crecimiento de la curva.

Esta curva acumulativa permite visualizar de forma ágil las proporciones y los valores percentiles, además de facilitar la comparación entre distintas distribuciones. Al superponer dos ECDF, la curva que se sitúa por encima de la otra indica que esa distribución tiende a presentar valores de menor magnitud. Por otra parte, los tramos con mucha inclinación indican zonas de alta concentración de observaciones, mientras que si la curva es más plana, se trata de tramos con valores dispersos.

La información conjunta que aportan las curvas KDE y ECDF ofrece una visión muy completa de la distribución de una variable. La KDE muestra la densidad, es decir, cómo se distribuyen los valores; mientras que la ECDF representa la acumulación, indicando qué porcentaje de observaciones se sitúa por debajo de cada valor. Al no requerir la categorización de la variable en intervalos y permitir la representación simultánea de varias curvas con fines comparativos, constituyen recursos gráficos de gran utilidad.

4.2.6 Diagramas de frecuencias con el sistema base de R

A continuación se indican los procedimientos del sistema base para obtener diagramas de frecuencias con R. Más adelante se verá una opción mejor, que es el uso del potente paquete gráfico ggplot2. La web R Charts presenta una amplia documentación sobre la generación de gráficos con R, tanto a través del sistema base como a través del potente paquete gráfico ggplot2.

Funciones del sistema base para generar diagrmas de frecuencias

pie(table(factor)) diagrama de sectores.
barplot(table(factor o variable discreta)) diagrama de barras.

Las funciones anteriores operan sobre el resultado de la función table(), que es la encargada de determinar las frecuencias de cada categoría.

hist(variable) histograma.
boxplot(variable, factor) diagrama de cajas. Si se indica un factor (es optativo), la variable se representa para cada nivel del factor.
plot(density(variable)) estimación de la densidad kernel (kernel density estimation, KDE). La suavidad de la curva depende del ancho de banda (bandwidth) o parámetro de suavización, que controla el grado de alisado.
plot(ecdf(variable) estimación de la curva de distribución acumulada empírica (Empirical Cumulative Distribution Function, ECDF). Representa la acumulación real de los datos, sin suavizado.

4.2.7 ggplot2 y la visualización moderna de distribuciones

El paquete ggplot2 constituye el estándar moderno de la visualización estadística en R. Basado en la Grammar of Graphics —el marco conceptual propuesto por Leland Wilkinson Wilkinson (2005) para construir visualizaciones de manera coherente, modular y sistemática— permite crear gráficos combinando de forma estructurada capas (geoms), escalas y temas. Este enfoque facilita generar representaciones flexibles, claras y reproducibles.

En el análisis de distribuciones, ggplot2 ofrece herramientas especialmente versátiles: geom_histogram() para histogramas personalizables, geom_freqpoly() para polígonos de frecuencias, geom_density() y stat_ecdf() para curvas KDE y ECDF, respectivamente, y geom_bar() o geom_col() para representar datos discretos. Todas estas capas pueden superponerse fácilmente en un mismo gráfico, adaptarse con distintas escalas y colores, y combinarse con temas personalizados. Gracias a su enfoque declarativo, ggplot2 permite construir gráficos complejos con poco código, manteniendo una estructura lógica y facilitando la exploración y comunicación de los datos de forma transparente.

4.3 Medidas descriptivas

Por medidas descriptivas, o medidas de síntesis, se entiende un conjunto de indicadores numéricos obtenidos a partir de los datos muestrales cuyo objetivo es resumir y caracterizar la distribución de una variable. Estas medidas permiten describir aspectos fundamentales como su posición, su dispersión y, en algunos casos, su forma.

El tipo de variable condiciona qué medidas descriptivas pueden calcularse e interpretarse correctamente. En el caso de variables cualitativas, la descripción suele limitarse al estudio de las frecuencias relativas de cada categoría, pudiendo destacarse aquella con mayor frecuencia, conocida como la moda.

Cuando la variable es ordinal, es posible sintetizar la posición y la dispersión de la distribución mediante los llamados estadísticos de orden, como la mediana, los percentiles o el rango intercuartílico, que se abordarán en los apartados siguientes. No obstante, en la práctica, tanto en variables dicotómicas como en ordinales, es frecuente asignar valores numéricos de forma convencional con el fin de calcular medidas descriptivas propias de las variables cuantitativas. Esta práctica requiere cautela y una interpretación adecuada.

A continuación se presentan algunas de las medidas de síntesis más habituales en Ciencias de la Salud, junto con sus principales propiedades e indicaciones de uso.

4.3.1 Medidas de posición

Las medidas de posición son indicadores que permiten describir dónde se sitúa una distribución. Esta caracterización puede hacerse atendiendo a su zona central o a posiciones extremas de los datos. En este sentido, se distinguen las medidas de posición de tendencia central, como la moda, la mediana y la media, y las medidas de posición de tendencia no central, entre las que se encuentran los percentiles.

4.3.1.1 Moda

La moda muestral (\(Mo\)) de una variable es la categoría o valor que se repite con mayor frecuencia en la muestra. Es aplicable a variables de cualquier tipo, pero su utilidad inferencial es limitada, ya que no siempre existe un único valor modal: pueden presentarse dos o más modalidades con la misma frecuencia. En esos casos, la multimodalidad puede ser un punto de partida para analizar posibles causas o patrones subyacentes en los datos.

4.3.1.2 Mediana

La mediana muestral (\(Me\)) de una variable es el valor que divide a la muestra ordenada en dos partes iguales, de manera que queda el mismo número de observaciones por debajo y por encima de ella. Si la variable es ordinal, se trata de una categoría, y si es cuantitativa, se trata de un valor numérico. Por ello, es fundamental que los datos sean ordenables, es decir, de tipo ordinal o cuantitativo.

En la práctica, para una muestra de tamaño \(n\), la posición de la mediana se calcula como:

\[\frac{n+1}{2}.\]

Si \(n\) es impar, esta posición es un número entero y la mediana corresponde al valor de la variable que ocupa esa posición central.
Si \(n\) es par, la posición no coincide con un valor exacto de la muestra y la mediana se obtiene como la media aritmética de los dos valores centrales. En este caso, la mediana no necesariamente coincide con un valor observado.

Cuando los datos se presentan en forma de tabla de frecuencias, la mediana corresponde al primer valor de la variable cuya frecuencia absoluta acumulada sea mayor o igual a \((n+1)/2\), o equivalentemente, cuya frecuencia relativa acumulada sea \(\ge 0.5\) (el 50%).

Formalmente, puede expresarse como: \[ Me = x_{\left(\frac{n+1}{2}\right)}, \tag{4.1}\]

donde el paréntesis indica que la muestra está ordenada: \(x_1\) es el primer valor observado, mientras que \(x_{(1)}\) es el mínimo de la muestra ordenada.

Tip 4.1: Ejemplos del cálculo de la mediana

Muestra 1: {10,15,18,25,27}, \(n=5\), posición mediana \(=\frac{5+1}{2}=3\), \(Me= 18\) (valor de la muestra ordenada que ocupa la posición 3)
Muestra 2: {10,15,18,25,27,32}, \(n=6\), posición mediana \(=\frac{6+1}{2}=3.5\), \(Me=\frac{18+25}{2}=21.5\) (promedio entre los valores de la muestra ordenada que ocupan las posiciones 3ª y 4ª)
Muestra de la Figura 4.2: La categoría mediana es igual, lo que se interpreta diciendo que la mitad de los casos quedan igual o empeoran y la otra mitad quedan igual o mejoran.
Muestra de la Figura 4.1 (a): \(Me=17\) años por ser este el primer valor de la variable cuyo porcentaje relativo acumulado supera el 50%.
Muestra de la Figura 4.1 (b): el intervalo mediano es el 26-30. Mediante interpolación lineal se puede aproximar el valor puntual de la mediana, pero la tabla de frecuencias es un resumen de los datos, las medidas descriptivas deben de obtenerse de los datos originales, no de una síntesis.

4.3.1.3 Media

Bajo el concepto de media se definen una familia de medidas de posición con tendencia central. La más habitual es la media aritmética, que se obtiene como la suma de los valores observados dividida por el número de observaciones:

\[ \bar x = \frac{1}{n}\sum\limits_{i = 1}^n {{x_i}} \tag{4.2}\]

Obviamente, esta medida solo puede definirse cuando los datos son cuantitativos, aunque, como ya se ha señalado, la asignación de valores numéricos a variables dicotómicas y ordinales es una práctica frecuente y permite utilizar la media aritmética para localizar la distribución.

Otros tipos de media

Dada una muestra de valores \((x_1,x_2,\dots,x_n)\), el concepto de media se puede generalizar de acuerdo a la expresión de Foster:

\[ M_m= \left\{ \begin{aligned} &\left( \frac{1}{n}\sum_{i=1}^{n}{x_i^m}\right)^{\frac{1}{m}} & \text{ si } m\neq 0 \\ &\left( \prod_{i=1}^{n}{x_i} \right)^\frac{1}{n} & \text{ si } m = 0 \end{aligned} \right. \tag{4.3}\]

Es inmediato comprobar que si \(m=1\), se tiene \(M_1\), que es la media aritmética definida en la Ecuación 4.2. Otras medias posibles se adaptan a este formato al considerar diferentes valores de \(m\)

Si \(m=2\), \(M_2\) es la media cuadrática \[M_2=\;\;Q=\frac{1}{n}\sum_{i=1}^{n}{x_i^2}.\] Constituye una estrategia útil para promediar cantidades que puedan presentarse con signos positivos y negativos pero lo que interesa es la magnitud en sí. Al elevar los valores al cuadrado, se elimina el signo, y el promedio resultante alude al de la magnitud. Esta forma de promediar se presentará más adelante, al definir la desviación típica.
Si \(m=0\), \(M_0\) es la media geométrica \[M_0=\;\;G=\sqrt[n]{\prod_{i=1}^{n}{x_i}}.\] Este tipo de media es más conveniente que la aritmética cuando los valores aumentan en progresión geométrica. En Molina (2023) puede verse un ejemplo de su aplicación a las Ciencias de la Salud.
Si \(m=-1\), \(M_{-1}\) es la media armónica \[M_{-1}=\;\;H=\frac{1}{\sum_{i=1}^{n}{\frac{1}{ x_i}}}.\] Es el recíproco de la aritmética. Una de sus aplicaciones es el promedio de velocidades. Molina (2022) es también una lectura recomendable para entender esta medida. Se aplica sobre cantidades mayores a cero (obsérvese que los cocientes no pueden tener como denominador al valor cero).

Para una muestra dada, se verifica que \(H\le G \le \bar{x} \le Q\).

En ocasiones, los valores a promediar pueden no tener la misma importancia relativa, unos pesan más que otros conforme a algún criterio preestablecido. En estos casos, se debe incluir el factor de ponderación \(w_i\) de cada observación \(x_i\) para obtener así la media ponderada \[\bar{x}_p = \frac{\sum\limits_{i = 1}^n {{w_i x_i}}}{\sum\limits_{i = 1}^n {{w_i}}} . \tag{4.4}\]

Ejemplos de media ponderada

En un curso académico se consideran las calificaciones siguientes: 6 en una asignatura de 3 créditos , 5 en otra de 3 créditos y 9 en una asignatura de 6 créditos. La media aritmética de las calificaciones es \(\bar{x}=\frac{6+5+9}{3}=6.67\), pero este promedio no es correcto, ya que la tercera asignatura tiene el doble de carga docente que las dos primeras. Los créditos de cada asignatura constituyen el peso o factor de ponderación de cada calificación: \(w_1=w_2=3\) y \(w_3=6\), de manera que la media ponderada será \[\bar{x}_p=\frac{3\cdot 6+ 3\cdot 5 + 6\cdot 9}{3+3+6}=7.25\] que es un promedio más justo que el anterior.
Cálculo de la media de una variable discreta resumida en una tabla de frecuencias. Para determinar la media aritmética de los datos presentados en la Figura 4.1 (a) lo lógico es multiplicar cada valor de la edad (\(x_i\)) por su frecuencia (\(f_i\)): \[\overline{edad}=\frac{15\cdot 30+16\cdot 103+\dots+20\cdot 15}{30+103+\dots+15}=17.1.\] Aquí la frecuencia \(f_i\) actúa como factor de ponderación (el \(w_i\) de antes, la \(w\) alude a weight, peso en inglés), de manera que la expresión general para calcular la media de valores presentados en forma de tabla de frecuencias es \[\bar{x}=\frac{\sum_{i=1}^{n}{f_i\: x_i}}{\sum_{i=1}^{n}{f_i}}=\frac{\sum_{i=1}^{n}{f_i\: x_i}}{n}.\] Observemos que promediar los datos de la Figura 4.1 (a) sumando los seis valores de edad y dividiendo por seis (el número de categorías) es una interpretación equivalente al primer planteamiento del ejemplo anterior, el de calcular la calificación media del curso sin considerar la carga docente de cada asignatura.

4.3.1.3.1 Mediana vs. media aritmética

A continuación, se destacan algunas diferencias entre la mediana y la media aritmética como medidas de posición con tendencia central.

Respecto a la métrica de la variable. Cuando los datos son de tipo ordinal ya se puede establecer la categoría mediana de las observaciones, no hace falta que sean valores numéricos, como requiere la media.
Criterio de centralidad. El criterio de centralidad de la mediana es que queden tantas observaciones por debajo como por encima de ella al presentar los datos de acuerdo con su relación de orden. Sin embargo, el criterio de centralidad de la media aritmética es que esta constituye el centro de gravedad de la distribución (Figura 4.8). Es decir, es el punto que hace mínima la suma de las distancias de todas las observaciones respecto a él, verificando que la suma de las distancias a las observaciones a su izquierda tiene la misma magnitud que la suma de las distancias a las observaciones a su derecha. Como consecuencia, a falta de más información, el mejor pronóstico para un nuevo valor, el que -en promedio- va a ser el más aproximado a la nueva observación, es el valor de la media aritmética. Esto confiere a la media un papel mucho más relevante en inferencia que el que tiene la mediana.

Robustez. Cuando el tamaño muestral \(n\) es reducido, la media es una medida más sensible a la presencia de valores extremos (outliers en inglés) que la mediana, que se comporta de forma más robusta. Es decir, el valor de la media puede en presencia de valores extremos puede ser muy diferente al que se obtiene si se excluyen esos valores. Sin embargo, en la medida en que aumenta el tamaño muestral, la media va ganando robustez. Esta sensibilidad se pone de manifiesto en las distribuciones de la Figura 4.9. Cuando la distribución es simétrica, sus dos colas están equilibradas y la media y la mediana coinciden aproximadamente. Sin embargo, la falta de simetría provoca que el valor de la media cambie para compensar la presencia de valores extremos en una de las colas. Para la mediana es indiferente si una observación está alejada respecto al centro de la distribución, lo que cuenta solo es si está por encima o por debajo de ella.

4.3.1.4 Percentiles

Las medidas de posición anteriores atienden al criterio de tendencia central de la distribución. Sin embargo, también es útil caracterizar la localización de los datos atendiendo a criterios no centrales, especialmente para identificar los extremos de la distribución muestral.

Los indicadores más inmediatos para localizar los extremos son el mínimo y el máximo. Obviamente, estos valores solo tienen sentido si los datos son de tipo ordinal o -sobre todo- numérico. No obstante, al basarse en una sola observación, proporcionan información limitada y poco robusta.

Para caracterizar, de una forma más consistente, los extremos de la distribución es preferible hacerlo de forma más robusta, considerando indicadores que tengan implícita más información que la aportada por una sola observación. Estos indicadores son los percentiles.

Se define el percentil alfa, \(P_\alpha\), como el valor de la variable que, en la muestra ordenada, deja por debajo de él al \(\alpha\cdot100\%\) de las observaciones. Es decir, al valor de la variable que, en la muestra ordenada, ocupa la posición \((n+1)\cdot\alpha\)

\[P_\alpha=x_{\left( {(n+1)\cdot\alpha} \right)}. \tag{4.5}\]

Esta definición es una generalización del concepto de mediana. Si en la Ecuación 4.5 consideramos \(\alpha=0.5\) se obtiene la Ecuación 4.1, por lo tanto \(Me=P_{0.5}\).

En la práctica, los percentiles se suelen expresar multiplicando \(\alpha\) por 100. Así, la mediana equivale al percentil 50. Pero hay percentiles con un nombre específico:

Los percentiles 25, 50 y 75 constituyen los tres cuartiles: \(Q1=P_{0.25}\), \(Q2=P_{0.50}\) y \(Q3=P_{0.75}\), que de forma conjunta permiten dividir a las observaciones en cuatro partes, cada una de las cuales contiene -aproximadamente- al 25% de los datos.
Los nueve percentiles que de manera conjunta dividen a la muestra en 10 partes con el 10% de las observaciones son los deciles: \(D_1=P_{0.10}\),…,\(D_5=P_{0.50}=Me\),…,\(D_9=P_{0.90}\).
En Ciencias de la Salud también se suelen considerar los dos terciles: \(P_{0.33}\) y \(P_{0.66}\), que permiten fraccionar al conjunto de observaciones en tres partes, cada una con un 33.3% aproximadamente de los datos. Esta división permite categorizar la variable en valores bajos (si están por debajo del \(P_{0.33}\)), medios (si están comprendidos entre \(P_{0.33}\) y \(P_{0.66}\)) y altos (si están por encima de \(P_{0.66}\)) utilizando como criterio que los tres grupos tengan el mismo número de observaciones.

Todos son cuantiles

Al igual que los deciles avanzan acumulando fracciones del 10% de la muestra y los cuartiles del 25%, el término percentil hace referencia a indicadores que “avanzan” acumulando fracciones del 1%. De manera estricta, existen 99 percentiles, que dividen la muestra en 100 partes, cada una con aproximadamente un 1% de las observaciones.

El término general para todas estas medidas es cuantil. Por lo tanto, percentiles, deciles, terciles y cuartiles son todos casos particulares de cuantiles. No obstante, en la literatura de Ciencias de la Salud es más común utilizar la denominación percentiles, incluso para valores como el percentil 97.5. En este texto se mantendrá este uso genérico.

Es importante indicar que, en R, la función para calcular estas medidas se llama quantile(), aunque se hable de percentiles en el lenguaje común.

El cálculo práctico de un percentil es similar al planteado en el cálculo de la mediana. Dado \(\alpha\) y una vez ordenada la muestra, se determina la posición \((n+1)\cdot\alpha\) y el valor de la variable que ocupa esa posición es el \(P_\alpha\). Lo que ocurre es que ahora el valor de la posición obtenido no será el intermedio entre dos posiciones concretas. Ahora, en lugar de calcular el promedio como en el caso de la mediana, lo correcto es interpolar. De esto se encargará el software adecuado.

Sin embargo, sí que es práctico tener claro cómo determinar cierto percentil a la vista de una tabla de frecuencias. Si se dispone de las frecuencias relativas acumuladas, el \(P\alpha\) será el valor de la variable cuya frecuencia relativa acumulada sea la primera en superar el valor de \(\alpha\). Por ejemplo, en la tabla de la Figura 4.1 (a), \(P_{17}=16\) años, ya que los \(15\) años solo acumulan el 6% de las observaciones. Análogamente, \(P_{50}=Me=17\) años y \(P_{95}=19\) años. La definición de percentil implica que dados dos valores \(\alpha_1<\alpha_2\), se tiene que \(P_{\alpha_1} \le P_{\alpha_2}\). Que la igualdad en esta expresión puede ocurrir, queda bien ilustrada con los datos de la tabla de la Figura 4.1 (a). Por ejemplo, en ella se tiene que \(P_{30}=17\) años, pero también es \(P_{40}=17\) años. De hecho, todos los percentiles entre el 26.7 (\(P_{0.267}\)) y el 72.6 (\(P_{0.726}\)) son 17 años.

En Medicina y Ciencias de la Salud es común caracterizar los extremos de una distribución mediante percentiles. Uno de los criterios más utilizados es el del 5%, que considera como parte central de la distribución al 95% de los casos y como extremos al 5% restante, repartido entre las dos colas. Cuando la distribución es simétrica, lo habitual es que este 5% se distribuya por igual en ambas colas, estableciendo así los límites en los percentiles \(P_{0.025}\) y \(P_{0.975}\).

Finalmente, conviene destacar que los percentiles empiezan a carecer de sentido cuando las muestras son pequeñas.

Finalmente, conviene destacar que los percentiles carecen de sentido o pierden su utilidad en muestras muy pequeñas, ya que el número de observaciones puede ser insuficiente para calcular de forma fiable las posiciones relativas. Como regla general, se recomienda que la muestra tenga al menos 20–30 observaciones para poder estimar percentiles de manera razonable. Por ejemplo, en una muestra de 10 pacientes, el cálculo del percentil 25 o 75 puede depender de un solo valor y resultar poco representativo, mientras que en una muestra de 50 pacientes, o más, los percentiles reflejarán de forma más robusta la distribución de los datos.

4.3.2 Medidas de dispersión

Observemos las dos situaciones presentadas en la Figura 4.11. En los dos casos, la posición de la variable representada está caracterizada por la media, que resulta ser la misma en los dos grupos que aparecen en cada figura. Sin embargo, en ambas situaciones aparece una característica que permite diferenciar a los grupos: su dispersión o variabilidad.

Dada una muestra, del mismo modo que es posible caracterizar la posición de la distribución de la variable observada, también es posible caracterizar su dispersión. Se abordan a continuación los criterios y medidas que se utilizan para ello, debiendo tener presente que la variable considerada ha de ser de tipo numérico.

4.3.2.1 Rango o Amplitud

Se trata de la medida de dispersión más sencilla e inmediata. El rango (\(R\)), o amplitud (\(A\)), que queda definido como la diferencia entre el máximo y el mínimo de los valores de la variable \[R=x_{max} - x_{min}.\] Es una medida intuitiva y rápida de obtener, pero presenta el problema de que solo depende de dos observaciones, las dos extremas. Esto tiene dos implicaciones, por un lado, tal y como se ilustra en la Figura 4.12, no distingue entre una situación en donde el resto de las observaciones se reparten de forma homogénea entre los dos extremos (mayor variabilidad), de otra en la que todos los datos se agrupan en un intervalo reducido, dejando a uno, o a los dos extremos alejados de este grupo.

Por otro lado, es una medida muy sensible a la aparición de valores extremos. La aparición o no de este tipo de valores puede modificar sustancialmente el valor del rango.

4.3.2.2 Varianza

Al definir una medida descriptiva, lo ideal es que esta aproveche la información que aportan todos los datos observados, no solo la de los dos extremos, como hace el rango. Una buena forma de glosar la información aportada por toda la muestra es considerar el criterio de promedio. Pero para medir la dispersión, habrá que definir antes qué es lo que hay que promediar. Una posibilidad es establecer un valor de referencia y cuantificar las distancias¹ de cada observación respecto a dicha referencia.

Lo más lógico es elegir como punto de referencia a una medida de posición con tendencia central, como la media aritmética o la mediana. Consideremos la media aritmética \(\bar{x}\). La dispersión \(d_i\) de una observación \(x_i\) respecto a la media se puede cuantificar por la distancia entre ambos valores, es decir \[d_i=x_i-\bar{x}\] Consecuentemente, la media aritmética de estas distancias es un buen candidato como medida de dispersión que tiene en cuenta la información de toda la muestra.

Sin embargo, surge una pega, la media de las distancias de cada observación a la media es siempre cero \[\bar{d}=\sum_{i=1}^{n}{\frac{d_i}{n}} = \sum_{i=1}^{n}{\frac{x_i-\bar{x}}{n}} =\sum_{i=1}^{n}{\frac{x_i}{n}}-\bar{x} = \bar{x}-\bar{x}=0.\] Esto es consecuencia del criterio de centralidad de la media aritmética, comentado en la Sección 4.3.1.3.1, la suma de las distancias a la media de las observaciones menores a esta medida es igual a la suma de las distancias de las observaciones mayores a la misma.\[\sum_{x_i<\bar{x}}{(x_i-\bar{x})}=-\sum_{x_i>\bar{x}}(x_i-\bar{x}).\] El problema radica en que el planteamiento no tiene en cuenta que las distancias no pueden ser negativas, algo que ocurre en la anterior definición siempre que se haga \(x_i-\bar{x}\) para valores \(x_i<\bar{x}\). La solución es considerar el cuadrado de estas diferencias, es decir, definir \[S^2=\sum_{i=1}^{n}{\frac{d_i^2}{n}}=\sum_{i=1}^{n}{\frac{(xi-\bar{x})^2}{n}}. \tag{4.6}\] Esta ya sí que es una buena medida de variabilidad, se denomina varianza y se puede definir como el promedio de las distancias al cuadrado de cada observación a la media. Solo queda un pequeño detalle. Cuando se considera esta varianza muestral para hacer inferencia sobre el valor de la varianza poblacional, este valor es sesgado, presenta una desviación respecto al verdadero valor poblacional (lo subestima), y este sesgo es más patente cuanto menor sea el tamaño muestral. La solución consiste en promediar las diferencias al cuadrado, no por el tamaño muestral \(n\), sino por los grados de libertad \(n-1\)

\[s^2=\sum_{i=1}^{n}{\frac{(x_i-\bar{x})^2}{n-1}} \tag{4.7}\] Esta es la expresión insesgada de la varianza que se va a considerar en adelante. En algunos textos, se alude a esta expresión como cuasivarianza. Nosotros no lo haremos aquí, de acuerdo con otros autores, mantendremos el término varianza para aludir a ella, ya que es la expresión que se debe usar en inferencia. Es común aludir a la varianza cuyo denominador es \(n\) como varianza poblacional.

Qué son los grados de libertad

Tal y como expresa la Ecuación 4.7, la definición de la varianza incluye a toda la información muestral \((x_1,\dots,x_n)\) y a la aportada por la medida \(\bar{x}\). Pero en la obtención de \(\bar{x}\) ya se ha hecho uso de toda esa información muestral. Esto genera una ligadura o restricción. Veamos un ejemplo para entender esto mejor. Si consideramos la muestra \((4, 5, 12)\), se tiene que \(\bar{x}=(4+5+12)/3=7\). ¿Cuántos datos de esa muestra se pueden cambiar de forma que se mantenga \(\bar{x}=7\)?. Podemos comenzar sustituyendo arbitrariamente dos valores, por ejemplo, considerar el 6 y el 9, pero para que la media siga siendo 7, la tercera observación no puede tomar cualquier valor, ha de ser -forzosamente- otro 6 (\(\bar{x}=(6+9+x_3)/3=7\) solo si \(x_3=6\)). Mantener el valor de la media establece una restricción en los datos. Podríamos cambiar todos menos uno, que tendrá que tomar un valor concreto para mantener el de la media.

Esto supone que la información considerada en la Ecuación 4.7 es el valor que toma \(\bar{x}\) más los valores de \(n-1\) observaciones muestrales, no los de la muestra al completo, ya que la predeterminación de la media establece una restricción. Se dice entonces que se dispone de \(n-1\) grados de libertad. Es más conveniente que el denominador aluda a los grados de libertad (información real) que al tamaño muestral (información real más un dato redundante), ya se ha comentado que, en inferencia, la Ecuación 4.6 infravalora el valor de la varianza poblacional, siendo preferible la varianza expresada en la Ecuación 4.7.

4.3.2.3 Desviación típica

La varianza reúne la información de la dispersión de todos los valores observados en la muestra con un buen criterio de promedio. Pero esta información está expresada en las unidades de la variable elevadas al cuadrado. Si, por ejemplo, estamos estudiando la estatura de una muestra de sujetos, su estatura media podrá venir dada en centímetros, pero la varianza serán centímetros cuadrados. No podemos mezclar unidades de longitud con unidades de superficie. La solución ahora es inmediata, la raíz cuadrada de la varianza será una medida de dispersión basada en un promedio y que ahora sí tendrá las unidades originales de la variable. Esta medida, es la desviación típica o desviación estándar, cuya expresión viene dada por

\[s=\sqrt{\sum_{i=1}^{n}{\frac{(x_i-\bar{x})^2}{n-1}}}. \tag{4.8}\]

Observemos que esta definición es la dada para una media cuadrática en la Sección 4.3.1.3. Efectivamente, la desviación típica es la media cuadrática de las distancias de cada observación a la media aritmética, solo que en el denominador se consideran los grados de libertad (\(n-1\)), y no el número total de observaciones (\(n\)), debido a que hay presente una restricción.

4.3.2.4 Coeficiente de variación

Dos desviaciones típicas no se pueden comparar si no aluden a dos distribuciones de la misma variable que tengan la misma media. En la práctica, esto no suele encontrarse, pero se puede combinar la información que aportan la desviación típica y la media para construir el coeficiente de variación

\[CV=\frac{s}{\bar{x}}\cdot 100\%.\] Este coeficiente, que expresa la desviación típica en unidades de media, es una medida adimensional que habitualmente se multiplica por 100 y se expresa como porcentaje. Al no tener dimensiones, este coeficiente permite comparar la variabilidad de distribuciones con diferente media pero incluso con diferentes unidades de medida.

Una aplicación frecuente del coeficiente de variación es la cuantificación del error de medida de un instrumento. Si se mide repetidamente —y en las mismas condiciones— un mismo objeto, la variabilidad entre las mediciones refleja el error inherente al aparato. Esta variabilidad puede expresarse en términos relativos mediante el CV, lo que permite evaluar cuán grande es el error en proporción al valor medio medido. El CV actúa así como un indicador de error relativo: valores bajos indican que el error representa una fracción pequeña de la magnitud medida, mientras que valores altos señalan que la dispersión constituye una parte importante del valor observado.

Este coeficiente, no es una medida que se pueda obtener siempre. Si \(\bar{x}<0\) el coeficiente sería negativo, y una medida de dispersión negativa carece de sentido. Aunque hay autores que definen a este coeficiente como \(s/|\bar{x}|\), no es la opción por la que optamos aquí. Por otra parte, si \(\bar{x}=0\) el coeficiente queda indefinido, ya que la división por cero genera una indeterminación matemática. Pero tampoco es una medida robusta si la media es pequeña. Un denominador próximo a cero da lugar a un cociente inestable que puede amplificar excesivamente una pequeña variación en su denominador. La recomendación es que el coeficiente de variación solo es un indicador procedente cuando sea \(\bar{x}>1\).

Conviene señalar que, en distribuciones con alta variabilidad, el coeficiente de variación puede ser superior al 100%.

El coeficiente inverso, \(\bar{x}/s\), se denomina en ingeniería coeficiente señal-ruido (Peña Sánchez de Rivera (2014)).

4.3.2.5 Rango intercuartílico

Cuando se utiliza la mediana para sintetizar la posición central de la distribución, no parece muy adecuado utilizar como medida de dispersión a la desviación típica, que en su definición implica como medida de posición a la media aritmética. En este caso, las medidas de posición mas comunes se basan en los cuartiles.

El rango intercuartílico se define como la diferencia entre el tercer y el primer cuartil \[RIQ=Q_3-Q_1.\] Este valor refleja en cuántas unidades de la variable se distribuye el 50% central de las observaciones. Por ejemplo, si en la puntuación de un cuestionario que puede tener 20 puntos como máximo, se observa que \(Q_1=12\) y \(Q_3=16\), entonces \(RIQ=16-12=4\). Es decir, el 50% central de las puntuaciones se distribuyen en 4 unidades de recorrido de la variable.

Una medida similar es el rango semi-intercuartílico, que viene definido como \(RSI=\frac{RIQ}{2}\). En el ejemplo anterior, este valor sería de 2 unidades. Pero eso no implica que el 25% central (superior o inferior) se distribuya en esas 2 unidades, será así siempre que la distribución sea simétrica, al menos en su parte central.

También es posible definir una medida de variación relativa, similar al coeficiente de variación, basada en cuartiles. Para ello, se considera el \(RSI\) como medida de dispersión, y el punto medio entre el primer y el tercer cuartil, esto es \(\frac{1}{2}(Q_1+Q3)\), como medida de posición. Este punto medio deberá ser próximo a la mediana cuando la distribución sea simétrica (al menos en la parte correspondiente al 50% central de los datos). Se tiene así el coeficiente de variación cuartílica \[V_Q=\frac{Q_3-Q_1}{Q_3+Q_1}\cdot100\%\]

4.3.3 Posición y dispersión, dos tipos de medidas inseparables

Al sintetizar mediante medidas descriptivas la distribución de una variable, debe indicarse al menos una medida de posición acompañada de una de dispersión. Ninguna de estas medidas representa gran cosa de forma aislada, debiendo venir cada una acompañada de la otra. En este sentido, la pareja de medidas más habitual es la formada por la media y la desviación típica. En muchos textos puede verse esta información con el formato \(m \pm s\), en donde \(m\) es la forma de aludir a la media aritmética (en lugar de \(\bar{x}\)) en ámbitos de tipo aplicado, en donde se usa menos simbología matemática. Hay que aclarar que la expresión anterior es solo una forma de notación. En general no se pretende aludir a un intervalo, aunque de manera estricta, es lo que está representando. Para evitar esta inducción a confusión, la American Psychological Asociation (APA), una entidad que publica un manual de estilos para los textos científicos de reconocido prestigio internacional, recomienda evitar el uso del símbolo \(\pm\) y en su lugar escribir \(m\; (s)\). Por ejemplo, si la edad observada en una muestra tiene una media de 37 años y una desviación típica de 10 años, la forma de expresar esta información sería \(37\, (10)\;\) años. Por cierto, en estas expresiones hay que utilizar un número de decimales coherente (¿tiene sentido expresar una variable como los años de edad con dos o tres decimales? ¿aporta alguna información de valor ese exceso de decimales?). Por otra parte, la desviación típica siempre debe estar expresada con los mismos decimales que la media, o uno más, nunca menos.

La información conjunta que proporcionan la media y la desviación típica queda establecida por la desigualdad de Tchebychev, que establece que entre la media y \(k\) veces la desviación típica se acumula, al menos, el \[(1-\frac{1}{k^2})\cdot 100\%\] de las observaciones. En Peña Sánchez de Rivera (2014) puede verse la demostración de esta importante propiedad, que se verifica para cualquier tipo de distribución.

Cuando la distribución es simétrica y con forma de campana (más adelante, llamaremos a este tipo de distribución normal), se puede precisar mejor la proporción de casos que queda comprendida entre la media y \(k\) veces la desviación típica. Concretamente, en este tipo de distribución, en el intervalo \(\bar{x}\pm s\) se encuentra, aproximadamente, el 95% central de la distribución (Figura 4.14). Es decir, que \(\bar{x}-2\, s\;\approx\;P_{2.5}\) y \(\bar{x}+2 \, s\;\approx\;P_{97.5}\).

Como ya se ha indicado, en el caso de sintetizar la posición central de la distribución con la mediana, la medida de dispersión acompañante suele ser el rango intercuartílico o también el semiintercuartílico. Obsérvese, que la mediana no tiene por que ser equidistante de los cuartiles primero y tercero, esto solo ocurre cuando la distribución es simétrica, al menos en su 50% central.

4.3.4 Cálculo de las medidas descriptivas con el sistema base de R

Las siguientes funciones admiten la especificación del parámetro na.rm, que alude a eliminar los casos faltantes (not_available.remove) antes de aplicar la función en cuestión. Su valor por defecto es na.rm = FALSE, lo que provoca que la función se interrumpa (no se calcula) cuando aparecen casos con valores faltantes <NA> . Estableciendo na.rm = TRUE se excluyen los casos con información faltante del cálculo.

Funciones para obtener las medidas descriptivas

Tablas de frecuencias

table(variable) proporciona una tabla con las frecuencias absolutas de cada categoría o valor de la variable indicada.

Medidas de posición

median(variable) mediana.
mean(variable) media aritmética.
weighted.mean(variable,ponderación) Media ponderada
min(variable) valor mínimo de la distribución.
max(variable) valor máximo de la distribución.
quantile(variable, \(\alpha\)) proporciona el percentil \(\alpha\) de la variable.

Medidas de dispersión

var(variable) varianza.
sd(variable) desviación típica.
IQR(variable) recorrido, o rango intercuartílico.
El coeficiente de variación. No está implementado en el lenguaje base, pero se obtiene fácilmente a través de la expresión sd(variable)/mean(variable)

Otras funciones descriptivas

summary(variable) proporciona una tabla con los extremos, los tres cuartiles y la media de la distribuión.

4.3.5 Funciones descriptivas en BioestadisticaR2

El paquete BioestadisticaR implementa dos funciones de tipo descriptivo freq() y grps()

BioestadisticaR2: Funciones descriptivas.

freq(), que permite obtener la tabla de frecuencias absolutas y relativas de las categorías de una variable. Si la variable es cuantitativa permite realizar su agrupación en intervalos. Sus argumentos son:
- x vector o data.frame a describir. Si se indica un data.frame proporciona una salida para cada una de sus variables.
- acum valor lógico, si es TRUE proporciona la frecuencia relativa acumulada
- cuts valor entero que permite indicar el numero de intervalos a realizar. Si se omite se utiliza el criterio de Sturges.
- agrup valor lógico. Por defecto, se realiza automáticamente la agrupación en intervalos de aquellas variables que tengan más de 10 valores distintos. Si se establece agrup=FALSE no se hace agrupación (aunque haya más de 10 categorías).
- decs valor entero. Permite especificar el número de decimales a mostrar en la salida. Por defecto este valore es de tres.
- grf valor lógico. Si es TRUE(FALSE) se proporciona(omite) la salida gráfica. Por defecto es TRUE

Para obtener el recuento, la media y la desviación típica de una variable segmentada por los niveles de un factor, el paquete implementa la función

grps(variable, factor) proporciona una tabla con la media y desviación típica de la variable indicada para cada grupo establecido por los niveles de factor.

BioestadísticaR2: Ejemplos de las funciones descriptivas.

A continuación se presentan algunos ejemplos del uso de estas funciones.

dat<-c(12,15,13,12,11,14,15,15,15,12,11,13,14,15,NA)
BioestadisticaR2::freq(dat,grf=FALSE)


Distribución de frecuencias
--------------------------------
Variable:  dat 
Valores faltantes: 1 
n= 14 
 
   x Freq  Prop Prop.Acum
1 11    2 0.143     0.143
2 12    3 0.214     0.357
3 13    2 0.143     0.500
4 14    2 0.143     0.643
5 15    5 0.357     1.000

sexo <- factor(c("hombre","hombre","mujer","hombre","mujer","mujer","mujer","hombre","mujer","hombre"),levels=c("mujer","hombre"))
calcio <- c(9.8,9.5,8.7,10.2,9.3,9.6,8.9,10.4,9.9,10.2) 
BioestadisticaR2::grps(calcio, sexo, grf=FALSE)


# Descriptiva de calcio por sexo
# ------------------------------
 sexo 
         n  media    dt
 mujer   5  9.280 0.492
 hombre  5 10.020 0.363
 Total  10  9.650 0.564

En los dos ejemplos se ha indicado grf=FALSE para no alargar este documento, si deja esta opción en TRUE podrá ver el diagrama resultante en el panel de gráficos de RStudio.

4.4 Recursos y lecturas complementarias

La web R Charts es una buena referencia para encontrar recursos y ejemplos de gráficos de R, tanto los basados en el código base como en ggplot2. Eso sí, a la hora de escribir estas líneas, la web presenta bastante propaganda.

Una introducción a ggplot2 puede encontrarse Wickham et al. (2023). El libro cuenta con con una versión on-line>/a>. Si se desea profundizar en este lenguaje gráfico Wickham Wickham (2016) es una lectura obligada. También hay una versión on-line de esta obra.

4.5 Referencias

Matemáticamente, la distancia entre dos puntos se obtiene como su diferencia. Por ejemplo, la distancia entre 7 y 10 es de 10-7=3 unidades.↩︎