Tema 1
Introducción

Pedro Femia

22/mayo/2026

1 Necesidad de la Estadística en Ciencias de la Salud

\(\tiny \blacksquare \,\,\) Las Ciencias de la Salud (CCS) se centran en el estudio, la promoción y la protección de la salud humana, tanto individual como colectiva.

\(\tiny \blacksquare \,\,\) La información que permite llevar a cabo este desempeño es de naturaleza cuantitativa (prevalencias, niveles de sustancias en sangre, escalas de valoración,…) y se presenta impregnada de una gran variabilidad.

Diversidad humana: la variabilidad es fuente de complejidad
¿En qué figura, A o B, hay más variabilidad?
¿Cuál de las dos es más dificil de describir? ¿por qué?

\(\tiny \blacksquare \,\,\) En este contexto, la Estadística se presenta como una herramienta fundamental, ya que permite:

  • Diseñar y planificar investigaciones (como ensayos clínicos o estudios epidemiológicos) de forma válida y eficiente.
  • Analizar e interpretar objetivamente datos de pacientes, poblaciones o experimentos para obtener conclusiones objetivas y fiables.
  • Evaluar la eficacia y seguridad de tratamientos, medicamentos o intervenciones sanitarias.
  • Tomar decisiones basadas en evidencia, reduciendo la incertidumbre y el error.
  • Comunicar resultados científicos de manera objetiva y comprensible.

\(\tiny \blacksquare \,\,\) Florence Nightingale: enfermera, reformadora, estadística, administradora, investigadora.

\(\tiny \blacksquare \,\,\) En palabras de la OMS:

En todos los dominios de las Ciencias de la Salud, en su vertiente clínica, administrativa o de la investigación, es indispensable conocer los principios estadísticos para comprender bien los problemas y el profesional de la Salud necesita de los datos estadísticos para tomar decisiones válidas 1

1 Martín Andrés & Luna del Castillo (2004, p. 4)

2 Primeras definiciones

\(\tiny \blacksquare \,\,\) Población es el conjunto de sujetos o de elementos de interés en un estudio.

Población diana y población marco
  • La población diana de un estudio es el conjunto de sujetos sobre el que realmente se desea obtener conclusiones, y se define estableciendo
    • condiciones de inclusión: quién cumple las características necesarias para formar parte del estudio.
    • y condiciones de exclusión: quién no debe participar por razones metodológicas, éticas o clínicas.
  • A partir de la población diana se identifica la población marco, que es el grupo accesible y operativo desde el cual se seleccionará la muestra (por ejemplo, los pacientes atendidos en un centro concreto).

Mientras la población diana representa el objetivo conceptual del estudio, la población marco es la versión real y disponible de dicha población, sobre la que se llevará a cabo la selección de participantes.

También puede ocurrir que abordemos una población conceptual, hipotética. Por ejemplo en los ensayos clínicos se estudia la efectividad de un tratamiento sobre enfermos actuales o futuros que todavía no existen.

\(\tiny \blacksquare \,\,\) Entenderemos por variable a una característica cuyo valor o modalidad puede cambiar entre los diferentes sujetos de la población

Algunas variables de interés en Ciencias de la Salud
  • La presión arterial de personas mayores de 60 años
  • La edad de sujetos con asma
  • La presencia/ausencia de una enfermedad como la diabetes
  • El número de infecciones nosocomiales detectadas en una semana en cierto hospital

El primer paso para poder estudiar alguna particularidad de una población es recurrir a algún tipo de resumen que la caracterize.

\(\tiny \blacksquare \,\,\) Un parámetro poblacional es un resumen numérico de la población (en el contexto de la característica de interés).

Algunos parámetros de interés en Ciencias de la Salud
  • La presión arterial media en la población de personas mayores de 60 años
  • La edad promedio de los sujetos que padecen asma
  • La proporción de sujetos diabéticos en la población, es decir la prevalencia de la diabetes
  • El número medio por semana de infecciones nosocomiales en los hospitales de Andalucía
¿Es viable observar a la población en su conjunto? En general la población, en su totalidad, es inmanejable
  • Por definición, una población suele ser un conjunto muy grande de sujetos
  • Las poblaciones son dinámicas:
    • Aparecen nuevos sujetos (nacimiento, inmigración) y otros se pierden (muerte, emigración)
    • Hay cambios de estado, por ejemplo, el sujeto sano puede enfermar y viceversa
  • Si la población es conceptual ni siquiera está totalmente definida en el momento actual

Por lo tanto, para saber algo acerca de una población hay que recurrir a ‘algo’ que sea manejable y que la represente bien: una muestra

\(\tiny \blacksquare \,\,\) Una muestra es un subconjunto de sujetos de una población.

Representatividad de la muestra: concepto de muestra aleatoria

Cualquier muestra no tiene por qué representar bien a la población de origen. Para que una muestra sea representativa de la población de origen debe cumplir dos requisitos:

  • Que cada sujeto de la población tenga la misma oportunidad (más adelante diremos probabilidad) de ser elegido.
  • Que la elección de un sujeto sea independiente de la elección de cualquier otro sujeto.

Una muestra que cumpla estos dos requisitos se dice que es una muestra aleatoria simple.


Cuanto mayor es el tamaño de una muestra ¿es mayor su representatividad?

Supongamos que la característica de interés es el color con que aparecen dibujados los de la población. Extraemos dos muestras ¿qué se entiende por representatividad? La muestra 2 tiene el doble de tamaño que la muestra 1; por ser más grande ¿es más representativa de la población?



3 Qué es la Estadística

La Estadística es la ciencia que se encarga de desarrollar y aplicar métodos para la recolección, organización, análisis, interpretación y presentación de datos.

La inferencia estadística supone un razonamiento inductivo

\(\tiny \blacksquare \,\,\) Los aspectos fundamentales que cubre la Estadística son

  • Diseño del estudio. Es la planificación de la toma de datos: cómo se obtienen, bajo qué condiciones y con qué estructura. Los dos grandes tipos de estudios son el observacional (el investigador solo observa) y el experimental (el investigador interviene asignando tratamientos o condiciones).
  • Tipos de estudio en Epidemiología

    Los estudios epidemiológicos se clasifican según su objetivo y el grado de intervención del investigador:

    • Estudios observacionales
      • Estudios descriptivos
        • Describen la frecuencia y distribución de un suceso* en la población.
        • Permiten identificar problemas emergentes → inspiran hipótesis.
        • Ejemplos: estudios transversales descriptivos, series de casos, estudios ecológicos.
      • Estudios observacionales analíticos
        • Analizan asociaciones entre exposiciones y sucesos.
        • Ayudan a comprender asociaciones y evaluar la influencia de factores de riesgo → Contrastan hipótesis.
        • Ejemplos: estudios de cohortes, estudios de casos y controles.
    • Estudios experimentales
      • El investigador asigna la intervención.
      • Evalúan la eficacia y seguridad de las intervenciones.
      • Ejemplos: estudios cuasi-experimentales, ensayos clínicos aleatorizados (ECA, son la cúspide de la evidencia cuando están bien diseñados),

    Según su temporalidad:

    • Transversal: exposición y desenlace medidos en un único momento.
    • Prospectivo: primero tiene lugar la exposición, despues se hace el seguimiento.
    • Retrospectivo: los sucesos ya ocurrieron cuando se analiza la información.
    • Mixto: parte retrospectivo (selección de casos) + parte prospectivo (seguimiento).
  • Descripción. Síntesis, resumen de los datos obtenidos en la muestra.
  • Inferencia. Es la metodología que permite sacar conclusiones sobre una población a partir de los datos observados en una muestra. .
    Consideraremos dos facetas de la inferencia
    • Teoría de la estimación Su objetivo es asignar valores a los parámetros poblacionales desconocidos (por ejemplo, conocer qué valor toma la prevalencia de una enfermedad en la población)
    • Teoría de los contrastes de hipótesis Su objetivo es decidir si es aceptable o no una hipótesis estadística (por ejemplo, decidir si hay asociación entre el consumo de alcohol y el cáncer de esófago)
  • Adicionalmente, la síntesis de los resultados obtenidos también debe hacerse bajo criterios estadísticos.



4 Tipos de variable

4.1 Tipos métricos

\(\tiny \blacksquare \,\,\) Desde el punto del nivel de medida, el tipo de una variable alude a la naturaleza de su representación y a las relaciones que se pueden dar entre sus diferentes modalidades1.

  • Variables cualitativas o categóricas
    Carecen de representación numérica natural. Se presentan en forma de modalidades o categorías
    • Nominales Sus modalidaes no guardan relación de orden, solo de equivalencia
      Ejemplo: Sexo biológico del sujeto, con modalidades {mujer, hombre}; estado del sujeto con modalidades {enfermo , sano}. Estas variable son binarias o dicotómicas, por tener solo dos categorías
      Ejemplo: Grupo sanguíneo del paciente, con modalidades {A, B, AB, O}
    • Ordinales No son números, pero entre sus modalidades sí que hay relación de orden (además de la de equivalencia)
      Ejemplo: Estado del paciente, con modalidades {peor, igual, mejor}
  • Variables Cuantitativas o numéricas
    Son magnitudes numéricas
    • Discretas Sus valores son números enteros. Los recuentos son variables discretas
      Ejemplos: Número de recaidas tras una intervención, Número de hijos, Número de episodios de apnea nocturna, etc.
    • Continuas Sus valores son números enteros. Las medidas son variables continuas
      Ejemplos: Peso, Estatura, Nivel de colesterol, etc.

Importancia de la métrica de la variable El nivel de medida de una variable condiciona qué procedimientos estadísticos son aplicables sobre ella.
Una cosa es el tipo natural de la variable y otra cómo se la considera en un estudio concreto

¿De qué tipo es la variable edad?

  • La edad, como paso del tiempo desde el momento del nacimiento, es continua

  • Habitualmente se la trata discretizadatruncada!)

  • También se puede categorizar en forma de grupos de edad

  • Incluso se puede dicotomizar, por ejemplo en infantil/adulto

1 véase el artículo Wikipedia: Nivel de medida



4.2 Tipos informáticos

\(\tiny \blacksquare \,\,\) Desde el punto de vista informático, el tipo, o la clase, de una variable alude a la forma como se almacena la información y las operaciones que resultan admisibles.

R Tipos básicos en R
Tipo básico Ejemplo Descripción
numeric   3.14, 2.0 Números reales (doble precisión por defecto)
integer   2L, 10L Números enteros (la “L” indica tipo entero)
logical   TRUE, FALSE Valores lógicos o booleanos
character "hola", "R" Cadenas de texto
complex   2 + 3i Números complejos (sin interés aquí)
raw       charToRaw("A") Datos en formato binario (sin interés aquí, raro en el uso común)



\(\tiny \blacksquare \,\,\) Además de los tipos básicos, en R se definen ciertas estructuras de datos, que constituyen una forma organizada de almacenar valores de los tipos básicos que determina cómo se accede, manipula y procesa la información.

R Estructuras de datos
Estructura Homogénea o heterogénea Descripción Ejemplo
Vector Homogénea Conjunto de elementos del mismo tipo básico c(1, 2, 3)
Matrix / Array Homogénea Vectores con 2 o más dimensiones matrix(c(1,2,3,4), nrow=2,byrow=TRUE)
List Heterogénea Colección de [objetos.{cur}] de distintos tipos o estructuras list(1, "a", TRUE)
Data frame Heterogénea por columnas Lista especial en donde cada elemento columna es un vector de la misma longitud. data.frame(x=c(1,2,3), y=c("a","b","c"))
Factor Especial (categórico) Codifica variables cualitativas (texto) como enteros con etiquetas. factor(c("bajo", "alto", "medio"))



4.3 Tipos funcionales

\(\tiny \blacksquare \,\,\) Desde el punto de vista del rol que desempeñan las variables en un estudio, se puede hablar de

  • Variables respuesta son aquellas cuyos niveles o valores se pretenden analizar en términos de los valores o los niveles de otras variables
  • Variables explicativas son las variables cuyos niveles o valores pueden estar asociados o ser condicionantes de los que toma la variable respuesta
Variables dependientes e independientes

La denominación como variables dependientes para aludir a la respuesta e independientes, para aludir a las explicativas, está desaconsejada y es preferible evitarla.

\(\tiny \blacksquare \,\,\) También se pueden distinguir

  • Variables mediadoras o moderadoras: Son aquellas que alteran la relación entre las variables explicativas y la respuesta.
    En una relación causal, forman parte intermedia en el mecanismo entre la causa (variable explicativa) el efecto (variable respuesta)
  • Variables confusoras: Son aquellas que están asociadas tanto con la variable explicativa como con la respuesta y pueden distorsionar la relación observada entre estas últimas
  • Variables extrañas: son aquellas que no se han considerado en la investigación y que pueden tener un efecto confusor en la relación entre las variables de interés (es importante identificarlas en la etapa de diseño e intentar controlarlas)
Relación entre el nivel de actividad física y la presión arterial sistólica

  • Supuesto a investigar: La práctica de actividad física (AF) reduce la presión arterial sistólica (PAS)
  • Mecanismo mediador: La AF reduce la frecuencia cardiaca en reposo, lo que a su vez contribuye a reducir la PAS
  • Confusión: Valores más altos de la edad o del índice de masa corporal suelen reducir la práctica de AF y aumentar la PAS





5 Presentación de los datos

\(\tiny \blacksquare \,\,\) El análisis estadístico se realiza habitualmente sobre datos estructurados en forma de matriz de casos\(\times\)variables.
Se trata de una organización en forma de matriz bidimensional, con filas y columnas, en donde cada fila representa a un caso y cada columna a una variable.

R Matriz de casos\(\times\)variables: el data.frame
  • Es una estructura rectangular en la que los datos de una misma columna son siempre del mismo tipo y los datos de columnas diferentes pueden tener tipos diferentes.

  • Cuando se desconoce la información de una variable para un caso concreto, se dice que se tiene un dato faltante o perdido.
    Esto se codifica como NA (del inglés Not Available).

    Presentación de un data.frame en RStudio. El primer sujeto presenta un valor faltante (NA) en la variable colesterol.

6 Referencias y lecturas recomendadas

Agresti, A., & Kateri, M. (2022). Foundations of Statistics for Data Scientists With R and Python (1st Ed.). Chapman & Hall/CRC Texts in Statistical Science.
Altman, D. G. (1991). Practical Statistics for Medical Research. London: Chapman & Hall.
Koepsell, T. D., & Weiss, N. S. (2025). Epidemiologic Methods: Studying the Occurrence of Illness (2.ª ed.). New York, NY, USA: Oxford University Press.
Martín Andrés, A., & Luna del Castillo, J. de D. (2004). Bioestadística para las Ciencias de la Salud. Madrid: Norma.
Martín Andrés, A., & Luna del Castillo, J. de D. (2013). 40 ± 10 horas de Bioestadística. Madrid: Ed. Norma-Capitel.
Rosner, B. (2016). Fundamentals of Biostatistics (8.ª ed.). Boston: Brooks/Cole.



7 Material de este proyecto