2 Introducción

Autor/a

2.1 Necesidad de la Estadística

Las Ciencias de la Salud pueden contemplarse como una disciplina especializada que está inmersa en un ámbito mucho más general, el de las Ciencias de la Vida, y si algo caracteriza a la vida es su enorme variabilidad¹. Esta afecta a todos los niveles. Desde las múltiples modalidades en que se pueden presentar los organismos vivos, hasta la diversidad de individuos de una misma especie, o de células en un mismo organismo, o de moléculas que -teniendo la misma composición química- presentan estructuras tridimensionales diferentes. Sin duda, esta variabilidad confiere a nuestro mundo una gran dosis de complejidad, algo que lo hace mucho más interesante a la par que más difícil de conocer. Centrando la atención en nuestra especie, Richard Lewontin, en su ensayo La diversidad humana, define a esta como

la variedad de características personales específicas que hacen a cada ser humano único y diferente de los demás. […] Algunas de estas características son la edad, la clase social, el estatus socioeconómico, la corporalidad, el estado de salud, las capacidades y las aptitudes, el sexo, la orientación sexual, la identidad de género, la nacionalidad, el origen étnico, la cultura, la religión, la espiritualidad o las creencias. (Lewontin, 1984).

Podemos seguir indefinidamente añadiendo características a la relación señalada por Lewontin: el peso, la estatura, el nivel de colesterol, el nivel de glucemia, la calidad de vida, la autosuficiencia, etc. En algunos caracteres, la diversidad se deriva de la variabilidad genética. Sin embargo, los rasgos que quedan determinados geneticamente para toda la vida del sujeto son más la excepción que la norma. El grupo sanguíneo es un buen ejemplo de determinismo genético, se nace y se muere con el grupo que fue definido en la concepción del sujeto. Sin embargo, en la gran mayoría de los rasgos, la determinación genética se traduce en una correspondencia entre los ambientes posibles y un “paisaje” de fenotipos resultantes. Pero la interacción con el entorno introduce aún más variabilidad que la derivada de la “elección del paisaje”. A lo largo de su vida, cada sujeto está expuesto al ruido de desarrollo. Se trata de acontecimientos de naturaleza aleatoria que van a influir de forma decisiva en los rasgos que caracterizan al individuo. Esto pone de manifiesto la importancia del azar -como suceso accidental- y el hecho de que la dimensión temporal actúa promoviendo el aumento de complejidad. Por lo tanto, las peculiaridades de cada sujeto dependerán también del momento en sea observado.

El tiempo como generador de variabilidad

McShea & Brandon (2010) contemplan al tiempo como un generador de variabilidad hasta el punto de constituir per sé una fuerza evolutiva. A lo largo del tiempo, los factores aleatorios (accidentales, imprevisibles) que afectan a cualquier sistema inducen un aumento de su complejidad.

Una valla recien construida y dos posibles estados de la misma valla tras el transcurso de un tiempo

¿Cuál de las vallas de la figura se describe de forma más simple, la que está recién construida (A) o la misma valla transcurridos unos años (B₁, o quizá B₂)? La mayor variabilidad en los elementos que constituyen la segunda hace que su caracterización sea más difícil, más compleja, en comparación con la primera, donde los listones son idénticos. Por otra parte, ¿es admisible pensar que B₁ y B₂ son el mismo tipo de valla? No son exactamente iguales, pero ¿hasta qué punto se puede pensar que las diferencias no son relevantes?.

En este contexto, de enorme variabilidad, es en el que se desenvuelven las Ciencias de la Vida y, en particular, las Ciencias de la Salud. En él, la tarea de saber si, por ejemplo, determinado tratamiento es efectivo para curar cierta enfermedad, se complica. Hay sujetos para los que sí lo es y otros para los que no tanto. ¿Por qué? ¿Cuales son los factores que condicionan esta efectividad?

A esta dificultad, se une el hecho de que las poblaciones bajo estudio suelen ser de un tamaño tan grande que las hace inobservables en su totalidad. Por ejemplo, no es posible observar a toda la población con hipertensión para saber si es mejor administrar el tratamiento a primera hora del día o por la tarde, o si da igual. Es más, algunas personas de la población ni siquiera saben que son hipertensos. Por otra parte, las poblaciones son dinámicas, están en cambio permanente. Hay entrada y salida de sujetos así como cambios de estado. Si pudiéramos observar a todos los hipertensos, durante el proceso la población habrá cambiado.

La solución es que en lugar de investigar a toda la población, hay que conformarse con considerar a una parte de ella, una muestra. Aquí es donde nace la necesidad de la Estadística. Por un lado, la forma de obtener la muestra debe garantizar su representatividad. De ello se preocupan las técnicas de muestreo estadístico. Una vez obtenida la muestra, el siguiente paso es sintetizar la información que esta contiene mediante las técnicas descriptivas. Pero el resumen de los casos observados no suele ser de mayor interés si no es posible derivar, a partir de ellos, conclusiones para toda la población. Esto supone considerar razonamientos de tipo inductivo, es decir, procesos de pensamiento lógico que permitan llegar a conclusiones generales a partir de observaciones particulares. Según este tipo de razonamiento, la conclusión obtenida no es necesariamente cierta, será necesario considerar que se verifica con cierta probabilidad. Este proceso inductivo es llevado a cabo por los métodos inferenciales, cuyo pilar básico es la teoría de la probabilidad.

La aplicación del proceso descrito es el que actualmente permite avanzar en el conocimiento en el ámbito de las Ciencias de la Salud. Gracias a él, es posible identificar relaciones y tendencias en los datos clínicos, tomar decisiones basadas en la evidencia, evaluar la efectividad de un tratamiento, y un largo etcétera.

2.2 Conceptos básicos

2.2.1 Población

Normalmente, se entiende por población un conjunto de elementos de la misma naturaleza, claramente definido en el espacio y el tiempo, y que es objeto del estudio. Los elementos de la población pueden ser sujetos (como los habitantes de un país, o los individuos seropositivos de VIH, etc.) o cualquier otra entidad (hospitales, hogares, bacterias, etc.). Esta definición corresponde a poblaciones que son reales, tangibles.

Sin embargo, a menudo conviene establecer escenarios definiendo poblaciones conceptuales, generadas por una abstracción. En cualquier caso, el concepto de población suele tener implícita la imposibilidad de poder observarla en su totalidad en un periodo de tiempo razonable. Se trata de conjuntos de gran tamaño² y sometidos a un comportamiento dinámico, sus elementos están expuestos a cambios inducidos por el paso del tiempo. Adicionalmente, aunque la población sea tangible, es frecuente que presente elementos que resulten inaccesibles para su observación. Es por ello que se distingue la población de muestreo, aquella parte de la población original que sí es posible observar, de la población objetivo, aquella sobre la que va dirigido el estudio, siendo lo ideal que ambas coincidan.

2.2.2 Muestra

Dado que resulta imposible observar a toda la población en su totalidad, el recurso científico consiste en seleccionar un subconjunto manejable de elementos de la misma, es decir, una muestra.

El tamaño muestral (\(n\)) se refiere al número de elementos que componen la muestra. Si se conoce el tamaño poblacional (\(N\)), entonces \(f=n/N\) representa la fracción de muestreo.

Al igual que cuando una fotografía busca representar un paisaje, la muestra debe ser representativa de la población de la que proviene. Esto significa que debe reflejar, en su justa medida, toda la variabilidad de los caracteres presentes en la población.

La representatividad depende del proceso de selección de los elementos, no del tamaño muestral. Este proceso de selección es más fácil de realizar cuando existe un marco de muestreo, es decir, un registro de los elementos de la población que permite seleccionar los casos que compondrán la muestra. Si la selección favorece la presencia de ciertos caracteres y la ausencia de otros, se produce una muestra sesgada, o con tendencia. Este sesgo implica que las inferencias sobre la población serán incorrectas. Por ello, una muestra debe ser insesgada para garantizar que represente correctamente a la población de origen.

Más adelante, al abordar las nociones básicas sobre probabilidad, se considerarán algunos aspectos del muestreo.

2.2.3 Parámetro

Un parámetro poblacional es una cantidad numérica que sintetiza cierta información sobre la población. Por ejemplo, la prevalencia del tabaquismo en la población española es un parámetro que indica la extensión del consumo de tabaco en dicha población. Su valor podría calcularse dividiendo el número actual de fumadores por el tamaño de la población, \(N\):

\[\text{prevalencia (tabaquismo)} = \frac{\text{nº de fumadores}}{N}\]

El problema es evidente, no es posible contar a todos los fumadores en una población de más de 47 millones de habitantes. Incluso si lo fuera, este recuento sería poco operativo; durante el proceso nacerían nuevos individuos, otros fallecerían, algunas personas que antes no fumaban podrían empezar, y algunos fumadores podrían abandonar la adicción.

Una solución es seleccionar una muestra representativa de la población española y determinar la prevalencia muestral del tabaquismo. A partir de este estadístico³, y aplicando los métodos inferenciales adecuados, podremos hacer estimaciones sobre la prevalencia del tabaquismo en la población completa.

El concepto de parámetro implica que se trata de una cantidad constante. Sin embargo, las poblaciones tangibles son dinámicas y cambian continuamente, como ilustra el ejemplo del tabaquismo. Aun así, dado el tamaño de la población, estos cambios suelen ser suficientemente lentos como para que los parámetros puedan considerarse constantes durante un periodo de tiempo limitado. Otros ejemplos de parámetros son la edad media de la población, el valor medio del nivel de colesterol, la proporción de hombres y mujeres o la proporción de personas obesas. Cabe enfatizar que los parámetros son resúmenes numéricos que no varían drásticamente de un día para otro. Como se puede intuir de los ejemplos anteriores, valores medios y proporciones van a ser parámetros de gran interés.

2.2.4 Variable

Llamamos variable a cualquier característica que pueda diferir de un individuo a otro dentro de la población. En poblaciones humanas, son variables la edad, el peso, la estatura, etc., es decir, magnitudes que cambian de un sujeto a otro. También lo son el sexo, el grupo sanguíneo o si el sujeto fuma o no. Estas son magnitudes o aspectos observables que podemos registrar como información muestral para luego elaborar inferencias sobre la edad media de la población, el peso medio, la distribución por sexos, grupos sanguíneos, etc.

Al observar los ejemplos anteriores, se nota que algunas variables tienen identidad numérica (edad, peso, estatura), mientras que otras no (sexo, grupo sanguíneo, condición de fumador). Esto nos permite distinguir dos grandes tipos de variable:

Variables categóricas o cualitativas: se presentan en diferentes categorías o modalidades que no tienen identidad numérica. Dentro de este tipo de variables se distinguen dos subtipos principales: nominales y ordinales.
- Variables categóricas nominales: sus categorías no admiten ningún tipo de orden. Por ejemplo, la variable sexo tiene las categorías {masculino, femenino}, y la variable grupo sanguíneo las categorías {A, B, AB, 0}, en ambos casos, el orden con el que se presentan es puramente arbitrario. Cuando una variable nominal solo presenta dos categorías se dice que es binaria o dicotómica, un tipo de variable de especial relevancia en Ciencias de la Salud. En las variables nominales, la única relación posible entre dos observaciones es la de equivalencia: por ejemplo, “tengo el mismo grupo sanguíneo que tú”, pero no “más” o “menos”.
- Variables categóricas ordinales: además de la relación de equivalencia, permiten establecer un orden entre sus categorías. Por ejemplo, tras la aplicación de un tratamiento, el estado del paciente puede clasificarse como peor, igual o mejor que antes. En este caso, es posible afirmar tanto “estoy igual que tú” (equivalencia) como “estoy mejor o peor que tú” (orden).

En el manejo de variables categóricas, tanto nominales como ordinales, es frecuente asignar valores numéricos arbitrarios a sus categorías. Esta práctica facilita el análisis, pero no convierte a la variable en cuantitativa, ya que dichos valores actúan únicamente como códigos.

Variables cuantitativas o numéricas: se representan mediante una escala numérica. A diferencia de las variables categóricas, aquí no hablamos de categorías, sino de valores. Se subdividen en dos grandes tipos:
- Discretas: corresponden, por lo general, a recuentos. Por ejemplo, el número de hijos, el número de recidivas de una enfermedad o el número de camas libres en un hospital en un momento dado son variables discretas, ya que son recuentos que solo pueden tomar valores enteros.
- Continuas: suelen ser medidas. Variables como el peso, la estatura o el nivel de colesterol de un individuo son ejemplos típicos. Se habla de variables continuas cuando el conjunto de valores posibles se identifica con el de los números reales, al menos desde un punto de vista teórico.

El tipo de variable es determinante para elegir el tratamiento estadístico adecuado. Sin embargo, el tipo “real” de una variable y la forma en que se la trata en la práctica no siempre coinciden. Un ejemplo clásico es la edad: se trata de una medida de tiempo —el transcurrido desde el nacimiento hasta el momento actual— y, por tanto, es una variable continua. No obstante, en la práctica suele tratarse como discreta, expresándola en años completos mediante truncamiento⁴.

Este ejemplo ilustra que, cuando se dispone de una variable con alto contenido informativo, siempre es posible perder información y tratarla como si perteneciera a un tipo con menor riqueza informativa. En este sentido:

Las variables binarias representan el mínimo nivel de información posible (sí/no).
Las variables continuas contienen el máximo nivel de información, aunque pueden transformarse mediante distintos cambios de métrica: discretización (reducción a valores enteros⁵), categorización (agrupación en clases con orden) o dicotomización (reducción a dos categorías).

Estas transformaciones no deben realizarse de forma indiscriminada. Durante la fase analítica de un estudio conviene preservar la máxima información posible; sin embargo, en la fase de comunicación o resumen final, una métrica más simple puede facilitar la interpretación de los resultados.

Como es lógico, siempre es posible perder información, pero no crearla; invertir las flechas de la Figura 2.2 no permite recuperar datos que no estaban presentes originalmente. No obstante, existen matices importantes. Una variable discreta con un rango suficientemente amplio puede tratarse, en la práctica, como si fuera continua.

Un ejemplo claro es la frecuencia cardiaca. Aunque se trata de un recuento discreto de latidos por minuto, su rango de valores es amplio y su origen fisiológico es continuo (el intervalo temporal entre latidos). Por ello, es habitual analizarla mediante métodos propios de variables continuas, introduciendo, si es necesario, una corrección por continuidad. Situaciones similares se dan con otras variables fisiológicas, como la presión arterial sistólica o diastólica.

De forma análoga, las variables ordinales pueden codificarse mediante valores numéricos arbitrarios —respetando el orden y la magnitud relativa entre categorías— y tratarse como discretas en determinados análisis. Más adelante se presentarán ejemplos concretos de estas aproximaciones.

Finalmente, conviene recordar que, dado que los instrumentos de medida tienen una precisión limitada, todas las mediciones son discretas en sentido estricto. Medir la estatura como 1,72 m o 172 cm puede dar apariencia de continuidad, pero el valor observado depende de la resolución del instrumento. Aun así, cuando la riqueza de valores posibles es elevada y el tamaño muestral es grande, la aproximación a la continuidad resulta adecuada y estadísticamente útil.

2.2.5 Magnitudes físicas y constructos psicológicos

En la investigación en Ciencias de la Salud se trabaja con muchas variables que pueden medirse de forma directa: el sexo, la edad, el peso, la glucemia o la tensión arterial, entre otras. Todas ellas pueden observarse o registrarse con instrumentos bien establecidos, lo que facilita su cuantificación.

Pero no todas las variables relevantes en salud funcionan así. Hay aspectos como la ansiedad, la calidad de vida o el estrés cuya intensidad no puede captarse con un aparato de medida, porque no existen equivalentes a un glucómetro o un tensiómetro para estos fenómenos psicológicos. Para describirlos y medirlos, se parte de lo que en ciencias del comportamiento se conoce como constructos: ideas o conceptos teóricos que se usan para representar procesos que no pueden observarse directamente.

La disciplina que estudia cómo medir estos constructos es la Psicometría, que se encarga de diseñar, evaluar y validar los instrumentos adecuados para ello. Estos instrumentos suelen presentarse en forma de tests o cuestionarios, aunque de manera general se les denomina simplemente instrumentos de medida.

Un paso clave en la construcción de instrumentos de medida es definir cómo se va a evaluar aquello que se desea medir; es decir, cómo elaborar escalas capaces de traducir un fenómeno intangible en un valor interpretable. Entre las distintas técnicas disponibles, una de las más utilizadas por su sencillez y eficacia es la de las escalas sumativas tipo Likert.

Una escala de Likert es un formato de respuesta utilizado en los ítems de un cuestionario, en el que la persona debe elegir entre varias opciones ordenadas que reflejan distintos grados de acuerdo, frecuencia, probabilidad o importancia (por ejemplo, desde “muy en desacuerdo” hasta “muy de acuerdo”). Cada ítem constituye una variable ordinal, pues sus categorías mantienen un orden aun cuando la distancia entre ellas no sea exactamente la misma (aunque idealmente debería serlo). Dado que un constructo no puede describirse adecuadamente mediante un solo ítem, los instrumentos suelen incluir varios que, en conjunto, representan el mismo rasgo o dimensión. A cada categoría de respuesta se le asigna un valor numérico y la puntuación total se obtiene sumando los valores otorgados por la persona en cada uno de ellos. Este procedimiento —la suma de los ítems Likert— da lugar a una escala sumativa tipo Likert, que permite estimar el nivel del constructo de manera más robusta y estable que lo que podría lograrse con un único ítem.

Escalas habituales usadas en los ítems de tipo Likert

acuerdo: totalmente en desacuerdo / en desacuerdo / indiferente / de acuerdo/ totalmente de acuerdo
frecuencia: nunca / raramente / ocasionalmente / frecuentemente / casi siempre
importancia: irrelevante / de poca importancia / normal / importante / muy importante

En Ciencias de la Salud encontramos numerosos instrumentos basados en este enfoque. Un ejemplo es el test de Zarit, compuesto por 22 ítems orientados a evaluar el nivel de sobrecarga del cuidador. Otro caso conocido es la escala Norton, formada por 14 ítems diseñados para estimar el riesgo relacionado con la integridad cutánea. Estos instrumentos ilustran cómo la integración de varios ítems con formato Likert permite medir constructos complejos de manera fiable y sistemática.

Test de Zarit para evaluar el nivel de sobrecarga del cuidador

El test consta de 22 ítems cada uno de los cuales se puntúa de 0 a 4 puntos (método anglosajón) o de 1 a 5 (método español). En el primer caso, la puntuación total del test es de 0 a 88 puntos, mientras que en el segundo es de 22 a 110. Es habitual que la puntuación final obtenida se categorice para dar un diagnóstico. Las categorías son:

< 46 (o < 68 en Esp.) …… No hay sobrecarga
46-56 (o 68-78 en Esp.) .. Sobrecarga moderada
> 56 (o >78 en Esp.)…….. Sobrecarga intensa

El hecho de que existan dos criterios de puntuación, pone de manifiesto la arbitrariedad en la asignación de valores cuantitativos a los niveles de intensidad en la escala. Ninguno de los criterios es superior al otro, los dos respetan el orden y la distancia conceptual entre los niveles de frecuencia.

Cuando se trata con instrumentos de medida de magnitudes físicas -por ejemplo, un metro para medir la estatura-, el instrumento suele presentar una validez implícita, es decir, es indiscutible que un metro permite medir distancias. Sin embargo, al elaborar un instrumento psicométrico, su validez es algo que hay que comprobar. Es decir, se trata de probar que el instrumento mide realmente la intensidad con la que se presenta el rasgo para el que se ha diseñado, y no otra cosa. Así mismo, igual que ocurre con la precisión de los instrumentos físicos de medida, los psicométricos también van a presentar un nivel de fiabilidad, es decir, si se mide a los mismos sujetos en las mismas circunstancias, hasta qué punto se reproducen los mismos resultados. La elaboración de nuevos cuestionarios implica analizar estos aspectos, lo que requiere del uso de la metodología estadística apropiada.

El hecho de que las escalas sumativas tipo Likert se construyan a partir de varios ítems con puntuaciones numéricas plantea una cuestión fundamental: ¿hasta qué punto ese conjunto de ítems mide realmente el constructo que pretende evaluar? Cuando trabajamos con instrumentos de medida de magnitudes físicas —por ejemplo, un metro para medir la estatura—, la validez del instrumento suele darse por sentada: es evidente que un metro mide distancias, se dice que este instrumento tiene validez implícita. Sin embargo, en el caso de los instrumentos psicométricos, esta validez no puede asumirse de forma implícita, sino que debe demostrarse. Es necesario comprobar que el cuestionario realmente mide la intensidad del rasgo para el que ha sido diseñado y no otra cosa distinta.

De manera análoga a lo que ocurre con la precisión en los instrumentos físicos, los instrumentos psicométricos también deben mostrar un nivel adecuado de fiabilidad: es decir, deben producir resultados consistentes cuando se aplican repetidamente a los mismos sujetos en condiciones similares. Por ello, la mera construcción de un conjunto de ítems y su suma no garantiza por sí sola que se esté midiendo aquello que se pretende medir. Es imprescindible evaluar de forma sistemática tanto su validez —comprobar que el instrumento realmente capta el rasgo o constructo para el que ha sido diseñado— como su fiabilidad, que asegura la estabilidad de sus resultados.

El análisis de estos aspectos requiere la aplicación de la metodología estadística adecuada y constituye una fase esencial en la elaboración de cualquier cuestionario. Aunque los detalles técnicos exceden el propósito de este texto, es importante subrayar que la validación psicométrica es lo que convierte un conjunto de ítems en una herramienta rigurosa y útil para medir constructos complejos en Ciencias de la Salud.

2.3 Tipos de estudio en epidemiología

La epidemiología estudia la frecuencia, distribución y determinantes de los sucesos relacionados con la salud en las poblaciones. Para ello, dispone de distintos diseños de estudio, que pueden agruparse en grandes categorías según el objetivo del estudio y la forma en que se recogen los datos.

Las dos grandes categorías vienen determinadas por el hecho de si el investigador solo observa o bien interviene asignando tratamientos. En el primer caso, se habla de estudios observacionales mientras que en el segundo se habla de estudios experimentales.

Desde una perspectiva práctica, distinguiremos tres grandes tipos de estudios epidemiológicos:

Estudios descriptivos
Estudios analíticos
Estudios experimentales

Cada uno de ellos responde a preguntas diferentes y cumple un papel específico dentro del proceso de investigación en salud.

2.3.1 Estudios observacionales

En este tipo de estudios, el investigador no interviene, sino que se limita a observar lo que ocurre. Dentro de este enfoque se pueden distinguir dos grandes categorías: los estudios descriptivos, cuyo objetivo principal no es analizar relaciones, sino generar hipótesis, y los estudios analíticos, diseñados específicamente para contrastar hipótesis. Conviene señalar que esta distinción no siempre es completamente rígida, ya que algunos estudios descriptivos pueden incluir elementos de análisis comparativo. A continuación, se presenta una descripción detallada de cada categoría.

2.3.1.1 Estudios descriptivos

Tienen por objetivo describir la frecuencia y la distribución de un suceso en la población, por ejemplo una enfermedad, permitiendo estimar medidas del máximo interés epidemiológico, como son la tasa de incidencia o la prevalencia de dicha enfermedad.

Los estudios descriptivos no buscan establecer relaciones y mucho menos permiten inferir causalidad. Se centran en responder al qué, quién, cuándo y dónde, sin incluir grupos de comparación. Así, este tipo de estudios pretende responder preguntas como: qué se tiene, quién lo tiene, dónde ocurre con mayor frecuencia o cuándo se produce.

A continuación se presentan los principales estudios de tipo descriptivo.

2.3.1.1.1 Estudio ecológico

La unidad de análisis no son los individuos, sino grupos o poblaciones completas. Se examina la relación entre una exposición y una determinada característica a partir de datos agregados por grupos (por ejemplo, hospitales, escuelas, barrios, regiones o países), en lugar de datos individuales. El principal riesgo de este tipo de estudios es la denominada falacia ecológica o de población, que consiste en inferir incorrectamente conclusiones sobre los individuos a partir de información obtenida a nivel grupal. En estos estudios se asume implícitamente que todos los miembros de un grupo comparten las características promedio del mismo, ignorando la variabilidad interindividual.

2.3.1.1.2 Serie de casos

Estudio basado en la descripción detallada de uno o varios pacientes con una enfermedad, síntoma, manifestación clínica o suceso sanitario inusual. No incluye grupo de comparación ni análisis estadístico inferencial. Su objetivo es documentar características clínicas, la evolución temporal, los tratamientos recibidos o la aparición de aspectos inesperados, como reacciones adversas o casos atípicos de interés especial. Un ejemplo sería la descripción de los primeros 20 pacientes diagnosticados con SARS-CoV-2 en un hospital en febrero de 2020. Cuando el estudio se limita a un solo paciente se habla de estudio de caso único; por ejemplo, la descripción de una reacción anafiláctica tras la administración de un fármaco habitualmente seguro.

2.3.1.1.3 Estudio transversal descriptivo

Es un diseño en el que la exposición y el suceso de interés se miden en un único momento del tiempo, proporcionando una visión instantánea del estado de salud de una población. Su finalidad principal es describir la frecuencia y la distribución de un suceso, lo que permite estimar medidas como su prevalencia. En este tipo de estudio, la unidad de análisis son individuos pertenecientes a una población bien definida y no existe seguimiento temporal ni grupos de comparación establecidos con fines analíticos. Debido a la ausencia de información sobre la secuencia temporal entre exposición y suceso, este tipo de estudios no permite establecer relaciones causales. Por su sencillez y bajo coste, es un diseño ampliamente utilizado en epidemiología y salud pública. Un ejemplo de este tipo de estudio es aquel en el que se considera una muestra de adultos atendidos en un centro de salud en un momento concreto, describiendo su distribución según edad y sexo, con el objetivo de estimar la prevalencia de la hipertensión arterial.

En la práctica, los estudios descriptivos son especialmente útiles para detectar problemas de salud emergentes, conocer la magnitud de un suceso o planificar cuidados y recursos asistenciales.

2.3.1.2 Estudios analíticos

Los estudios observacionales analíticos tienen como objetivo evaluar la existencia de asociaciones entre la exposición a un determinado factor y la aparición de una respuesta, comparando grupos definidos en función de la presencia o ausencia de dicha exposición o de la propia respuesta. A diferencia de los estudios descriptivos, incorporan grupos de comparación y permiten estimar medidas de asociación del máximo interés, como son el riesgo relativo o la odds ratio. No obstante, al no existir asignación aleatoria de la exposición, estos estudios no permiten establecer relaciones causales de forma concluyente y están sujetos a sesgos y factores de confusión.

2.3.1.2.1 Estudio transversal analítico

Este tipo de estudio mide simultáneamente la exposición y el suceso, incorporando grupos de comparación para evaluar asociaciones en un momento concreto del tiempo. Aunque permite estimar medidas de asociación, no establece la secuencia temporal entre exposición y suceso. Un ejemplo ilustrativo se presenta cuando se trata de analizar la asociación entre el sedentarismo y la presencia de obesidad, considerando para ello la población adulta atendida en atención primaria mediante una encuesta realizada en un único momento.

2.3.1.2.2 Estudio de cohortes

Una cohorte es un grupo de individuos que comparten una característica o experiencia común. En un estudio de cohortes, los participantes se clasifican según su exposición a un factor de interés, formando la cohorte de expuestos y la de no expuestos, y se les sigue a lo largo del tiempo para observar la aparición del suceso de interés. Por ejemplo, se podría formar una cohorte de trabajadores de la salud que realizan turnos nocturnos y otra de trabajadores no expuestos a este tipo de turnos, para estudiar la incidencia de trastornos del sueño.

El estudio de cohortes puede ser de tipo prospectivo, retrospectivo o mixto. En un estudio prospectivo, la exposición se mide al inicio y los participantes son seguidos hacia el futuro para registrar la ocurrencia del suceso. Siguiendo nuestro ejemplo, se podría formar la cohorte de trabajadores con y sin turnos nocturnos y seguirlos durante varios años para evaluar la aparición de trastornos del sueño.

En un estudio retrospectivo, tanto la exposición como el seguimiento se reconstruyen a partir de datos históricos, como historias clínicas o registros laborales. Aplicando el ejemplo, se podría analizar la incidencia de trastornos del sueño en trabajadores que históricamente tuvieron turnos nocturnos frente a los que no los tuvieron, utilizando los registros existentes.

Por último, un estudio mixto combina ambos enfoques: la cohorte se identifica a partir de registros antiguos, pero luego se realiza un seguimiento prospectivo para registrar la aparición de sucesos futuros. Con el mismo ejemplo, se podría identificar a los trabajadores expuestos y no expuestos a turnos nocturnos a partir de registros pasados para después seguirlos durante varios años y evaluar así nuevos casos de trastornos del sueño; se aprovechan los datos históricos y se recopila información actualizada.

Resumen de los estudios de cohortes

Tipo de cohorte	Momento de identificación	Seguimiento	Datos principales	Ejemplo
Prospectiva	Se identifica la exposición en el presente	Hacia el futuro	Exposición actual, aparición futura del suceso	Seguimiento de personal sanitario expuesto y no expuesto a turnos nocturnos para evaluar trastornos del sueño
Retrospectiva	Se identifica la exposición en registros antiguos	Del pasado hasta la fecha de los registros	Exposición pasada, suceso registrado	Revisión de historias clínicas para estudiar incidencia de complicaciones respiratorias según antecedente de tabaquismo
Mixta	Se identifica la exposición en registros antiguos	Se sigue prospectivamente para registrar sucesos futuros	Exposición pasada, suceso pasado y futuro	Cohorte basada en consumo de antibióticos en primeros años (datos históricos) y seguimiento hasta la adolescencia para evaluar alergias

2.3.1.3 Estudio de casos y controles

El estudio de casos y controles toma como punto de partida la ocurrencia o no del suceso, seleccionando un grupo de individuos que lo han presentado (los casos) y otro que no (los controles), y analiza retrospectivamente la exposición previa. Es especialmente útil para el estudio de sucesos poco frecuentes o con largos periodos de latencia y permite estimar ciertas medidas de asociación, como la odds ratio. Por ejemplo, se desea comparar la exposición previa a un determinado fármaco entre pacientes que han desarrollado una reacción adversa grave y otros que no la han presentado.

2.3.2 Estudios experimentales

Los estudios experimentales se caracterizan porque el investigador interviene activamente, asignando una exposición, tratamiento o intervención a los participantes, a diferencia de los estudios observacionales donde solo se observa. Esto permite evaluar de forma más controlada el efecto de la intervención sobre un suceso de interés y establecer relaciones de causalidad con mayor solidez. En este tipo de estudio se suelen incluir grupos de comparación (el grupo control) y estrategias como la aleatorización (asignación al azar de los sujetos a cada uno de los grupos considerandos) para minimizar sesgos y factores de confusión. Si bien son los diseños que ofrecen mayor capacidad para establecer relaciones causales, también son estudios que plantean mayores exigencias éticas y organizativas.

2.3.2.1 Ensayo clínico controlado aleatorizado (ECA)

En un ECA, los participantes se asignan al azar a un grupo que recibe la intervención o tratamiento experimental y a un grupo control que recibe un placebo o tratamiento estándar. Esto permite comparar los resultados entre grupos y evaluar la eficacia y seguridad del tratamiento, minimizando sesgos. Por ejemplo, se podría estudiar si un nuevo antihipertensivo reduce mejor la presión arterial en pacientes con hipertensión en comparación con un grupo que recibe un placebo.

Un ECA se considera el diseño con mayor relevancia en medicina para evaluar intervenciones terapéuticas, ya que permite establecer relaciones causales con la máxima validez interna. La fuerza de un ECA radica en tres características fundamentales que debe cumplir:

Prospectivo: los participantes se seleccionan antes de que aparezca el suceso de interés y se les sigue hacia el futuro para observar los efectos de la intervención, lo que permite medir directamente los resultados tras la exposición al tratamiento.
Concurrente: los grupos de intervención y control se estudian de manera paralela en el mismo periodo de tiempo, evitando sesgos temporales que podrían afectar los resultados.
Aleatorizado: los participantes se asignan al azar a los diferentes grupos, minimizando la influencia de factores de confusión conocidos y desconocidos, y asegurando que las diferencias observadas entre grupos se deban principalmente a la intervención.

Otros elementos importantes de los ECA son:

La presencia de un grupo control: este puede recibir placebo, el tratamiento estándar o ninguna intervención, según el objetivo del estudio.
El enmascaramiento (ciego): en los ECA puede ser simple, doble o triple, y su objetivo es reducir sesgos de observación y de respuesta. En el ensayo simple ciego, los participantes desconocen qué tratamiento reciben, aunque el personal investigador sí lo sabe; con ello se evita principalmente el sesgo del paciente. En el doble ciego, ni los participantes ni los investigadores implicados en la administración del tratamiento o en la evaluación clínica conocen la asignación. Este diseño, considerado el gold standard, minimiza tanto el sesgo del paciente como el sesgo del observador. Finalmente, en el triple ciego, la persona encargada del análisis estadístico tampoco conoce la asignación del tratamiento. De este modo, además de evitar los sesgos anteriores, se previenen sesgos analíticos o interpretativos y se garantiza que la evaluación de los resultados se mantenga totalmente imparcial hasta la descodificación final.
El seguimiento sistemático: mediante el cual se registran cuidadosamente los eventos adversos y los resultados clínicos, garantizando la seguridad de los participantes.

En el ejemplo propuesto, los pacientes con hipertensión deben ser asignados al azar a recibir el fármaco experimental o un placebo, ambos grupos deben seguirse durante semanas o meses para medir cambios en la presión arterial y posibles efectos adversos. Gracias a la aleatorización, al seguimiento prospectivo y a la evaluación concurrente de ambos grupos, se puede atribuir de manera fiable cualquier diferencia observada a la intervención bajo estudio.

2.3.2.2 Ensayo clínico no aleatorizado

En este tipo de estudio, los participantes se asignan a la intervención o al grupo control sin aleatorización, generalmente por criterios prácticos o éticos. Aunque puede introducir cierto sesgo, sigue siendo experimental porque el investigador controla quién recibe el fármaco.

Siguiendo el mismo ejemplo, se podría administrar el nuevo antihipertensivo a pacientes que voluntariamente aceptan el tratamiento y comparar sus niveles de presión arterial con los de pacientes que continúan con el tratamiento estándar, reconociendo que la falta de aleatorización puede afectar la comparabilidad de los grupos.

2.3.2.3 Estudio cuasi-experimental

En un estudio cuasi-experimental, la intervención se aplica a los sujetos sin haber definido un grupo control explícito y sin asignación aleatoria, y se observa el efecto antes y después de la intervención en el mismo grupo.

Continuando con nuestro ejemplo, se podría administrar el nuevo antihipertensivo a todos los pacientes de un centro y medir la reducción de la presión arterial comparando los valores antes y después del tratamiento.

2.3.3 Papel de los distintos tipos de estudio en la práctica sanitaria

Cada tipo de estudio cumple una función específica dentro del proceso de generación de conocimiento:

Los estudios descriptivos permiten identificar y cuantificar problemas de salud, describiendo la frecuencia, distribución y características de sucesos o condiciones en la población. Los estudios descriptivos inspiran hipótesis.
Los estudios analíticos ayudan a comprender asociaciones y factores de riesgo, evaluando cómo la exposición a determinados factores influye en la aparición de un suceso. Los estudios analíticos contrastan hipótesis.
Los estudios experimentales evalúan la eficacia y seguridad de intervenciones terapéuticas o de cuidados, permitiendo establecer relaciones causales con mayor validez. A nivel de investigación primaria, si están bien diseñados, los ECA son los estudios con mayor evidencia científica.

En la práctica de la Medicina y la Enfermería basada en la evidencia, estos diseños no compiten entre sí, sino que se complementan. Los estudios descriptivos pueden señalar problemas emergentes que luego se investigan con estudios analíticos, y estos, a su vez, pueden guiar ensayos experimentales para probar intervenciones efectivas. Así, se forma un proceso continuo de generación, validación y aplicación del conocimiento, garantizando que la práctica clínica esté fundamentada en la mejor evidencia disponible.

2.4 Lecturas complementarias

En el capítulo I del texto de Martín Andrés & Luna del Castillo (2004) se amplían los argumentos expuestos aquí sobre la necesidad de la Estadística en las Ciencias de la Salud. El capítulo IX de esta referencia está dedicado a los ensayos clínicos, siendo su lectura muy recomendable para profundizar en este tipo de estudio.

Un manual práctico para la elaboración de cuestionarios basados en escalas de tipo Likert es el texto de Morales Vallejo et al. (2003).

Respecto a los tipos de estudio en Epidemiología, Koepsell & Weiss (2025) ofrece un panorama detallado que describe el propósito, las características y las situaciones en las que conviene usar cada tipo de estudio, con énfasis en los principales diseños como descriptivos, cohortes, casos y controles, y ensayos controlados. Por su parte, Argimón Pallás & Jiménez Villa (2019) es una guía en español que permite comprender los fundamentos del método científico y los diferentes tipos de estudio, ofreciendo orientación práctica para diseñar e interpretar estudios clínicos y epidemiológicos. También pueden consultarse el artículo de López-Gómez et al. (2023) y la entrada en Wikipedia para información complementaria.

2.5 Referencias

Argimón Pallás, J. M., & Jiménez Villa, J. (2019). Métodos de investigación clínica y epidemiológica (5th ed.). Elsevier España.

Koepsell, T. D., & Weiss, N. S. (2025). Epidemiologic methods: Studying the occurrence of illness (2nd ed.). Oxford University Press.

Lewontin, R. (1984). La diversidad humana. Biblioteca Scientific American. Edición española en Prensa Científica, Editorial Labor (Barcelona).

López-Gómez, P. et al. (2023). Estudios epidemiológicos o cómo tenemos que diseñar nuestra investigación. Atención Primaria. https://scielo.isciii.es/scielo.php?script=sci_arttext&pid=S0003-31702023000500006

Martín Andrés, A., & Luna del Castillo, J. de D. (2004). Bioestadística para las ciencias de la salud. Norma (Madrid).

McShea, D., & Brandon, R. (2010). Biology’s first law: The tendency for diversity and complexity to increase in evolutionary systems. The University of Chicago Press (Chicago & London). https://doi.org/10.7208/chicago/9780226562278.001.0001

Molina, M. (2022). Media armónica. Un acertijo con trampa. AnestesiaR, 14(11). https://doi.org/10.30445/rear.v14i11.1091

Molina, M. (2023). Media geométrica. Contando bichos. AnestesiaR, 15(1). https://doi.org/10.30445/rear.v15i1.1101

Morales Vallejo, P., Urosa Sanz, B., & Blanco Blanco, Á. (2003). Construcción de escalas de actitudes tipo likert. Ed La Muralla SA Salamanca.

Peña Sánchez de Rivera, D. (2014). Fundamentos de estadística. Alianza Editoria, Madrid.

Wickham, H. (2016). ggplot2: Elegant graphics for data analysis. Springer-Verlag New York. https://ggplot2.tidyverse.org

Wickham, H., Çetinkaya-Rundel, M., & Grolemund, G. (2023). R for data science: Import, tidy, transform, visualize, and model data (2nd ed.). " O’Reilly Media, Inc.". https://r4ds.hadley.nz/

Wilkinson, L. (2005). The grammar of graphics (2nd ed.). Springer Science & Business Media.

Variabilidad: estado o grado de ser variable. Variable: del latin variabĭlis, que varía o puede variar, que puede ser cambiante, inconstante.↩︎
Hay situaciones en donde el tamaño poblacional es limitado. Estos casos, que requieren cierta modificación de la metodología, se quedan fuera del ámbito de este texto. En adelante, supondremos siempre que las poblaciones son lo suficientemente grandes que resultan inmanejables.↩︎
Un estadístico es cualquier función real (medible) de los valores muestrales.↩︎
Si una persona tiene 23 años y 9 meses (23,75 años), habitualmente se dice que tiene 23 años (truncando los decimales) y no 24, que sería el resultado de redondear al entero más próximo.↩︎
Discretizar no es un término reconocido por la Real Academia Española; aun así, lo utilizamos aquí para referirnos al proceso de convertir un número real en un número entero. Este proceso puede realizarse de distintas maneras, como mediante redondeo o truncamiento, que representan dos formas específicas de llevarlo a cabo según principios distintos. En inglés sí existe el término discretization, que recoge precisamente esta acepción.↩︎