Se realiza un estudio para establecer una ecuación mediante la cual se pueda utilizar la concentración de estrona en saliva (x), para predecir la concentración de estrona en plasma libre (y). Se obtuvieron los siguientes datos de 14 hombres sanos:
| x | 7.4 | 7.5 | 8.5 | 9.0 | 9.0 | 11.0 | 13.0 | 14.0 | 14.5 | 16 | 17.0 | 18.0 | 20.0 | 23.0 |
| y | 30.0 | 25.0 | 31.5 | 27.5 | 39.5 | 38.0 | 43.0 | 49.0 | 55.0 | 48.5 | 51.0 | 64.5 | 63.0 | 68.0 |
Se pide:
Se realiza un estudio para investigar la relación entre el nivel de humedad del suelo y la tasa de mortalidad en lombrices. La tasa de mortalidad, Y, es la proporción de lombrices de tierra que mueren tras un periodo de dos semanas; el nivel de humedad, X, viene medido en milímetros de agua por centímetro cuadrado de suelo. Los datos se muestran en la siguiente tabla.
| x | 0.31 | 0.31 | 0.56 | 0.56 | 0.89 | 0.89 | 0.96 | 0.96 | 1.15 | 1.15 | 1.25 |
| y | 0.2 | 0.1 | 0.0 | 0.2 | 0.3 | 0.5 | 0.0 | 0.6 | 0.4 | 0.2 | 0.5 |
Se pide:
a) ¿Muestran los datos una tendencia lineal?
b) Determinar la recta de regresión Y/X, el grado de asociación lineal entre la tasa de mortalidad y el nivel de humedad y la bondad del ajuste realizado en la recta de regresión. ¿Cuánto explica el modelo?
c) Mediante la línea de regresión estimada, predecir el nivel de humedad del suelo si la tasa de mortalidad de las lombrices es 0.7
d) Determinar el coeficiente de correlación lineal de las rectas de regresión Y/X y X/Y
e) Ajustar los datos mediante una regresión curvilínea
d) ¿Qué ajuste es mejor ¿Lineal? ¿Curvilíneo?
Se realiza un estudio para establecer una ecuación mediante la cual se pueda utilizar la concentración de estrona en saliva (x), para predecir la concentración de estrona en plasma libre (y). Se obtuvieron los siguientes datos de 14 hombres sanos:
| x | 7.4 | 7.5 | 8.5 | 9.0 | 9.0 | 11.0 | 13.0 | 14.0 | 14.5 | 16 | 17.0 | 18.0 | 20.0 | 23.0 |
| y | 30.0 | 25.0 | 31.5 | 27.5 | 39.5 | 38.0 | 43.0 | 49.0 | 55.0 | 48.5 | 51.0 | 64.5 | 63.0 | 68.0 |
Se pide:




Los resultados muestran que
El coeficiente de correlación lineal de Pearson (R) es igual a 0.954 y el coeficiente de determinación, R cuadrado, es igual a 0.911. Este valor indica que el 91.1% de la variabilidad de la concentración de estrona en plasma es explicada por el modelo propuesto. El grado de ajuste es alto. La Tabla ANOVA muestra un valor del estadístico F = 122.880 y un p-valor asociado menor que 0.001, lo que conduce a rechazar la hipótesis nula de no linealidad. Por tanto, existe una relación lineal significativa entre Y y X- La Tabla de los Coeficientes muestra
Las estimaciones de los parámetros del modelo de regresión lineal simple, la ordenada en el origen, ß0=8.645 y la pendiente ß1= 2.727. Por lo tanto, la ecuación de la recta estimada o ajustada es: y = 8.645 + 2.727 x El contraste de la pendiente de la recta que es una alternativa equivalente al contraste que acabamos de comentar en la Tabla ANOVA. El estadístico de contraste que aparece en la columna t vale 11.085 tiene un p-valor asociado, columna Sig, menor que 0.001, menor que el nivel de significación 0.05 que conduce al rechazo de la hipótesis nula y podemos afirmar que existe una relación lineal significativa entre Y y X. En la última columna de la tabla se muestran los intervalos de confianza para ß0 y ß1, al 95%. El intevalo para ß1 es (2.191, 3.263), puesto que el cero no pertenece al intervalo, hay evidencia empírica para concluir que X influye en Y y por tanto al nivel de confianza del 95% el parámetro ß1 no podría considerarse igual a cero.

El gráfico muestra un buen ajuste lineal y una tendencia creciente.

Este gráfico representa las funciones de distribución teórica y empírica de los residuos tipificados. En el eje de ordenadas se representa la función teórica bajo el supuesto de normalidad y en el eje de abcisas, la función empírica. Desviaciones de los puntos del gráfico respecto de la diagonal indican alteraciones de la normalidad. Observamos la ubicación de los puntos del gráfico, estos puntos se aproximan razonablemente a la diagonal lo que puede confirmar la hipótesis de normalidad. A continuación vamos a realizar el estudio analítico de la normalidad de los residuos mediante el contraste no-paramétrico de Kolmogorov-Smirnov.

Esta tabla muestra la mayor diferencia entre los resultados esperados en caso de que los residuos surgieran de una distribución normal y los valores observados. Se distingue entre la mayor diferencia en valor absoluto, la mayor diferencia positiva y la mayor diferencia negativa. Se muestra el valor del estadístico Z (0.603) y el valor del p-valor asociado (0.861). Por lo tanto no se puede rechazar la hipótesis de normalidad de los residuos.
La homocedasticidad de las varianzas la comprobamos gráficamente: Representamos los residuos tipificados frente a los valores de y estimados tipificados. El análisis de este gráfico puede revelar una posible violación de la hipótesis de homocedasticidad, por ejemplo si detectamos que el tamaño de los residuos aumenta o disminuye de forma sistemática para algunos valores ajustados de la variable Y, si observamos que el gráfico muestra forma de embudo... Si por el contario dicho gráfico no muestra patrón alguno, entonces no podemos rechazar la hipótesis de igualdad de varianzas.
No apreciamos tendencia clara en este gráfico, los residuos no presentan estructura definida respecto de los valores predichos por el modelo por lo que no debemos rechazar la hipótesis de homocedasticidad.

La hipótesis de independencia de los residuos la realizamos mediante el contraste de Durbin-Watson. El estadístico de Durbin-Watson mide el grado de autocorrelación entre el residuo correspondiente a cada observación y la anterior. Si su valor está próximo a 2, entonces los residuos están incorrelados, si se aproxima a 4, estarán negativamente autocorrelados y si su valor está cercano a 0 estarán positivamente autocorrelados. En nuestro caso, toma el valor 2.524, próximo a 2 lo que indica la incorrelación de los residuos.

El modelo ajustado tiene la siguiente expresión: y = -0.951 + 4.237 x - 0.053 x^2
La representación gráfica de la función ajustada junto con la nube de puntos es

Se aprecia que la función curvilínea se ajusta moderadamente al diagrama de dispersión.

La comparación del ajuste de ambos modelos se puede
realizar a partir de los valores del coeficiente de determinación de
cada uno de ellos, en este caso R cuadrado (lineal) = 0.911
y R cuadrado (cuadrático) = 0.918. Los resultados en
el caso lineal son un poco menos satisfactorios que el cuadrático.
Se aprecia, en el gráfico que el modelo cuadrático (línea
discontinua) se aproxima un poco mejor a la nube de puntos que el modelo lineal
(línea continua).

También podemos realizar la comparación del ajuste de los dos modelos a partir de las varianzas residuales. Para ello se debe marcar en la ventana de Estimación curvilínea la opción Mostrar tabla de ANOVA

En la tabla ANOVA se muestra un p-valor menor que 0.001 menor que el nivel de significación 0.05, por lo que se rechaza la hipótesis nula de no regresión curvilínea.
Los valores obtenidos de los coeficientes de determinación son: R cuadrado (lineal) = 0.911 y R cuadrado (cuadrático) = 0.918, puesto que la diferencia entre ambos coeficientes es muy pequeña, se considerará el modelo lineal por su simplicidad.
Conviene puntualizar que la elección de un modelo de regresión debe tener en cuenta no sólo la bondad del ajuste numérico sino también la adecuación gráfica de los datos al mismo y, finalmente, su adecuación o explicación biológica.
Se realiza un estudio para investigar la relación entre el nivel de humedad del suelo y la tasa de mortalidad en lombrices. La tasa de mortalidad, Y, es la proporción de lombrices de tierra que mueren tras un periodo de dos semanas; el nivel de humedad, X, viene medido en milímetros de agua por centímetro cuadrado de suelo. Los datos se muestran en la siguiente tabla.
| x | 0.31 | 0.31 | 0.56 | 0.56 | 0.89 | 0.89 | 0.96 | 0.96 | 1.15 | 1.15 | 1.25 |
| y | 0.2 | 0.1 | 0.0 | 0.2 | 0.3 | 0.5 | 0.0 | 0.6 | 0.4 | 0.2 | 0.5 |
Se pide:
a) ¿Muestran los datos una tendencia lineal?
b) Determinar la recta de regresión Y/X, el grado de asociación lineal entre la tasa de mortalidad y el nivel de humedad y la bondad del ajuste realizado en la recta de regresión. ¿Cuánto explica el modelo?
c) Mediante la línea de regresión estimada, predecir el nivel de humedad del suelo si la tasa de mortalidad de las lombrices es 0.7
d) Determinar el coeficiente de correlación lineal de las rectas de regresión Y/X y X/Y
e) Ajustar los datos mediante una regresión curvilínea
d) ¿Qué ajuste es mejor ¿Lineal? ¿Curvilíneo?
a) ¿Muestran los datos una tendencia lineal?

b) Determinar la recta de regresión Y/X, el grado de asociación lineal entre la tasa de mortalidad y el nivel de humedad y la bondad del ajuste realizado en la recta de regresión. ¿Cuánto explica el modelo?



c) Mediante la línea de regresión estimada, predecir el nivel de humedad del suelo si la tasa de mortalidad de las lombrices es 0.7

Para una tasa de mortalidad de 0.7, el nivel de humedad del suelo es 1.1778
d) Determinar el coeficiente de correlación lineal de las rectas de regresión Y/X y X/Y : r = 0.521
e) Ajustar los datos mediante una regresión curvilínea


d) ¿Qué ajuste es mejor ¿Lineal? ¿Curvilíneo?

Ajuste lineal |
Ajuste cuadrático |