Análisis de un modelo econométrico

A continuación vamos a abordar la estimación y validación de un modelo econométrico así como el estudio del cumplimiento o incumplimiento de las hipótesis básicas de normalidad, heteroscedasticidad y autocorrelación de la perturbación aleatoria, así como la independencia lineal entre las variables explicativas de la regresión. Un excelente trabajo sobre el diagnóstico de éstas hipótesis con el entorno de programación R, proporcionado por Quick-R, puede consultarse en http://www.statmethods.net/stats/rdiagnostics.html. Adviértase que puesto que la perturbación aleatoria no es observable, se realizará el análisis sobre los errores o residuos, ya que son éstos los que estiman a la perturbación aleatoria.

Para poder realizar este análisis se instalarán los paquetes car y lmtest (en Instalar paquete(s)... del menú Paquetes) para poder realizar, respectivamente, el análisis de heteroscedasticidad y autocorrelación. El resto de órdenes a usar están disponibles en la distribución básica de R. Así, por ejemplo, usaremos las órdenes:

  • lm para analizar el modelo econométrico empleado.
  • ks.test para el estudio de la normalidad de los residuos mediante el contraste de Kolmogorov-Smirnov.
  • ncv.test para el estudio de la heteroscedasticidad mediante el contraste de Breusch-Pagan.
  • dwtest para el estudio de la autocorrelación mediante el contraste de Durbin-Watson.
  • vif para el estudio de la multicolinealidad a partir del factor de agrandamiento de la varianza de cada coeficiente estimado.

Más información sobre estas funciones se puede obtener a partir del comando help().

Puesto que tomar decisiones a partir de unas representaciones gráficas no es un procedimiento demasiado adecuado, ya que serían subjetivas y fácilmente manipulables, nos centraremos en los métodos analíticos de que se disponen para estudiar el cumplimiento de las hipótesis básicas. En cualquier caso, en el enlace referenciado en el resumen inicial se puede encontrar información relacionada con los procedimientos gráficos.

En el siguiente enlace puedes encontrar una función tal que a partir de los datos y la fórmula de la regresión haga el análisis de estimación y validación correspondiente, contraste la normalidad, heteroscedasticidad y autocorrelación de los residuos y analice la independencia lineal de las variables explicativas.

En el siguiente video se aborda el análisis de un modelo econométrico que pretende estudiar la relación entre el consumo familiar y la renta de la familia, sus deudas y número de hijos.

En primer lugar guardaremos los datos anteriores en el directorio de trabajo (que se especifica en R mediante Cambiar dir... del menú Archivo) en el archivo datos.txt. En la primera fila se especifica el nombre de las variables y en el resto las observaciones, separadas (tanto variables como observaciones) por punto y coma. El delimitador decimal será la coma. De forma que la manera de cargar los datos en el programa es mediante la siguiente orden:

> datos = read.table(file="datos.txt", header=TRUE, dec=",", sep=";")
> names(datos)
> attach(datos)

Mediante el comando attach() hacemos accesibles las variables de los datos sin más que escribir su nombre. Por tal motivo pedimos justo antes que muestre en pantalla el nombre de cada variable presente en el archivo de datos mediante el comando names().

El siguiente paso es especificar la forma funcional de la regresión que queremos analizar, en este caso:

> funcion = Consumo ~ Renta + Deuda + Hijos

Adviértase que por defecto estamos considerando término independiente en la regresión. Para poder usar la función GUIME.LM ésta debe ser conocida por R, por lo que la copiamos en el directorio de trabajo en un archivo llamado funcion.txt y la cargamos en la memoria de R mediante la orden:

> source("funcion.txt")

Entonces, sin más que ejecutar: 

> GUIME.LM(funcion, datos) 

se obtienen los siguientes resultados almacenados en el archivo AnálisisR.txt. A raíz de dichos resultados podemos concluir que todos los coeficientes de las variables son significativos, ya que tienen un p-valor asociado inferior a 0.05 y en tal caso se rechaza la hipótesis nula de que el coeficiente correspondiente es nulo. Al mismo tiempo también se rechaza la hipótesis nula de que todos los coeficientes son nulos de forma simultánea, p-valor asociado a la F de 2.645•10^-9 menor que 0.05, por lo que el ajuste realizado es válido. Además, el coeficiente de determinación indica que la estimación explica un 90.26% de la variabilidad del consumo.

Por otro lado, los p-valores asociados al contraste de Kolmogorov-Smirnov y Durbin-Watson, 0.9827 y 0.7679, son mayores que 0.05, por lo que no se rechazan las hipótesis nula de normalidad e incorrelación de los residuos. Mientras que el p-valor, 0.002016154, asociado al contraste de Breusch-Pagan indica, al ser menor que 0.05, que se rechaza la hipótesis nula de que la varianza de la perturbación aleatoria sea constante. Finalmente, puesto que los factores de agrandamiento de las varianzas de los coeficientes estimados son inferiores a 10, podemos concluir que no hay multicolinealidad.

Por tanto, ya que en el modelo hay heteroscedasticidad, las estimaciones obtenidas no son óptimas y las conclusiones anteriores quedan en entredicho hasta que se resuelva dicho problema.

The Camtasia Studio video content presented here requires a more recent version of the Adobe Flash Player. If you are using a browser with JavaScript disabled please enable it now. Otherwise, please update your version of the free Flash Player by downloading here.