Proyectos Estadísticos.

Table of Contents

Chapter 1  Introducción

Hoy en día, la estadística empieza a tomar en la ciencia el lugar que le corresponde, quiero decir con ello, que se valora mucho más que hace ciertos años, cuando para entonces cualquier persona que conociera una base estadística creía tener conocimento suficiente como para verse capaz de realizar cualquier análisis estadístico, ya que el usuario que no es especialista cree saber usar la estadística simplemente por el hecho de creer saber manejar un programa estadístico, lo que constituye el caldo de cultivo perfecto para cometer barbaridades estadísticas en un análisis de datos. La realización de un análisis de datos es un proceso metódico que comienza con el diseño, preparación y exploración de los datos que serán analizados y después de un proceso de estudio y análisis finaliza con la aplicación de las técnicas adecuadas y la interpretación estadística de los resultados, por lo que necesariamente deberá ser efectuado por un especialista bien formado y nunca por un simple usuario.

La principal dificultad en el uso de la Estadística por parte de un usuario que siendo ajeno a ésta, la emplea, suele ser el lenguaje que utiliza. Como toda Ciencia, la Estadística formula abstracciones de la realidad y por tanto necesita de un lenguaje o términos propios. El dominio del mismo es fundamental para entender la Estadística y para comunicarse con un experto con el fin de obtener los resultados deseados. A efectos prácticos, es lo mismo decir que se ha tomado una muestra de 5 individuos al azar entre 100 estudiantes, que decir que se han sacado 5 bolas al azar de entre las 100 bolas de una urna, pero el segundo planteamiento permite establecer el modelo para otros problemas similares.

La Estadística no es ningún procedimiento milagroso que permita obtener cualquier conclusión que se desee con independencia de los datos disponibles, sino que es un método riguroso de análisis de las observaciones basado en hipótesis fundamentales que no pueden ser violadas. No sólo es importante conocer los métodos estadísticos, sino también sus limitaciones. Un método resulta útil para responder a una determinada cuestión, bajo ciertas hipótesis, y el incumplimiento de alguna de esas hipótesis simplemente invalida el método. Por otra parte, un mismo conjunto de datos es susceptible de ser analizado en varios modos alternativos siendo cada uno de ellos útil para una determinada cuestión planteada, aunque no para otras, teniendo también en cuenta que una misma cuestión puede obtener respuesta a través de varias técnicas, unas mejores que otras dependiendo de la situación, por lo que es necesario conocerlas y saber cuando aplicarlas.

Desgraciadamente están bastante extendidas determinadas afirmaciones y usos estadísticos erróneos que abonan el campo a otras afirmaciones despectivas que sólo reflejan un profundo desconocimiento del método estadístico del que las suscribe. La célebre frase de Disraeli, -Hay tres tipos de mentiras: mentiras, condenadas mentiras y mentiras estadísticas-, son ejemplos de sátiras que reflejan los prejuicios de la sociedad ante esta disciplina motivados por la dificultad de su correcto conocimiento y como consecuencia por el mal uso de la misma. El único modo de descubrir los tratamientos o conclusiones erróneas consiste en estar avezado en el método estadístico.

Lo que vamos a tratar en los siguientes capítulos será una pequeña introducción para realizar un proyecto estadístico, en los que abarcaremos los distintos puntos a tener en cuenta para realizar correctamente un estudio estadístico.


Chapter 2  Etapas generales en un análisis estadístico de datos

En este apartado se pretende la descripción de un procedimiento general para el análisis estadístico de datos, y por tanto, el proceso de actuación será sistemático, empírico, inductivo, crítico y analítico.

Desde un punto de vista general, las etapas del análisis pueden resumirse de la siguiente forma:

El problema es el origen de la investigación y no es más que una interrogante sobre la realidad, que en su origen, generalmente es impreciso y abstracto por lo que resulta necesario concretarlo claramente siguiendo un procedimiento sistemático.

Para la precisión del problema se requiere el estudio teórico en profundidad del aspecto en consideración, el cual será completado con un estudio empírico mediante información recogida de la realidad que permita obtener un conocimiento genérico de ella.

Una vez efectuada la labor informativa y de estudio, sobre la base de ésta, se procederá al enunciado preciso del problema y de los objetivos de la investigación.

A continuación, se requiere que sean imaginadas las posibles soluciones o hipótesis más probables para proceder a su verificación. Para ello, será necesario precisar qué variables serán consideradas en la investigación. Qué otras variables pueden influir en los resultados y prever los procedimientos a utilizar y su control y, finalmente, habrá que determinar los datos específicos y la forma de su obtención para recabar la información necesaria sobre las variables en consideración.

Resulta especialmente importante planificar adecuadamente una experiencia para la obtención de datos con la intención de que los resultados que se obtengan ofrezcan respuesta a las cuestiones que deseaban plantearse. Un planteamiento defectuoso o incorrecto puede originar la obtención de datos inservibles que hay que desechar, datos incorrectos que, siendo también desechables, son difíciles de localizar, o simplemente a datos insuficientes con los que no se puede concluir nada o datos excesivos que representan un coste innecesariamente elevado que no ofrecen más información.

Este proceso requiere la elección de la población sobre la que se realizará la investigación y por tanto adoptar la decisión acerca de si se estudiará toda la población o por el contrario una muestra o subconjunto representativo de ésta. Así, la determinación de los datos requiere la construcción de los instrumentos para su recogida y para su validación.

Todo lo anterior estará relacionado con la forma del tratamiento de los datos para un análisis adecuado. Tanto la determinación del problema, la elección de las variables representativas, el planteamiento de las hipótesis, la elección de los datos y el análisis de los mismos son aspectos totalmente interrelacionados entre sí que el investigador no debe nunca considerar de manera independiente ya que todas las etapas del proceso forma parte de una metodología conjunta.

Una vez obtenidas las conclusiones, se comparan con las hipótesis efectuadas y la teoría fundamento de la cuestión investigada. Los resultados serán contrastados y servirán para determinar la solución del problema o bien la iniciación de un nuevo análisis para seguir la búsqueda de ésta.

Es necesario tener presente que aunque el proceso descrito es un método general para la resolución de problemas, no existe un esquema exacto que permita resolver cualquier análisis de datos de manera automática, es decir, donde las etapas para conseguir la solución estén completamente determinadas sin más información que la definición del problema. Existen pautas de actuación, en algunos casos con elevada exactitud, pero no existen acciones automáticas en un proceso de análisis de datos ya que a diferencia de un proceso de producción, no existen dos problemas que no puedan considerarse distintos, en algún aspecto o a lo largo del tiempo, y por tanto no puedan considerarse diferentes. Es por tanto imprescindible la supervisión de un profesional en todo el proceso de solución de cualquier problema.


2.1  El Problema. Planteamiento e hipótesis

La determinación del problema constituye la primera fase de la investigación. Puede resumirse como la respuesta a dos preguntas: qué investigar y qué se pretende encontrar. Comporta la elección del campo de estudio y de las cuestiones que plantee. El problema que deberá investigarse no será vago y genérico sino por el contrario concreto y estar formulado de la manera más concreta posible. Muchos proyectos fracasan por falta de objetivos claramente definidos y precisos.

El proceso que se debe seguir en la determinación del problema suele ser un aspecto de selección de cuestiones de interés basada principalmente en la agudeza intuitiva, en el que no existen reglas fijas ni suelen servir las fórmulas previas.

Aunque todos los aspectos de la resolución de problemas están relacionados entre sí, puede efectuarse una clasificación en función del carácter temporal de la naturaleza de la solución que pretendemos estimar. Por tanto, en lo que sigue, se estructurarán los problemas y técnicas para la resolución en tres grandes grupos: A corto, medio y largo plazo.

Dentro de los primeros grupos, las acciones que se adoptarán frente a los problemas serán determinadas mediante la Estadística y la Investigación Operativa, dependiendo de la naturaleza de la solución. Cuando la solución al problema se plantea a largo plazo intervendrán además las técnicas Prospectivas especialmente ideadas para esa situación.

Una vez determinado explícitamente el problema habrá que prestar especial atención en el inicio del proceso de investigación al planteamiento de las hipótesis, que desde el punto de vista del problema pueden definirse como soluciones probables, previamente seleccionadas y que son propuestas para comprobar su verificación a lo largo de todo el proceso de investigación. Esas hipótesis también dependerán del objetivo temporal de la solución del problema en cada caso y su formulación, generalmente, determinará el futuro de la investigación.

Por tanto, después de haber determinado el problema en cuestión, deberá preguntarse cuál o cuales son las soluciones posibles a dicho problema. Como contestación a esa pregunta se elegirán aquella o aquellas soluciones más verosímiles, es decir, las hipótesis, cuya validez será la que sea comprobada mediante la investigación.

De la definición del problema y el planteamiento de las hipótesis se derivarán las variables que será necesario estudiar en virtud de las cuales será determinada la posible solución del problema.


2.2  La Información estadística como base de la solución

Una vez definido el problema y planteadas las hipótesis para su verificación, el siguiente paso consiste en la búsqueda de información sobre la cual se base la solución del problema. Esa información puede ser de varios tipos aunque aquí se clasificará en dos: teórica, sobre situaciones similares a la presentada o documentación al respecto, etc..., e información proveniente de datos que reflejen la realidad, que será la que se tratará en lo que sigue.

Aunque en algunos procesos para la resolución de problemas a largo plazo como son las técnicas de la Prospectiva, se utilice como información ideas o conceptos provenientes de la opinión personal, éstos también serán considerados como datos. Así pues, la búsqueda de la solución al problema se efectuará básicamente partiendo de la información que suministren los datos sobre la situación o contexto real en que se define el problema.

Antes de describir los tipos de datos y sus particularidades es necesario tener presente que unido al planteamiento de las hipótesis estará el entorno donde el problema obtendrá su solución y por tanto habrá de ser perfectamente descrita la población cuyo estudio ofrecerá la información necesaria para el objetivo que se pretende que es la resolución del problema.

Pueden distinguirse en líneas generales tres tipos de datos que pueden ser manejados. Censos o listados exhaustivos con información de interés sobre cada individuo de una determinada población estadística, muestras formadas por un subconjunto determinado de individuos de una población obtenidas mediante algún procedimiento adecuado y finalmente, experimentos e investigación bajo control Veamos la diferencia entre ellos.

La información que suministra un experimento o investigación bajo control es la más adecuada al estar exenta de perturbaciones indeseables. No obstante no es representativa de ninguna población ni es aleatoria por lo que no pueden derivarse conclusiones respecto a la población motivo del problema.

La situación ideal sería la de un experimento sobre toda la población con lo que se conseguiría la totalidad de la información exenta de perturbaciones. Puesto que prácticamente nunca es posible, el siguiente paso sería el estudio de un censo obtenido directamente y lo más actual posible de la población sobre los aspectos en estudio, lo cual también suele resultar muy difícil y excesivamente costoso. Así pues, lo normal suele ser una alternativa a lo anterior mediante el muestreo estadístico.

Una vez determinado el conjunto de individuos u objetos de los que se obtendrá la información para la resolución del problema, el siguiente paso consiste en determinar la naturaleza de los datos que se obtendrán y que en muchos casos no serán motivo de una elección sino que estarán determinados en virtud de la información que pueda y deba ser recogida.

Puede distinguirse entre los datos de relación entre pares de individuos o de características individuales. Respecto a ambos tipos, se considerarán las variables sobre las que se organizará la información para su análisis estadístico. Las variables se dividirán de acuerdo al tipo de escala de medida; nominal, ordinal, intervalo o razón. Esta división será simultáneamente considerada junto a la distinción clásica entre variables cuantitativas o cualitativas según la naturaleza de sus modalidades, donde dentro de las primeras se distinguirá entre discretas o continuas y de las segundas en dicotómicas o multicategóricas.

Todas las distinciones anteriores no son arbitrarias sino por el contrario, indispensables en un proceso para la resolución de problemas ya que, además de las restricciones naturales de cada técnica estadística, asociado cada tipo de datos existen solo determinadas técnicas estadísticas que podrán ser empleadas.

A partir de este punto, la información se supondrá organizada en variables estadísticas con unas características determinadas por el problema y asociadas a las cuales será necesario elegir la técnica más adecuada para la obtención de la solución al problema.


2.3  El proceso de análisis de la información

Es en esta etapa del proceso de resolución donde se deberá elegir la técnica o conjunto de técnicas estadísticas asociadas a los datos y a los objetivos perseguidos, dentro de una nueva subetapa que pude dividirse a su vez en tres fases secuencialmente organizadas: exploración, depuración y análisis.

La exploración de los datos es la primera fase del análisis en la que intervienen gran variedad de técnicas estadísticas tanto numéricas como gráficas, siendo su objetivo la verificación de los datos y la determinación de las estructuras y patrones que subyacen en éstos si asumir ninguna hipótesis previamente definida y restrictiva de ninguna técnica.

Mediante el análisis gráfico de los datos, relaciones y residuos se observan estructuras que pueden estar escondidas para los procedimientos puramente numéricos, por lo que la información suministrada permitirá corregir las técnicas que serán empleadas para la toma de decisiones y en algunos casos sustituir a éstas.

En definitiva, la exploración es una fase previa a cualquier análisis imprescindible, que permitirá entre otras, la comprensión de la naturaleza de los datos, sus estructuras y la corrección de deficiencias.

La depuración de los datos es la etapa previa al análisis y suele surgir como consecuencia de la detección, en la fase de exploración, de errores en los datos con una solución factible.

Mediante la representación de los datos pueden solventarse algunas deficiencias en los datos que imposibilitan la aplicación de técnicas estadísticas de alto nivel, imprescindibles para la verificación de hipótesis o para la predicción temporal.

Aunque mediante la aplicación de una transformación adecuada pueden solventarse en algunas situaciones problemas de datos anómalos, falta de simetría o heteroscedasticidad en varias variables, es necesario tener presente que una transformación solo podrá ser aplicada cuando la información y conclusiones derivadas de los datos transformados puedan ser extrapoladas a los datos originales.

El análisis propiamente dicho de los datos es la segunda fase y donde intervienen prácticamente todas las técnicas disponibles de la estadística al servicio de obtener la información deseada de los datos previamente explorados.

Dependiendo de la naturaleza de los datos, del problema que se trata de resolver y de las hipótesis formuladas al respecto, se usarán unas técnicas u otras para la resolución del problema. En líneas generales, en función del intervalo temporal donde se espera conseguir la solución, se hablará de técnicas a corto, medio y largo plazo. A corto plazo pueden emplearse todas las técnicas de la Estadística e Investigación Operativa. A medio plazo suelen considerarse algunas técnicas estadísticas en las que interviene una variable temporal como ocurre en los procesos estocásticos y series cronológicas, así como determinadas técnicas de la investigación operativa. Finalmente, a largo plazo, suelen emplearse los procedimientos y técnicas relacionados con la Prospectiva.

No existe ninguna norma general que indique en una situación concreta qué técnica estadística es la adecuada sino que en la mayoría de los casos depende de la experiencia del investigador. No obstante, pueden considerarse algunas directrices que permiten orientar el camino que deberá seguirse para que desde el planteamiento del problema pueda alcanzarse su solución siguiendo los pasos anteriormente indicados.

Por ejemplo, puede hacerse una clasificación de las técnicas estadísticas a corto plazo en virtud del problema que resuelven, teniendo presente que la aplicación de éstas también depende de otros factores como antes fue comentado.

Así, la Estadística Descriptiva y el Análisis Exploratorio de Datos serán empleados fundamentalmente para la fase de descripción y exploración de los datos. Técnicas como la Correlación y Regresión permiten el estudio de relaciones entre variables. Los contrastes de medias o medianas y el Análisis de la Varianza permiten la comparación entre dos o más poblaciones sobre un mismo aspecto, las Tablas de Contingencia permiten el estudio de dependencias entre variables. Las técnicas multivariantes como el Análisis Factorial, el Análisis de Componentes principales o el Análisis de Correlaciones Canónicas permiten la reducción de la dimensionalidad. Otras técnicas multivariantes permiten el estudio de agrupamientos como el Análisis Cluster o Análisis Discriminante. Otros estudian variables a lo largo del tiempo como los Modelos Econométricos, el Análisis de Series Cronológicas.

Además de para las funciones antes descritas, muchos de los modelos anteriores serán útiles en más de una circunstancia y no solo en la situación global en que han sido encasillados. Además, para otros tipos de datos con menos restricciones como los categóricos, existen técnicas alternativas a las anteriores que tratan de desempeñar funciones parecidas.

A todo lo anterior resulta imprescindible unir las técnicas propias de la Investigación Operativa que permiten la solución de determinados problemas siguiendo criterios de optimización de una función objetivo sujeta a restricciones.

En este proyecto se pretende la construcción de un procedimiento general que supervisado por un especialista permita la resolución de un problema mediante el empleo de técnicas como las descritas anteriormente de la forma más precisa posible. Para ello, además de las técnicas a emplear y las diferentes etapas del proceso deberá formar parte muy importante las herramientas para la ejecución y por tanto la intervención de la Estadística Computacional.

La Estadística Computacional es realmente un campo entre dos disciplinas: la Estadística y la Informática, que proporcionan herramientas complementarias cada vez más solicitadas en otras áreas de la Ciencia.

Es importante pero quizá no evidente a primera vista la universalidad de estas herramientas. La Estadística trata sobre cómo acumular información, cómo recabar mejor la información de unos datos, cómo recoger los datos para llegar a un máximo contenido de la información y cómo extraer de los datos las conclusiones para un mayor conocimiento. Muchos conocimientos implican procesar y combinar datos de diversas maneras, tanto numérica como simbólicamente y la Informática trata de cómo se pueden realizar mejor estas computaciones o manipulaciones calculando el costo inherente de procesar la información, estudiando cómo se puede representar con provecho la información o conocimientos y prestando especial atención a los límites de lo que puede ser convenientemente manipulado desde el punto de vista computacional.


2.4  Fases de una encuesta por muestreo.

Al realizar un estudio estadístico, lo primero en lo que debemos pararnos será en el objetivo que pretendemos con este estudio, en cuales son las conclusiones que vamos buscando, que datos y herramientas nos hacen falta para llevar acabo dichos procedimientos, etc.

Por lo tanto en este capítulo se pretende dar una visión general de los distintos aspectos a tener en cuenta en el diseño, tratamiento y validación de una encuesta, (puesto que al realizar el estudio, los datos que tratemos pueden venir dados en una base de datos, o tenemos que ser nosotros mismos los encargados de recogerlos),sin pormenorizar en cada una de las técnicas que pueden aplicarse en el tratamiento de una encuesta entre los que se encuentran:

Sin olvidarnos del uso de la Estadística Descriptiva, el Análisis Exploratorio de Datos, el Análisis Gráfico-Estadístico, etc.

Por tanto, vamos ahora a desarrollar las fases a tener en cuenta en la puesta en práctica de una encuesta, sucuencialmente los pasos a seguir desde la concepción hasta la publicación de los resultados de una encuesta son:

  1. Diseño teórico.

    En el que se tendrán en cuenta:


Por último, también a nivel teórico es conveniente fijar la metodología de recogida, depuración y tratamiento estadístico de la información.

  1. Diseño del cuestionario.

    En el que se tratarán de implementar las líneas básicas de las que se habla en la fase anterior, con especial atención al tipo y número de preguntas que contendrá, así como a la necesidad de un pretest que contraste la adecuación del mismo a la situación en que se lleva a cabo.
  2. Diseño de la muestra.

    Puesta en práctica del tipo de muestreo ya decidido. Para ello se formará el marco en que se realizará el muestreo o actualizarlo si se dispone de uno anterior. Se establecerá la jerarquía de las unidades de muestreo, si hay que estratificar la población, así como determinar el tamaño de la muestra y el procedimiento de selección. En esta fase también se evaluará la conveniencia de efectuar diseños más complejos que los previamente establecidos, o por el contrario, en el menor número de casos, simplificar éste, debido entre otros motivos a la homogeneidad de las unidades en estudio.
  3. Recogida de la información:

    Ésta se podrá efectuar mediante diversos métodos, entre los que encontramos:

 

  1. Depuración de datos.

    En la que se pretende por una parte, mejorar la calidad de los datos, (corrigiendo errores, detectando valores anómalos, etc.)y por otra, evaluar la calidad de los datos, con el objeto de asegurar que la toma de éstos o el procedimiento de muestreo ha sedo adecuado.
  2. Chequeo y validación de la muestra.

    En el que se estudiará el cumplimiento de la encuesta en cuanto a la cobertura, calidad, número de entrevistas obtenidas, etc., así como a implementar acciones que mejoren ésta como la post-estratificación.
  3. Análisis estadístico primario.

    Por éste entendemos la obtención de tablas del plan de explotación, estadísticas descriptivas de variables simples, regresiones simples, un análisis exploratorio de datos que muestre la necesidad de transformación de variables, etc.
  4. Evaluación de errores.

    Ya que antes de obtener conclusiones definitivas del análisis primario debemos estudiar la fiabilidad de las estimaciones obtenidas y que factores no determinados han podido afectar a tales estimaciones. Para ello se hará un estudio de los errores muestrales, el efecto del diseño de muestreo, y si es necesario utilizar métodos de remuestreo.
  5. Interpretación, presentación y publicación de los resultados.

    Uno de los aspectos más importantes es la presentación del informe de resultados junto con las tablas y gráficos obtenidos, donde se puede optar por presentarlas en un apéndice propio.

Una vez realizadas estas fases, la información obtenida en su conjunto debe ser almacenada en bases de datos, para facilitar su posterior reexplotación o tratamiento. Esta acción, que se puede obviar en encuesta de propósito reducido, es ineludible en otro tipo de encuestas específicas como son los paneles (de la investigación sociológica y comercial), y en otras que en su metodología tengan implícitos análisis estadísticos dinámicos.


Chapter 3  Conceptos básicos en variables unidimensionales y bidimensionales.

3.1  Variables unidimensionales.

La descriptiva es un concepto muy importante dentro de la estadística, nos introduce al muestreo y a la inferencia, nos ofrece importantes datos que nos facilitará el conocimiento de la población. Las ciencias empíricas suelen estar limitadas, el conocimiento científico, que se adquiere a partir de ellas, también lo está, ya que las conclusiones deben ser más amplias que la simple observación de los datos.

La idea de muestra viene determinada por dos ideas contradictorias, como son la representatividad (significa que la muestra se parece o debe en cierto modo representar a la población que estamos estudiando) y la variabilidad (indica que una muestra puede ser diferente a otra).

La lógica de la inferencia estadística es difícil, Pearson, estableció un puente entre la estadística descriptiva y la probabilidad. Usó los resúmenes de los datos para extraer inferencias sobre distribuciones básicas, (que trataremos en otro capítulo), y creó el test de Chi-cuadrado de adherencia de ajuste.

Los trabajos de Fisher también aportan una gran cantidad de ideas, inspirado en la teoría de los test de hipótesis, así como creó los cimientos del diseño de experimentos y el análisis de la varianza.

Pues bien, antes de entrar más profundamente en estos temas, trataremos una serie de conceptos importantes a tener en cuenta, para así facilitar la comprensión de este manual.

  1. Variables, población y muestra.

 

  1. Distribuciones de frecuencias.

Xi =

Li-1 + Li

 

2

  1.  
  2. Medidas de posición.

    Las medidas de posición permiten situar la distribución con respecto a un origen.

x

=

n

å

i=1

 

xi ni

 

N

 

  1. Medidas de dispersión:

    Las medidas de dispersión se encargan de calcular la representatividad de un promedio, con lo que habrá que calcular las distancias que existen entre los valores observados y el promedio.

S2=

n

å

i=1

 

(xi-x)2 ni

 

N

S=S2

 

CV=

S

 

x

3.2  Variables bidimensionales.

Hasta ahora todo lo visto es dado para variables unidimensionales, pero existen casos en los que se consideran simultáneamente dos caracteres de una misma población, en este caso a cada valor observado le corresponde un par de modalidades, estamos entonces ante distribuciones bidimensionales, cada frecuencia corresponde a un par de valores, de cualquier modo sería posible realizar un estudio por separado de ambas, (tales distribuciones son llamadas marginales); sin embargo lo que nos interesa es un estudio simultáneo de ambas características, es decir estudiar su distribución conjunta, para lo cual necesitamos de una tabla de correlación y una tabla de contingencia, y así poder establecer la relación que existe entre ellas.

  1. Tablas de correlación.

    Supongamos que deseamos estudiar dos variables cuantitativas, X con h niveles e y con k, seleccionando una muestra de tamaño N, de modo que los valores observados para cada variable serían x1...xh e y1...yk, donde nij es la frecuencia absoluta conjunta y ni. junto con n.j son las frecuencias marginales:

ni.=

k

å

j=1

nij

n.j=

h

å

i=1

nij

h

å

i=1

ni.

=

k

å

j=1

n.j

=

h

å

i=1

 

k

å

j=1

nij=N


  1. de donde podemos obtener las siguientes frecuencias:

    |® Frecuencias relativas conjuntas:

fij=

nij

 

N


  1. |® Frecuencias relativas marginales:

fi.=

ni.

 

N


  1. |® Frecuencias relativas condicionadas:

fi/j=

ni/j

 

n.j


  1. Igual para la variable dependiente Y.

    De modo que la media varianza y desviación típica tendrían la siguiente forma:

x

=

h

å

i=1

xi

ni.

 

N

y

=

k

å

j=1

yj

n.j

 

N

Sx2=

h

å

i=1

xi-x2

ni.

 

N

Sy2=

k

å

j=1

yj-y2

n.j

 

N

  1. Sx=Sx2
  2. Sy=Sy2

  3. Y donde la covarianza, una medida de gran importancia, puesto que puede tomar valores negativos lo que significará que las variables varían en sentido contrario:

Sxy=

h

å

i=1

k

å

j=1

xi-xyj-y

nij

 

N

  1.  
  2. Tablas de contingencia.

    Consideramos ahora una población de N individuos sobre la que queremos analizar un factor 1 designado por A1...Ar y un factor 2 designado por B1...Bc; donde r y c son las modalidades de ambos factores, nij es el número de individuos que presentan Ai y Bj. Esta tabla va a ser una tabla de doble entrada, cuya interpretación es similar a la de correlación, siendo:

ni.=

c

å

j=1

nij

n.j=

r

å

i=1

nij

N=

r

å

i=1

c

å

j=1

nij


  1. A partir de aquí podemos calcular las frecuencias del mismo modo que hemos hecho en la tabla anterior.

Cuando se analizan conjuntamente dos características, un concepto de gran importancia es el de la independencia, (dos variables o factores son independientes cuando no existe relación entre ellas), así que vamos a dar un pequeño esquema de como detectar la no presencia de asociación entre dos caracteres analizados:

fi/j=

ni.

 

N

fj/i=

n.j

 

N

nij

 

N

=

ni.

 

N

n.j

 

N

3.3  Regresión y correlación.

Este apartado lo vamos a dedicar al estudio de la asociación entre caracteres cuantitativos, donde la regresión nos permitirá determinar cuál es la estructura de dependencia que mejor explica el tipo de relación existente entre los dos caracteres y la correlación nos indicará el grado de dicha relación.

Supongamos que existe una variable explicativa X mediante la cual queremos deducir el comportamiento de una variable dependiente y; tenemos una distribución conjunta de frecuencias (xi;yj;nij); denominamos entonces como regresión de Y sobre X a la función que explica el comportamiento de y para cualquier valor de X, para determinar tal función podemos acudir a dos tipos de regresión:

  1. Regresión de tipo I: donde se asigna como valor teórico de Y correspondiente a cada uno de los xi " i=1...mla media de los valores de Y condicionados a X=xi.
  2. Regresión de tipo II: donde se toma como valor de Y para cada uno de X el deducido de una función ajustada por mínimos cuadrados.

Supongamos que nos encontramos en el caso más sencilla, en el que la función se puede ajustar por medio de una recta, (nos encontramos en el caso lineal):

Y=a+bx


donde a cada xi le corresponden dos valores de Y, el observado yj y el teórico yj*, de modo que la diferencia entre ambos nos da lugar al residuo ej:

ej=yj-yj*


Pues bien, el método de los mínimos cuadrados consiste en determinar los parámetros desconocidos a y b de forma que los residuos sean mínimos. En nuestro caso tendríamos que minimizar la siguiente expresión:

F=

 

å

i

 

å

j

(yj-a-b xj)2 nij


derivamos respecto de los parámetros desconocidos:

¶F

 

a

=

 

å

i

 

å

j

(yj-a-b xj)2 nij=0

 

¶F

 

b

=

 

å

i

 

å

j

(yj-a-b xj)2 xinij=0


de modo que operando:

a=y-bx

b=

Sxy

 

Sx2


donde a es el término independiente, y b es la pendiente de la recta o coeficiente de regresión.

Para saber si las variables están o no relacionadas, utilizaremos la varianza residual, que viene descrita por la siguiente expresión:

Sry2=

 

å

i

 

å

j

(ej-e)2

nij

 

N


siendo ej=yj-yj* de modo que si e=0 entonces:

Sry2=

 

å

i

 

å

j

(yj-yj*)2

nij

 

N


de manera que si el valor de la varianza es alto existirá una baja relación entre X e Y.

Esta relación también la podemos medir mediante el coeficiente de correlación general:

R=

1-

Sry2

 

Sy2


en el caso lineal:

Rlineal=r=

Sxy

 

SxSy

.

Esta medida se interpreta del siguiente modo:

Y por último nos queda definir el coeficiente de determinación lineal r2, que nos indica la bondad de ajuste.

Si este valor es nulo, nos indica que el modelo ajustado es poco útil, si en cambio es igual a 1 nos indicará que el modelo recoge las variaciones de la variable explicada a partir de la explicativa, mientras que si r2 se encuentra entre ambos valores nos expresa la bondad de ajuste, que cuanto más se aproxime a 1 mejor será.


Chapter 4  Muestreo.

El propósito de la estadística de encuestas es obtener información acerca de poblaciones, existen dos estrategias para la recopilación de datos, examinar todas las unidades de la población, lo que llamaremos censo, y examinar ciertas unidades (muestra) es decir suponer que los resultados obtenidos son representativos de toda la población.

La decisión óptima entre muestra y censo consiste en minimizar la pérdida total en la que se incluyen, los recursos empleados (tiempo, dinero, recursos, etc.) y el error y la probabilidad de cometerlo.

Llamamos Población al conjunto de unidades del que se desea obtener información, (es posible contar en cada unidad una o varias características denominadas parámetros o características poblacionales), donde una muestra es el conjunto de unidades de la población de la que se obtiene la información.

Los valores que toman las variables que deseamos estudiar se llamarán valores verdaderos, y los que no coinciden con los verdaderos los llamaremos observados. Existen también los valores aproximados denominados estimaciones, que se verán afectados por un error debido al muestreo, (cuanto menor sea mayor será la precisión de los estimadores).

Un problema en los estimadores es elegir aquel que proporcione mayor precisión, de modo que si q es un estimador del parámetro q, una propiedad deseable será que dicho estimador sea insesgado del parámetro desconocido q, esto significa:

E(q)=q


Para medir la precisión del estimador utilizaremos su varianza mediante el error cuadrático medio:

ECM(q)=E(q-q)2


siendo el sesgo: B=E(q)-q

Llamaremos error de muestreo a la raíz cuadrada de la varianza del estimador.

El intervalo de confianza lo podemos obtener a partir de la desigualdad de Chebichef, tal como aparece en la siguiente expresión:

(q ± k ECM(q),)


que es un intervalo de confianza para el parámetro q con un grado de confianza de:

(1 -

1

 

k2

) 100%


A continuación vamos a tratar algunos tipos de muestreo como son el muestreo aleatorio simple y el muestreo estratificado, dos tipos muy usuales y que nos proporcionan buenos resultados.


4.1  Muestreo aleatorio simple.

Es un muestreo de poblaciones finitas, cuando la muestra se obtiene unidad a unidad, sin reposición a la población, donde partimos de una población de N unidades de la cual extraemos una muestra de tamaño n, éstas son extraídas sucesiva e independientemente de las unidades con probabilidades iguales a:

1

 

N-t

; t=0,1,2...,n-1


donde la probabilidad de que una unidad cualquiera ui pertenezca a la muestra es: n/N.

Los estimadores de los parámetros son X,X y P:

X=Nx

 

X=x

media

P

=

n

å

i=1

 

Ai

 

n

proporción

donde x=åi=1n xi/n.

Las varianzas de los estimadores:

V(X)=N2(1-f)

S2

 

n

 

V(X)=(1-f)

S2

 

n

 

V(P)=

N-n

 

N-1

PQ

 

n


donde Q=1-P y f=n/N llamada fracción de muestreo, siendo la cuasivarianza poblacional:

S2=

N

å

i=1

(xi-X)2

 

N-1


con intervalos de confianza:

(Nx± k

Ns

 

n

1-f)

 

(x± k

s

 

n

1-f)

 

(P± k

PQ

 

n-1

(1-f)

)


Veamos ahora como determinar el tamaño de la muestra.

Una muestra que sea demasiado grande nos implica un desperdicio de recursos, mientras que una muestra demasiado pequeña disminuye la utilidad de los resultados, por lo que vamos a estudiar un procedimiento en el caso más sencillo de muestreo con probabilidades iguales, distinguiendo casos según el parámetro que interesa estimas, q, con un error máximo admisible, y un coeficiente de confianza pk

  1. Para estimar la media:

n=

n0

 

1+

n0

 

N


  1. donde n0=k2S2/e2, k es el coeficiente correspondiente al coeficiente de confianza pk.
  2. Cuando se quiere estimar el total:

n=

n0

 

1+

n0

 

N


  1. donde n0=N2k2S2/e2.
  2. Y si lo que queremos es la proporción:

n=

n0

 

1+

n0

 

N


  1. donde n0=k2PQ/e2.

Chapter 5  Inferencia estadística.

Para introducir este capítulo vamos a empezar hablando un poco de los instrumentos estadísticos más necesario para un buen análisis.

Dentro de la estadística descriptiva, la cual ya hemos tratado antes, es importante tener conocimiento de los histogramas y diagramas de probabilidad, los cuales son concepto básicos que podemos extraer de varios programas estadísticos asistidos por ordenador, como pueden ser STATGRAFICS o SPSS, dos paquetes en los que con solo seleccionar una serie de conceptos nos proporcionan dichos gráficos y muchos más que nos serán de gran utilidad en nuestro análisis.

Es importante también tener conocimiento de algunas distribuciones como son la Binomial, Poisson y Normal, (de las cuales hablaremos en este capitulo), además de aquellas asociadas al muestreo como son la Chi-cuadrado, t-Student y F de Snedecor, también sería interesante conocer la teoría de la estimación (inferencia) así como los Test de hipótesis y el análisis de la varianza junto con el diseño de experimentos.

Pues bien estos son algunos de los temas que vamos a ir tratando a continuación.

Recordemos que existen varios tipos de muestreo, dependiendo de si la población es finita o no, en este libro solo hemos tratado el muestreo aleatorio simple que debe regirse por:

Pues bien la inferencia trata de hacer expresiones, predicciones y generalizaciones sobre la población estadística basándose en la muestra, este proceso puede llevarse a cabo de dos formas:

  1. Mediante la estimación de parámetros.
  2. Mediante el contraste de hipótesis.

5.1  Estimación puntual.

Supongamos una m.a.s. de tamaño n sobre X={X1...Xn} llamadas variables muestrales, junto con sus valores observados {x1...xn}, tenemos además un estimador sobre un parámetro desconocido, de modo que llamaremos estimación puntual al valor concreto del estimador en una determinada realización.

Para hallar una aproximación a través de la estimación puntual procederemos del siguiente modo:

  1. Tomamos una muestra aleatoria simple de tamaño n sobre la característica X.
  2. Anotamos la realización muestral.
  3. Elegimos un estadístico, estimador q.
  4. Calculamos la estimación puntual del parámetro poblacional, para lo que debemos sustituir las variables aleatorias por los valores concretos obtenidos en la realización muestral.

Nuestra pregunta ahora será, ¿cuál será el mejor estimador?, para ello vamos a ver las propiedades que dichos estimadores deben cumplir:

  1. Si la esperanza del estimador coincide con el valor verdadero del parámetro, se dice entonces que el estimador es insesgado, en caso contrario será sesgado, interesándonos aquel estimador que sea insesgado.
  2. La distribución del estimador debe tener una varianza pequeña, es decir nos interesa el estimador de mínima varianza, que coincidirá con la cota de Cramér-Rao.
  3. Y además debemos tener en cuenta que a medida que aumente el tamaño de la muestra nuestro estimador debe ir mejorando, lo que llamaremos propiedad de consistencia.

Por lo tanto, nuestro estimador debe ser:insesgado, eficiente absoluto y consistente.

Para construir un buen estimador existen varios métodos: el de los momentos, el de la ji-cuadrado mínima, el de mínimos cuadrados, el método de Bayes,etc. nosotros vamos a destacar los siguientes:

  1. Método de máxima verosimilitud : Supongamos que nuestro parámetro poblacional puede tomar valores q1...qn y nombramos a x como la realización muestral obtenida, calculamos entonces su probabilidades [P(x/q1),...P(x/qn)] de modo que si P[x/qi] es la máxima probabilidad Þ qi será el mejor estimador del parámetro.

    Estos estimadores cumplen tres condiciones:

 

  1. Estimación por intervalos:

    Una estimación puntual no nos mide la precisión de la estimación, para lo cual acudimos a la bondad de ajuste y al tamaño muestral, que nos proporciona una menor o mayor confianza en la estimación obtenida, a esta confianza la vamos a denotar por b%.

    De modo que tomamos un intervalo de confianza L1£q£ L2 donde q es el valor del parámetro desconocido y L1 y L2 son funciones de los valores muestrales, por lo tanto tomamos una muestra de la población y sustituimos en dichos intervalos, así obtenemos una confianza del b% de que nuestro parámetro desconocido esté o no en nuestro intervalo, tal que:

P[L1£q£ L2]=b

.

Nota: el mejor método para obtener este intervalo de confianza el método de Neyman-Pearson, que lo podemos encontrar en cualquier libro de estadística.

5.2  Contraste de Hipótesis.

Como hemos dicho antes la inferencia se puede llevar a cabo de dos formas, mediante la estimación de parámetros y mediante el contraste de hipótesis, pues dentro de éste podemos distinguir entre contrastes paramétricos y no paramétricos.

  1. Contrastes paramétricos:

H0: q=q0

H1: q¹q0


Pero además existen dos tipos de errores: error de tipo I, llamado también falsa alarma, ocurre cuando un punto que se encuentra fuera de las líneas de control en realidad no debería rechazarse, sino que está fuera por puro azar:

a = P(error tipo I)=P(H1/H0)


Y denominamos no detectar un cambio al caso contrario, es decir, cuando un punto que queda dentro de los límites de control debería rechazarse, se trata del Error de tipo II:

b = P(error tipo II)=P(H0/H1)


La potencia del test se mide mediante: 1-b=P(H1/H1). Debemos saber también que existe una relación inversa entre las líneas de control y el tamaño de la muestra de modo que:

n aumenta Þ límites más estrechos Þ aumenta a y disminuye b

n disminuye Þ límites más anchos Þ disminuye a y aumenta b

La regla de conducta para elegir una u otra hipótesis consiste en fijar un subconjunto del espacio muestral que denominamos región crítica,(que puede ser unilateral o bilateral), se toma entonces una m.a.s. de la población y se establece un estadístico, de forma que si el estadística pertenece ala región crítica rechazamos la hipótesis nula, y en caso contrario la aceptamos.

P[l(X)£ k]=a


donde (l(X)£ k) es la mejor región crítica, de la cual conocemos su distribución, por lo que:

si (l(X)£ k) rechazamos H0.

si (l(X)> k) aceptamos H0.

  1.  
  2. Contrastes no paramétricos:

    Dentro de los contrastes no paramétricos nos encontramos con los de bondad de ajuste y los de independencia.

FN(x)=

Ni

 

N

l(X)=

 

Õ

ij

(

Eij

 

nij

)nij

-2 ln l(X)=-2

 

å

ij

nij ln(

Eij

 

nij

)

Veamos para concluir este capítulo, dos estadísticos importantes en pruebas paramétricas para la comparación de medias, (mediante la prueba t-Student) y para la comparación de varianzas, (con el estadístico F).

t=

(x1-x2)

 

s

(

1

 

n1

+

1

 

n2

)

s2=

(n1-1)s12+(n2-1)s22

 

n1+n2-2

t=

(x1-x2)

 

(

s12

 

n1

+

s22

 

n2

)

F=

s12

 

s22

5.3  Análisis de la varianza.

El análisis de la varianza es la primera prueba de significación que trata de comparar más de dos variables, para poder aplicarlo requiere que los datos cumplan algunos supuestos como son:

El diseño experimental es crucial para que los datos experimentales cumplan las premisas descritas anteriormente, este diseño describe las siguientes fases del experimento:

La variable que estamos investigando recibe el nombre de variable respuesta y los factores serán aquellas variables que pueden ser controladas por el investigador y que se presentan a diferentes niveles (o tratamientos). También nos encontramos con variables extrañas no controladas por el experimentador, llamadas perturbaciones.

Para realizar un experimento se aplican a distintas unidades experimentales los diferentes niveles y se observa la variable respuesta, donde el tamaño del experimento será el número de observaciones obtenidas. Para alcanzar este objetivo, practicaremos las siguientes etapas:

  1. Diseñar el experimento, para lo cual debemos:

 

  1. Realizar la experimentación.
  2. Analizar los resultados y comprobar las hipótesis establecidas.
  3. Comprobar si el diseño de adecua a la situación, realizando las modificaciones oportunas.
  4. Obtención de conclusiones.

Uno de los principales objetivos del Diseño Estadístico de Experimentos es reducir la variabilidad cuando se repite el experimento, para lo cual debemos realizar comparaciones lo más homogéneas posibles, esto conduce a la formación de bloques en el diseño, (un bloque es una porción del material que estudiamos que resulta ser más homogénea que el total de dicho material).

Dentro del Diseño de Experimentos podemos encontrar:

El modelo general viene dado por la siguiente expresión:

yij=µ+ti+uij



Chapter 6  Análisis Multivariante.

El Análisis multivariante proporciona diversos procedimientos numéricos y gráficos para estudiar datos compuestos por variables que describen un número de individuos, nos permitirá abordar el tratamiento de dichos datos con el suficiente conocimiento para aplicar métodos apropiados a cada tipo de problema, y así obtener una información más relevante y apropiada de los datos de nuestra investigación.

Al igual que con técnicas anteriores, debemos comprobar una serie de premisas que nos verifiquen que los datos utilizados son aptos para este tipo de análisis. Al igual que en métodos univariantes, éste se base en la normalidad multivariante, que se dará si todas nuestras variables de estudio siguen una distribución normal individual, en caso contrario tendremos que realizar una transformación de los datos o recurrir a test no paramétricos, aunque muchos autores aseguran que el problema no está en saber si se cumplen o no estos supuestos pramétricos, sino que lo importante será conocer los efectos que pueden tener sobre los resultados.

Un análisis multivariante consta de tres fases bien diferenciadas:

 

 

Para comprender mejor de que trata este tipo de análisis, podemos acudir al capítulo de Análisis Multivariante que aparece junto con este documento.


Chapter 7  Análisis Exploratorio y Estadística Computacional.

El análisis exploratorio de datos es un conjunto de técnicas que no solo tratan de ordenar, escribir y representar los datos, sino que principalmente se centra en la búsqueda de anomalías de datos y en la tendencia de los datos.

La forma de obtener este objetivo lo hace bajo dos principios, uno el escepticismo "Ser escéptico frente aquellas medidas sin que hallan sido investigadas"; y el otro la apertura "A la hora de explorar los datos no debe irse son una idea preconcebida."

Sobre distribuciones unidimensionales, el análisis exploratorio de datos nos puede informar sobre la forma de su distribución, la presencia de huecos, la presencia de datos anómalos (outliers) alejados de la distribución...

Good (1183) explica que los puntos importantes del análisis exploratorio son:

Las técnicas gráficas revelan visualmente el comportamiento de los datos y la estructura del conjunto, el análisis exploratorio presta especial atención al análisis de residuos, empleando la transformación de los datos para encontrar una escala adecuada a dicho análisis, haciendo hincapié en la resistencia de algunas estadísticas frente a datos faltantes, y empleando estadísticos robustos frente a la posible alteración de la hipótesis de partida.

Este análisis se caracteriza por utilizar medidas descriptivas resistentes y robustas, realiza una descripción de los datos no solo sobre una única medida sino sobre todo un conjunto, y sobre todo por preferir las representaciones gráficas a los sintetizadores numéricos.

En los últimos 30 años ha habido una revolución en la forma en que los estadísticos piensan acerca del análisis de datos. El origen de esta revolución puede ser convenientemente situada en la publicación en 1977 del monumental trabajo de John Tukey, Exploratory Data Analysis, abreviadamente EDA, cuyos cimientos fueron puestos en una serie de artículos escritos por Tukey, sus colegas y sus estudiantes. La dirección de esta revolución fue puesta de manifiesto de forma clara en 1962, en el artículo de Tukey, The Future of Data Analysis. Los cambios propuestos en dicho trabajo reflejan el hecho de que el análisis de los datos para aprender sobre un problema determinado requiere más, que las herramientas formales de la estadística matemática.

Tukey argumentó que el análisis exploratorio es un paso necesario para la solución de muchos problemas en los que los métodos gráficos juegan un papel decisivo. Datos outliers suelen ser con frecuencia críticos para el desarrollo y comprensión del proceso en estudio. Con frecuencia, algunos problemas típicos incumplen las hipótesis estadísticas básicas sobre las que se fundamentan las técnicas estadísticas clásicas o incluso, el análisis de los datos es en sí mismo un estudio exploratorio de los mismos. Como consecuencia, Tukey expresó el deseo de chequear estas hipótesis y de desarrollar métodos que requiriesen menos hipótesis restrictivas. Métodos de remuestreo y estadísticos robustos y resistentes ilustran este hecho. Por último, Tukey mantiene que muchos problemas requieren soluciones iterativas en lugar de las más convenientes soluciones de un solo paso.

Mientras que el EDA de Tukey se fundamentó en cálculos manuales e incluso en la representación gráfica manual sin regla, su futuro sobre el análisis de datos apunta reiterativamente al ordenador como medio de realizar lo que él recomendó. De hecho, la aplicación actual del análisis de datos sería imposible sin la ayuda del ordenador. Por tanto, la revolución computacional es un componente esencial de la revolución del análisis de datos, de forma que cálculos que requerían un extraordinario esfuerzo y costo en un pasado inminente pueden ahora efectuarse convenientemente sin apenas esfuerzo.

Independientemente de las ideas propuestas por el programa de análisis de datos de Tukey, las facilidades ofrecidas por los ordenadores han influido notablemente en la forma en que se analizan los datos.

Un problema importante es el que se produce cuando se ignoran los datos. Por ejemplo, consideremos los cuatro gráficos de Anscombe (1973). En los cuatro casos se obtienen idénticas rectas de regresión mínimo cuadrática, incluidos el coeficiente de correlación y desviaciones típicas. El análisis de datos que ignore esas gráficas puede llevar a conclusiones totalmente inadecuadas, de lo cual se deduce que el análisis gráfico de los datos es un aspecto tan importante como el numérico.

Para una mayor información podemos consultar la parte de Computacional, en la que se especifica mejor dichos calculos y muchos más.


Chapter 8  Paquetes informáticos utilizados para el análisis de datos experimentales.

El análisis de datos es una disciplina que consiste en la búsqueda sistemática de información y de relaciones a través de conjuntos de datos, pero la gran cantidad de información que es posible generar hoy en día para llevar acabo una análisis hace que el investigador encuentre gran números de datos a partir de los cuales puede adquirir buenas conclusiones, y aunque la estadística aplicada a desarrollado numerosos métodos para realizar el tratamiento de estos datos, a veces nos es casi imposible realizarlos a mano, pero gracias a la implantación de los ordenadores podemos realizar dichos cálculos con gran facilidad.

Por ello en este capitulo vamos a tratar de describir una serie de programas que nos ayudarán a complementar nuestro proyecto.

Microsoft EXCEL: conocida como una hoja de cálculo, que incluye diferentes tipos de funciones tanto matemáticas como trigonométricas, estadísticas básicas, lógicas, financieras... Además existe también un módulo de análisis de datos en el que podemos encontrar distribuciones de probabilidad, análisis de la varianza, regresión, pruebas de significación...

STATGRAPHICS:(Statistical Graphics System by Statical Grafics Corporation. A Plus Ware Product. STSC); es uno de los programas más usados, en el que podemos encontrar:

 

 

 

SPSS for Microsoft Windows: es uno de los paquetes informáticos más completos existentes en la actualidad, donde podemos encontrar las siguientes herramientas:

 

 

 

BMDP: que permite la aplicación de las siguientes tecnicas:

Statisca: que nos ofrece:

Chapter 9  Ejemplo práctico.

9.1  Descripción del problema

El bajo peso al nacer es una característica de los recién nacidos que, en ocasiones, condiciona el desarrollo, tanto físico como psíquico, de los niños. El peso del recién nacido se cree que está asociado tanto a características biológicas de su madre, como por ejemplo la edad o el peso, como a la raza o ciertos hábitos de vida como puede ser el hábito de fumar. Para estudiar la relación entre el peso del recién nacido y estas características de la madre, se diseñó este estudio donde se midieron el peso de cada uno de los 189 recién nacidos junto con variables de la madre como fueron: raza, edad, peso, hábito de fumar, hipertensión, irritabilidad uterina, número de partos previos y visitas al médico.

Este trabajo consta de tres apartados principales:

Para llevar a cabo los anteriores análisis, se utilizará: el paquete estadístico SPSS/PC versión 12.0. En el disco adjunto, se encuentran la base de datos original y la misma después de realizar todas las operaciones para llevar a cabo el proyecto.


9.2  Análisis Univariante

Como introducción previa al estudio univariante de las variables que forman parte de la base de datos, realizaremos una transformación de la variable "pesom", ya que la unidad de medida es la libra y, para facilitar su tratamiento, convertiremos las libras en kgs. Una vez realizada esta transformación, tendremos entonces una nueva variable a la que pasaremos a llamar "pesomkg" siendo ésta la que utilizaremos para el estudio.

Para ello llevamos a cabo el siguiente procedimiento:

Transformar |® Calcular |® Variable de destino: pesomkg.

Tipo de etiqueta: Peso de la madre en kilos.

Expresión numérica: pesom / 2

Una vez realizada esta transformación, pasaremos a estudiar las diferentes variables de la base de datos con el siguiente esquema y sus correspondientes procedimientos:

  1. Variables cualitativas:

    "Bajo", "Raza", "Tabaco", "Hta" y "Iu".

 

  1. Variables cuantitativas:

 

 

  1. VARIABLES CUALITATIVAS

    Construimos la tabla de frecuencias y el diagrama de barras para las variables cualitativas, que son "Bajo", "Raza", "Tabaco", "Hta" y "Iu". A continuación se expone los resultados del estudio univariante de cada una de estas variables. Se adjunta también la lectura de la tabla.

Validos

Frecuencia

Porcentaje

% valido

% acumulado

>=2500 gr

130

68,8

68,8

68,8

<2500 gr

59

31,2

31,2

100,0

Total

189

100,0

100,0

 

o     

o     

o      Figure 9.1: Histograma bajo peso al nacer

o       

o     
    •  
    • Raza de la madre:

Validos

Frecuencia

Porcentaje

% valido

% acumulado

Blanca

96

50,8

50,8

50,8

Negra

26

13,8

13,8

64,6

Otra raza

67

35,4

35,4

100,0

Total

189

100,0

100,0

 

o     

o     

o      Figure 9.2: Histograma raza de la madre

o       

o     
    •  
    • Si la madre fuma o no:

Validos

Frecuencia

Porcentaje

% valido

% acumulado

No fumadora

115

60,8

60,8

60,8

Fumadora

74

39,2

39,2

100,0

Total

189

100,0

100,0

 

o     

o     

o      Figure 9.3: Histograma Madre fumadora o no.

o       

o     
    •  
    • Hipertensión:

Validos

Frecuencia

Porcentaje

% valido

% acumulado

No hipertensa

177

93,7

93,7

93,7

Hipertensa

12

6,3

6,3

100,0

Total

189

100,0

100,0

 

o     

o     

o      Figure 9.4: Histograma Hipertensión.

o       

o     
    •  
    • Irritabilidad uterina:

Validos

Frecuencia

Porcentaje

% valido

% acumulado

No

161

85,2

85,2

85,2

Si

28

14,8

14,8

100,0

Total

189

100,0

100,0

 

o     

o     

o      Figure 9.5: Histograma Irritabilidad uterina.

o       

o     
  1.  
  2. VARIABLES CUANTITATIVAS NO CONTINUAS.

    El propósito es realizar el mismo estudio que en el caso de las variables cualitativas, es decir, construimos la tabla de frecuencias y el diagrama de barras para las dos variables.
    • Número de partos previos:

Validos

Frecuencia

Porcentaje

% valido

% acumulado

0

159

84,1

84,1

84,1

1

24

12,7

12,7

96,8

2

5

2,6

2,6

99,5

3

1

0,5

0,5

100,0

Total

189

100,0

100,0

 

o     

o     

o      Figure 9.6: Histograma Nº de partos previos.

o       

o     
    •  
    • Visitas al médico:

Validos

Frecuencia

Porcentaje

% valido

% acumulado

0

102

54,0

54,0

54,0

1

46

24,3

24,3

78,3

2

29

15,3

15,3

93,7

3

7

3,7

3,7

97,4

4

4

2,1

2,1

99,5

6

1

0,5

0,5

100,0

Total

189

100,0

100,0

 

o     

o     

o      Figure 9.7: Histograma Visitas al médico.

o       

o     

  1. A continuación, realizamos una recodificación de las dos variables anteriores ya que ambas presentan cuatro o más categorías, para facilitar el tratamiento de los datos, y seguidamente volvemos a realizar la tabla de frecuencias y el diagrama de barras de dichas variables, una vez recodificadas.

    Cabe destacar, consecuentemente, la creación de dos nuevas variables, "Partprevr" y "Visitasr" con el siguiente procedimiento:
    • "Partprev" (número de partos previos):

      Transformar |® Recodificar |® En distintas variables.

      Variable de resultado: partprevr |® cambiar.

      Etiqueta: Número de partos previos (recodificada) |® cambiar.

      Valores antiguos y nuevos:

      Valor antiguo: Valor |® 0 |® Valor nuevo: Valor |® 0 |® Añadir

      Valor antiguo: Todos los demás valores |® Valor nuevo: Valor |® 1 |® Añadir
    • "Visitas" (visitas al médico):

      Transformar |® Recodificar |® En distintas variables.

      Variable de resultado: visitasr |® cambiar.

      Etiqueta: Visitas (recodificada) |® cambiar.

      Valores antiguos y nuevos:

      Valor antiguo: Valor |® 0 |® Valor nuevo: Valor |® 0 |® Añadir

      Valor antiguo: Valor |® 1 |® Valor nuevo: Valor |® 1 |® Añadir

      Valor antiguo: Todos los demás valores |® Valor nuevo: Valor |® 2 |® Añadir

 

  1. VARIABLES CUANTITATIVAS NO CONTINUAS RECODIFICADAS

Validos

Frecuencia

Porcentaje

% valido

% acumulado

Ningun parto previo

159

84,1

84,1

84,1

Uno o mas partos previos

30

15,9

15,9

100,0

Total

189

100,0

100,0

 

o     

o     

o      Figure 9.8: Histograma Partos previos.

o       

o     
    •  
    • Visistas al médico (recodificada):

Validos

Frecuencia

Porcentaje

% valido

% acumulado

Ninguna visita

102

54,0

54,0

54,0

Una visita

46

24,3

24,3

78,3

2 o mas visitas

41

21,7

21,7

100,0

Total

189

100,0

100,0

 

o     

o     

o      Figure 9.9: Histograma Visitas.

o       

o     
  1.  
  2. VARIABLES CUANTITATIVAS CONTINUAS:

    El estudio unidimensional de las variables continuas lo hacemos mediante la descripción de diferentes medidas de posición y su correspondiente histograma de frecuencias.
    • Peso de la madre en Kgs:

      Datos descriptivos, medidas de posición:

 

 

Estadistico

Error tip.

Media

 

64,907

1,112

I.C. al 95%

Limite inferior

62,713

 

 

Limite superior

67,101

 

Media recortada al 5%

 

63,679

 

Mediana

 

60,500

 

Varianza

 

233,775

 

Desv. tip.

 

15,290

 

Minimo

 

40,0

 

Maximo

 

125,0

 

Rango

 

85,0

 

Amplitud intercuartil

 

15,250

 

Asimetria

 

1,402

0,177

Curtosis

 

2,404

0,352

4,00

4 . 0224

15,00

4 . 555567777777889

23,00

5 . 00000011111222222233444

33,00

5 . 555555555556666666777777788899999

35,00

6 . 00000000000000000000011111222223444

29,00

6 . 55555555555555666667777777899

9,00

7 . 000011334

13,00

7 . 5555567777799

7,00

8 . 0023444

5,00

8 . 55557

2,00

9 . 12

14,00

Extremes (>=93)

o     

o     

o      Figure 9.10: Peso de la madre.

o       

o     
    •  
    • Edad de la madre:

      Datos descriptivos, medidas de posición:

 

 

Estadistico

Error tip.

Media

 

23,24

0,39

I.C. al 95%

Limite inferior

22,48

 

 

Limite superior

24,00

 

Media recortada al 5%

 

23,02

 

Mediana

 

23,00

 

Varianza

 

28,076

 

Desv. tip.

 

5,30

 

Minimo

 

14

 

Maximo

 

45

 

Rango

 

31

 

Amplitud intercuartil

 

7,00

 

Asimetria

 

0,722

0,177

Curtosis

 

0,616

0,352

,00

1 .

6,00

1 . 444555

19,00

1 . 6666666777777777777

26,00

1 . 88888888889999999999999999

30,00

2 . 000000000000000000111111111111

26,00

2 . 22222222222223333333333333

28,00

2 . 4444444444444555555555555555

11,00

2 . 66666666777

16,00

2 . 8888888889999999

12,00

3 . 000000011111

9,00

3 . 222222333

3,00

3 . 455

2,00

3 . 66

1,00

Extremes (>=45)

o     

o     

o      Figure 9.11: Edad madre.

o       

o     
    •  
    • Peso del recién nacido en gramos:

      Datos descriptivos, medidas de posición:

 

 

Estadistico

Error tip.

Media

 

2.944,66

53,03

I.C. al 95%

Limite inferior

2.840,05

 

 

Limite superior

3.049,26

 

Media recortada al 5%

 

2.957,83

 

Mediana

 

2.977,00

 

Varianza

 

531.473,684

 

Desv. tip.

 

729,02

 

Minimo

 

709

 

Maximo

 

4.990

 

Rango

 

4.281

 

Amplitud intercuartil

 

1.069,00

 

Asimetria

 

-0,210

0,177

Curtosis

 

-0,081

0,352

1,00

Extremes (=<709)

2,00

1 . 01

1,00

1 . 3

3,00

1 . 455

3,00

1 . 777

9,00

1 . 888899999

10,00

2 . 0000011111

16,00

2 . 2222222333333333

18,00

2 . 444444444444445555

14,00

2 . 66666677777777

20,00

2 . 88888888999999999999

18,00

3 . 000000000000111111

19,00

3 . 2222222222233333333

13,00

3 . 4444444445555

19,00

3 . 6666666666667777777

14,00

3 . 88888899999999

6,00

4 . 001111

1,00

4 . 2

1,00

4 . 5

,00

4 .

1,00

4 . 9

o     

o     

o      Figure 9.12: Peso niño.

o       

o     
  1.  

9.3  Análisis bivariante: Relación del bajo peso con el resto de variables

Aquí se pretende ver cómo influyen las distintas características de las madres de los niños para que estos nazcan con peso normal o bajo.

Volvemos a dividir las variables:

  1. Variables cualitativas: "Raza", "Tabaco", "Hta" y "Iu".

 

  1. Variables cuantitativas:

 

  1. VARIABLES CUALITATIVAS:

Peso niño

 

Blanca

Negra

Otra raza

Total

>=2500 gr

Recuento

73

15

42

130

 

% de Bajo peso

56,2%

11,5%

32,3%

100,0%

<2500 gr

Recuento

23

11

25

59

 

% de Bajo peso

39,0%

18,6%

42,4%

100,0%

Total

Recuento

96

26

67

189

 

% de Bajo peso

50,8%

13,8%

35,4%

100,0%

o     

o     

o      Figure 9.13: Diagrama de barras.

o       

o     
    •  
    • Si la madre fuma o no:

      |® Tabla de contingencia:

 

 

No fumadora

Fumadora

Total

>=2500 gr

Recuento

86

44

130

 

% de Bajo peso

66,2%

33,8%

100,0%

<2500 grs

Recuento

29

30

59

 

% de Bajo peso

49,2%

50,8%

100,0%

Total

Recuento

115

74

189

 

% de Bajo peso

60,8%

39,2%

100,0%

o     

o     

o      Figure 9.14: Diagrama de barras.

o       

o     
    •  
    • Hipertensión:

      |® Tabla de contingencia:

 

 

No hipertensa

Hipertensa

Total

>=2500 gr

Recuento

125

5

130

 

% de Bajo peso

96,15384%

3,84615%

100%

<2500 gr

Recuento

52

7

59

 

% de Bajo peso

88,13559%

11,8644%

100%

Total

Recuento

177

12

189

 

% de Bajo peso

93,65079%

6,349206%

100%

o     

o     

o      Figure 9.15: Diagrama de barras.

o       

o     
    •  
    • Irritabilidad uterina:

      |® Tabla de contingencia:

 

 

No

Sí

Total

>=2500 gr

Recuento

116

14

130

 

% de Bajo peso

89,2%

10,8%

100,0%

<2500 gr

Recuento

45

14

59

 

% de Bajo peso

76,3%

23,7%

100,0%

Total

Recuento

161

28

189

 

% de Bajo peso al nacer

85,2%

14,8%

100,0%

o     

o     

o      Figure 9.16: Diagrama de barras.

o       

o     
  1.  
  2. VARIABLES CUANTITATIVAS NO CONTINUAS:
    • Número de partos previos (recodificada):

      |® Tabla de contingencia:

 

 

Ningún parto

Uno o más partos

Total

>=2500 gr

Recuento

118

12

130

 

% de Bajo peso

90,8%

9,2%

100,0%

<2500 gr

Recuento

41

18

59

 

% de Bajo peso

69,5%

30,5%

100,0%

Total

Recuento

159

30

189

 

% de Bajo peso

84,1%

15,9%

100,0%

o     

o     

o      Figure 9.17: Gráfico de barras.

o       

o     
    •  
    • Visistas al médico:

      |® Tabla de contingencia:

 

 

Ninguna

Una visita

2 o más

Total

>=2500 gr

Recuento

65

35

30

130

 

% de Bajo peso

50,0%

26,9%

23,1%

100,0%

<2500 gr

Recuento

37

11

11

59

 

% de Bajo peso

62,7%

18,6%

18,6%

100,0%

Total

Recuento

102

46

41

189

 

% de Bajo peso

54,0%

24,3%

21,7%

100,0%

o     

o     

o      Figure 9.18: Gráfico de barras .

o       

o     
  1.  
  2. VARIABLES CUANTITATIVAS CONTINUAS:
    • Peso de la madre en Kgs.:

      Figura: 9.19

      Resumen descriptivo de los datos respecto al peso de la madre:

 

 

Estadistico

Error tip.

Media

 

66,650

1,391

I.C. al 95%

Lim.inf.

63,897

 

 

Lim.sup.

69,403

 

Media recortada al 5%

 

65,254

 

Mediana

 

61,750

 

Varianza

 

251,603

 

Desv. tip.

 

15,862

 

Minimo

 

42,5

 

Maximo

 

125,0

 

Rango

 

82,5

 

Ampli. interc.

 

17,375

 

Asimetria

 

1,452

0,212

Curtosis

 

2,423

0,422

 

 

Estadistico

Error tip.

Media

 

61,068

1,729

I.C. al 95%

Lim. inf.

57,607

 

 

Lim. sup.

64,528

 

Media recortada al 5%

 

60,158

 

Mediana

 

60,000

 

Varianza

 

176,349

 

Desv. tip.

 

13,280

 

Minimo

 

40,0

 

Maximo

 

100,0

 

Rango

 

60,0

 

Ampl.interc.

 

13,500

 

Asimetria

 

1,119

0,311

Curtosis

 

1,172

0,613

o     

o     

o      Figure 9.19: Diagrama de cajas.

o       

o     
    •  
    • Edad de la madre:

      Figura: 9.20

      Resumen descriptivo respecto a la edad de la madre:

 

 

Estadístico

Error típ.

Media

 

23,66

0,49

I.C. al 95%

Lim. inf.

22,69

 

 

Lim. sup.

24,63

 

Media recortada al 5%

 

23,41

 

Mediana

 

23,00

 

Varianza

 

31,187

 

Desv. tip.

 

5,58

 

Minimo

 

14

 

Maximo

 

45

 

Rango

 

31

 

Ampli. interc.

 

9,00

 

Asimetria

 

0,754

0,212

Curtosis

 

0,503

0,422

 

 

Estadistico

Error tip.

Media

 

22,31

0,59

I.C. al 95%

Lim. inf.

21,13

 

 

Lim. sup.

23,48

 

Media recortada al 5%

 

22,19

 

Mediana

 

22,00

 

Varianza

 

20,354

 

Desv. tip.

 

4,51

 

Minimo

 

14

 

Maximo

 

34

 

Rango

 

20

 

Ampl.interc.

 

6,00

 

Asimetria

 

0,300

0,311

Curtosis

 

-0,162

0,613

o     

o     

o      Figure 9.20: Diagrama de cajas.

o       

o     

9.4  Análisis multivariante (y=pesorn)

En principio, el modelo es el siguiente:

E[persom]=b0+b1edad+b2pesomkg+b3raza+b4tabaco+

b5partprevr+b6hta+b7iu+b8visitasr


En primer lugar, hay que mirar las variables cuyo número de categorías sea mayor que 2 y vemos que hay dos: raza y visitasr. Cuando se tiene una variable categórica con k categorías hay que formar k-1 variables dummy. En este caso ambas variables tienen 3 categorías, luego habrá que crear dos variables dummy para cada una de ellas.

Procedimiento para crearlas:

Resumen del modelo 1.

R

R2

R2 corregida

Error típ.

0,225

0,051

0,041

714,09


Nota:Variables predictoras: (Constante), RAZA2, RAZA1.

R2=0.051 lo que significa que el 5.1% de la variabilidad de la variable dependiente viene explicada porque los niños son hijos de madres de distintas razas.

ANOVA(b). Modelo1.

 

Suma.cuadrados

gl

Media cuadrática

F

Sig.

Regresion

5.070.607,632

2

2.535.303,816

4,972

0,008

Residual

94.846.445,013

186

509.927,124

 

 

Total

99.917.052,646

188

 

 

 


Nota: Variables predictoras: (Constante), RAZA2, RAZA1. Variable dependiente: Peso de recien nacido (grs).

Según la tabla, 99917053 expresa la variabilidad del peso del recién nacido. De dicha cantidad, la variabilidad explicada por las variables independientes es 5070607.6. El resto, que es 94846445, es la variabilidad residual, es decir, lo que queda por explicar. El P-value es 0.008 así que hay diferencia significativa entre el peso de los niños, por lo tanto dicho peso depende, en parte, de la raza de la madre.

Coeficientes. Modelo 1.

 

Coef. no estand.

 

Coef. estand.

t

Sig.

 

B

Error típ.

Beta

 

 

(Constante)

3.103,740

72,882

 

42,586

0,000

RAZA1

-384,047

157,874

-0,182

-2,433

0,016

RAZA2

-299,725

113,678

-0,197

-2,637

0,009


Nota: Variable dependiente: Peso de recien nacido (grs).

Para ver si hay diferencia significativa, miramos los P-value y vemos que la hay, tanto para el peso de los niños de madres negras con respecto al peso de los niños de madres blancas, como para el peso de los niños de madres de otra raza con respecto al peso de los niños de madres blancas.

 

Resumen del modelo 1.

R

R2

R2 corregida

Error típ.

t

Sig.

0,128

0,016

0,006

726,94

 

 

Nota: Variables predictoras: (Constante), VISITAS2, VISITAS1.

R2=0.016 lo que significa que el 1.6% de la variabilidad de la variable dependiente viene explicada por los distintos números de visitas al médico que han realizado las madres de los niños cuyo peso está en estudio.

ANOVA(b). Modelo 1.

 

Suma cuadrados

gl

Media cuadratica

F

Sig.

Regresion

1.627.882,022

2

813.941,011

1,540

0,217

Residual

98.289.170,624

186

528.436,401

 

 

Total

99.917.052,646

188

 

 

 


Nota: Variables predictoras: (Constante), VISITAS2, VISITAS1. Variable dependiente: Peso de recien nacido (grs).

Observando esta tabla vemos que 99917053 expresa la variabilidad del peso del recién nacido. De esa cantidad, 1627882.0 es la variabilidad explicada por las variables independientes. El resto, que es 98289171, es lo que queda por explicar, es decir, la variabilidad residual. El P-value es 0.217 así que no hay diferencia significativa entre el peso de los niños, por el hecho de que sus madres hayan ido al médico o no.

Procedemos ahora al análisis multivariante:

Analizar Regresión Lineal. Variable Dependiente pesorn.

Variable independiente edad, pesom kg, raza1, raza2, fuma, partprevr, hta, iu, visitas1, visitas2.

Resumen del modelo 1.

R

R2

R2corregida

Error típ.

F

Sig.

0,506

0,256

0,215

646,05

1,540

0,217


Nota: Variables predictoras: (Constante), VISITAS2, Irritabilidad uterina, RAZA1, Si la madre fuma o no, Hipertensión, Edad de la madre, Número de partos previos (recodificada), VISITAS1, Peso de la madre en kilos, RAZA2.

R2=0.256 lo que significa que el conjunto de todas las variables independientes explican aproximadamente la cuarta parte de la variable del peso de los niños.

ANOVA para el modelo 1.

 

Suma de cuadrados

gl

Media cuadratica

F

Sig.

Regresion

25.622.586,439

10

2.562.258,644

6,139

0,000

Residual

74.294.466,206

178

417.384,642

 

 

Total

99.917.052,646

188

 

 

 


Nota:Variables predictoras: (Constante), VISITAS2, Irritabilidad uterina, RAZA1, Si la madre fuma o no, Hipertensión, Edad de la madre, Número de partos previos (recodificada), VISITAS1, Peso de la madre en kilos, RAZA2.

Variable dependiente: Peso de recién nacido (grs).

Según esta tabla, 99917053 expresa la variabilidad del peso del recién nacido. De esta cantidad, 25622586 es la variabilidad explicada por las variables independientes. El resto, la variabilidad residual que es 74294466, es lo que queda por explicar. R2=0.256, no es más que el cociente entre la variabilidad explicada en relación con la variabilidad total.

La siguiente columna muestra los grados de libertad:

En la siguiente aparecen las medias cuadráticas que son los cocientes entre las variabilidades explicadas y residuales y sus respectivos grados de libertad. La F es el cociente resultado de la división de las dos medias cuadráticas anteriores.

El hecho de que el P-value sea 0.000 no significa, de ninguna manera, que el error sea 0, sino que es menor de una milésima. Ya que el error es pequeño, podemos afirmar que el conjunto de las variables independientes está asociado significativamente con el peso del recién nacido.

Coeficientes del modelo 1.

 

Coef.no estandar.

 

Coef. estandar.

t

Sig.

 

B

Error típ.

Beta

 

 

(Constante)

2.880,303

312,951

 

9,204

0,000

Edad madre

-3,035

9,597

-0,022

-0,316

0,752

Peso madre

8,733

3,451

0,183

2,531

0,012

RAZA1

-469,312

149,480

-0,222

-3,140

0,002

RAZA2

-322,476

117,088

-0,212

-2,754

0,006

Si fuma o no

-305,008

109,604

-0,205

-2,783

0,006

partos previos (rec.)

-229,053

137,902

-0,115

-1,661

0,098

Hipertensión

-592,320

201,167

-0,199

-2,944

0,004

Irri. uterina

-481,705

137,220

-0,235

-3,510

0,001

VISITAS1

103,367

122,988

0,061

0,840

0,402

VISITAS2

-62,245

123,177

-0,035

-0,505

0,614


Nota:Variable dependiente: Peso de recien nacido (grs).

Como sabemos, las variables que influyen significativamente son las que tienen la significación menor de 0.05 así que hemos de fijarnos en el P-value más grande, quitarlo y volver a hacer el análisis. Hay que quitar la edad de la madre ya que su P-value=0.752.

Por lo que realizando el mismo procedimiento que antes, obtenemos R2=0.256, es decir, prácticamente igual que en la situación anterior.

Nota: se invita al lector a ir realizando el ejercicio en su propio ordenador para que de ese modo compruebe los resultados, logrando así una mejor comprensión.

Según esta tabla, 99917053 expresa la variabilidad del peso del recién nacido. De esta cantidad, 25580836 es la variabilidad explicada por las variables independientes. El resto, la variabilidad residual que es 74336217, es lo que queda por explicar.

La siguiente columna nos muestra los siguientes grados de libertad:

En la siguiente apareceran, como antes, las medias cuadráticas que son los cocientes entre las variabilidades explicadas y residuales y sus respectivos grados de libertad. La F es el cociente resultado de la división de las dos medias cuadráticas anteriores.

 

Coef. no estandar.

 

Coef. estand.

t

Sig.

 

B

Error típ.

Beta

 

 

(Constante)

2.822,541

253,495

 

11,135

0,000

Peso madre

8,522

3,377

0,179

2,524

0,012

RAZA1

-459,504

145,860

-0,218

-3,150

0,002

RAZA2

-318,001

115,938

-0,209

-2,743

0,007

Si fuma o no

-302,583

109,060

-0,203

-2,774

0,006

partos previos (recod)

-235,295

136,139

-0,118

-1,728

0,086

Hipertensión

-589,497

200,463

-0,198

-2,941

0,004

Irri. uterina

-479,011

136,611

-0,234

-3,506

0,001

VISITAS1

97,349

121,201

0,057

0,803

0,423

VISITAS2

-67,271

121,841

-0,038

-0,552

0,582

Nota:: Variable dependiente: peso del recien nacido.

Sigue habiendo P-value demasiado grandes. Vemos que el mayor ahora es el de visitas2, así que la quitamos junto con visitas1, ya que al ser variables dummy deben ir a la par.

Al eliminar como venimos haciendo estas variables, obtenemos un R2=0.250, así que ahora sí que es realmente la cuarta parte la que es explicada, ademas, si observamos la tabla podremos comprobar que apenas hay cambio con respecto a antes.

Según esta tabla, 99917053 expresa la variabilidad del peso del recién nacido. De dicha cantidad, 25014083 es la variabilidad explicada por las variables independientes. El resto, la variabilidad residual que es 74902970, es lo que queda por explicar.

La siguiente columna muestra los grados de libertad:

En la siguiente aparecen las medias cuadráticas que son los cocientes entre las variabilidades explicadas y residuales y sus respectivos grados de libertad.Y donde La F es el cociente resultado de la división de las dos medias cuadráticas anteriores.

Y al observar la tabla de coeficientes que hemos obtenido, nos daremos cuenta de que aun existen varibles con un valor superior al que buscamos, de modo que seguiremos eliminando variables, (realizando los mismos pasos que al principio), hasta que todos los p-valores sean significativos.

(La siguiente a eliminar seria la variable que representa a los partos previos de las madres.)

La última tabla de coeficientes obtenida:

 

Coef. no estandar.

 

Coef. estandar.

t

Sig.

 

B

Error típ.

Beta

 

 

(Constante)

3.388,770

88,269

 

38,391

0,000

RAZA1

-475,808

145,578

-0,225

-3,268

0,001

RAZA2

-349,998

112,342

-0,230

-3,115

0,002

Si fuma o no

-354,900

103,426

-0,238

-3,431

0,001

Hipertensión

-585,112

199,610

-0,196

-2,931

0,004

Irri. uterina

-524,439

134,652

-0,256

-3,895

0,000

PESOCENT

8,479

3,350

0,178

2,531

0,012


Modelo definitivo:


Ya se puede interpretar el b0 =3388,77 que es lo que vale el peso, por término medio, de un niño recién nacido, cuando la madre es blanca, no fuma, no es hipertensa, no tiene irritabilidad uterina y pesa 65 kgs.

Si queremos ver los posibles desajustes del modelo ajustado hemos de estudiar los residuales.

Para obtener sus correspondientes variables realizamos el siguiente procedimiento (estando en analizar à regresión à lineal y con las variables definitivas introducidas, es decir, después de haber obtenido el modelo ajustado):

Dentro de Guardar... elegimos:

Obtenemos las siguientes variables:

Normalidad de los residuales tipificados:

Para saber si hay normalidad, vamos a obtener un gráfico aclaratorio mediante:

Gráficos ® Q-Q ® meter la variable zre.1


Figure 9.21: Q-Q.

 


Este gráfico muestra que hay normalidad puesto que dicha forma es la que debe salir para indicar que la distribución de los residuales es normal. Figura: 9.21

Ordenamos el fichero (Datos: Ordenar casos) por la variable zre-1, es decir, los residuales tipificados para ver los outliers (observaciones extremas o raras) que son los menores que -1'96 y mayores que 1'96 (lo contenido entre dichos valores será, lógicamente, el 95% de los casos, =0'05).

Hecho esto, se identifican los niños cuyo código de identificación (id) corresponda a los residuales anteriores; así los niños 10, 16, 4 y 36, cuyos residuales tipificados son menores que -1'96, indican que estos niños tienen un peso raramente inferior al que cabría esperar según las características de sus madres. Asimismo, los niños con id 188 y 226, cuyos residuales son mayores que 1'96, indican que tienen un peso raramente superior al esperado según las características de sus madres.

La distancia de Cook mide la influencia de cada niño sobre las estimaciones de los coeficientes, de tal forma que si sacamos un punto influyente del fichero de datos, las estimaciones de los coeficientes del modelo pueden variar sensiblemente.

Vamos a ordenar el fichero según la variable correspondiente a las distancia de Cook (coo-1).

El niño cuyo id=10 es el más influyente porque su distancia es la mayor. Pero realmente aún no sabemos si influye de manera importante o no; para averiguarlo:

Datos |® Seleccionar casos |® Si se satisface la condición: id 10 (aquí en la calculadora del SPSS el significa distinto).

Analizar |® Regresión |® Lineal (quitamos todo lo marcado antes).

Resumen del modelo 1.

R

R2

R2 corregida

Error típ.

0,498

0,248

0,223

632,13


Nota:Variables predictoras: (Constante), PESOCENT, Si la madre fuma o no, Irritabilidad uterina, RAZA1, Hipertensión, RAZA2.

ANOVA:

 

Suma de cuadrados

gl

Media cuadratica

F

Sig.

Regresion

23.870.616,152

6

3.978.436,025

9,956

0,000

Residual

72.326.300,502

181

399.592,820

 

 

Total

96.196.916,654

187

 

 

 


Nota:Variables predictoras: (Constante), PESOCENT, Si la madre fuma o no, Irritabilidad uterina, RAZA1, Hipertensión, RAZA2. Variable dependiente: Peso de recién nacido (grs).

Tabla de coeficientes:

 

Coef. no estand.

 

Coef. estand.

t

Sig.

 

B

Error típ.

Beta

 

 

(Constante)

3.415,536

86,858

 

39,323

0,000

RAZA1

-500,242

142,724

-0,241

-3,505

0,001

RAZA2

-384,355

110,556

-0,257

-3,477

0,001

Si fuma o no

-386,067

101,766

-0,264

-3,794

0,000

Hipertensión

-582,474

195,379

-0,199

-2,981

0,003

Irri. uterina

-449,454

134,153

-0,220

-3,350

0,001

PESOCENT

8,562

3,279

0,183

2,611

0,010


Nota:Variable dependiente: Peso de recien nacido (grs).


9.5  Conclusiones

Después del análisis realizado podemos concluir que, de las variables proporcionadas en el fichero original, tan sólo tienen efecto independiente sobre el peso del recién nacido la raza de la madre, si fuma o no, la hipertensión, la irritabilidad uterina y el peso de la madre.

La interpretación de las estimaciones de los coeficientes se hizo anteriormente; en cuanto al análisis de los residuales, podemos decir que siguen una distribución normal como implica el modelo de regresión lineal; hay algunos niños (outliers) con pesos "raros", tanto por exceso como por defecto, en relación a las características de sus respectivas madres.

Por último, no se ha detectado ningún punto que ejerza una influencia importante en la estimación de los coeficientes.

Ya que el coeficiente de determinación del modelo elegido es de 0'24, significa que no podemos explicarnos más de las tres cuartas partes, 0'76, de la variabilidad de los pesos de los recién nacidos.

Esto implica que hay variables que podrían ayudarnos a explicarnos mejor el peso de los niños pero que no nos han sido proporcionadas.


References

[1]

Ader, H.J. et all.- The use of conversational packages in statistical computing. Statist. Softw. Newsl. 11, 106-116. 1985

[2]

Babilliot, A.- Typologie des progiciels statistiques pour micro-ordinateur. Statistique Appliquée, XXXVI (3), 15-32. 1988

[3]

Bratley, P. et all.- A guide to Simulation. Springer-Verlag. 1983

[4]

Brooking, Annie G.- The analysis phase in development of Knowledge based systems. Artificial Intelligence and Statistics. Addison-Wesley. 1986.

[5]

Carroll, J.M.- Simulation using personal computers. Prentice-Hall Inc. Ed.. 1987.

[6]

Cody, R.P. & Smith, J.K.- Applied Statistics and the SAS programming language. North-Holland. 1985.

[7]

Chambers, J.M. & Pregibon, D. Zayas, E.R.- Expert software for data analysis-an initial experiment (1983).- Proc. 43th session of the ISI Vol XLIX, Book 1, 294-303. 1983.

[8]

Darius, L.P.- Building expert systems with the help of exixting statistical software. COMPSTAT 277-282. 1986.

[9]

Dirschedl, P. & Pstermann, R.- Computational Statistics. Physica-Verlag. 1994.

[10]

Dixon, W.J. et all.- BMDP Statistical Software Manual. University of California Press. 1990.

[11]

Eddy, W.F. & Gentle, J.E. - Statistical computing: what's past is prologue. A Celebration of Statistics, A. C. Atkinson and S. E. Fienberg, ed, Springer Verlag: New York 233-249. 1985.

[12]

Ellman, T.- Representing Statistical Computations: Toward a Deeper Understanding, Artificial Intelligence and Statistics, Addison-Wesley. 1986.

[13]

Etxeberría, J., Joaisti, L. & Lizasoain, L.- Programación y análisis estadísticos básicos con spss-pc (+). Paraninfo 1990.

[14]

Freiberger, W. & Grenander, U.- A short course in Computational Probability and Statistics. Applied Mathematical Sciences. Vol. 6, 1971.

[15]

González A. y Maldonado J. A.- The JANDSTAT Statistical System. A.S.M.S.A., World Scientific. 1991.

[16]

González A., Maldonado J. A. y Serrano J.J.- Opened interrelated Knowledge bases as support for the systems of statistical analysis. A.S.M.S.A., World Scientific. 1993.

[17]

Gutiérrez, R. y González A.- Estadística Multivariable. 1991.

[18]

Gutiérrez, R. y otros.- Técnicas de Análisis de datos multivariable. Tratamiento computacional. 1994.

[19]

Hand, D.J.- Patterns in statistical strategy. Artificial Intelligence and Statistics. Addison-Wesley. 355-388. 1986.

[20]

Harmon, P. & King, D.- Sistemas Expertos. Ed. Díaz de Santos. 1988.

[21]

Haux, R.- Expert Systems in Statistics. Ed. Díaz de Santos 1988.

[22]

IMSL.- IMSL Librery. Reference Manual. 1980.

[23]

Jackson, P.- Introduction to Expert Systems. Addison-Wesley. 1990

[24]

Jhonson, M.E.- Multivariate Statistical Simulation. John Wiley & Sons ed. 1987.

[25]

Kennedy, W.J. & Gentle, J.E.- Statistical Computing. Marcel Dekker: New York, 1980.

[26]

Kleijnen, J. & Groenendaal, W.V.- Simulation: A Statistical Perspective. Wiley 1992.

[27]

Lefebvre, J., Boitard, M. & Rey, J.F.- Logiciels d'analyses statistiques. Masson Ed. 1981.

[28]

Lehn J. & Retting, S.- On the Choice and Implementation of Pseudorandom Number Generators. Computational Statistics, 25th Conference on Statistical Computing. 125-142. 1994.

[29]

Maindonald, J.H.- Statistical Computation. Wiley: New York. 1984.

[30]

Microsoft Corporation.- Microsoft FORTRAN POWERSTATION. 1992.

[31]

Molenaar, I.W.- Statistical Consultants and Statistical Expert Systems. COMPSTAT 187-192, 1988.

[32]

Intelligent programs, the next stage in statistical computint. Recent Developments in Statistics, Barra ed, Amsterdam, North Holland. 79-86. 1977.

[33]

Nelder, J.A. & Baker, R.J.- Statistical software: progress and prospects. Computer Science and Statistics. Proc. of the 16th symposium on the interface. 33-37. Amsterdam, 1985.

[34]

Noriusis, M.J.- SPSS Introductory Statistics Guide. Mc Graw Hill ed. 1992

[35]

Noriusis, M.J.- SPSS Advanced Statistics Guide. Mc. Graw Hill ed. 1992.

[36]

Payne, J.A.- Introduction to simulation: Programming techniques and methods of analysis. McGraw-Hill. 1982.

[37]

Pardo, L. & Valdés T.- Simulación. Aplicaciones prácticas en la empresa. Gestión Informatizada 1987.

[38]

Pelletier, P.- Techniques numeriques appliquées au calcul scientifique. Masson ed. 1971.

[39]

Phelps, R. I. & Musgrove P.B.- Artificial intelligence approaches in statistics. (A.I.S.), Addison-Wesley. 1986.

[40]

Rice, J. R.- Numerical methods, software and analysis: IMSL refernce adition. Mc. Graw Hill. 1983.

[41]

Royston, J.P. et all.- The construction and description of algoriths. Appl. Statist. Royal Statistial Soiety. 36. 1, 94-103. 1987.

[42]

SAS user's guide: Statistics, SAS Institute Inc.

[43]

Siegel, J.B.- Statistical software for microcomputers. North-Holland. 1985.

[44]

Thisted, R. A.- The effect of personal computers on statistical practice. computer Science and Statistics: Thirteenth Symposium on the Interface. William F. Eddy, ed. 25-30. 1986.

[45]

Thisted, R. A.- Computing environments for data analysis (with Discussion). Statistical Science 1, 259-275. 1986.

[46]

Thisted, R. A.- Elements of Statistical Computing. Numerical Computation. Ad. Chapman & Hall 1988.

[47]

Tukey, J. W.- Another look at the future. Computer Science and Statistics: proceedings of the 14th symposium on the interface, Heiner, Sacher, and Wilkison ed. 2-8 New York: Springer-Verlag. 1982.

[48]

Victor, N.- Computational Statistics-tool or science?. Stat. Software Newl. 10, 105-116. 1984.

[49]

Wilkinson, L.- Practical Guidelines for Testing Statistical Software. Computational Statistics, 25th conference on Statistical Computing. 111-124. 1994.

[50]

Yakowitz, S.J.- Computational Probability and Simulation. Addison Wesley Pb. Co. Reading. Massachussetts. 1977.

[51]

Zanakis, S. H.& Rustagi, J.S., Optimization in Statistics. North Holland, ed. 1982.


This document was translated from LATEX by HEVEA.