Hoy en día, la estadística empieza a tomar en la ciencia el
lugar que le corresponde, quiero decir con ello, que se valora mucho más que
hace ciertos años, cuando para entonces cualquier persona que conociera una
base estadística creía tener conocimento suficiente como para verse capaz de
realizar cualquier análisis estadístico, ya que el usuario que no es
especialista cree saber usar la estadística simplemente por el hecho de creer
saber manejar un programa estadístico, lo que constituye el caldo de cultivo
perfecto para cometer barbaridades estadísticas en un análisis de datos. La
realización de un análisis de datos es un proceso metódico que comienza con el
diseño, preparación y exploración de los datos que serán analizados y después
de un proceso de estudio y análisis finaliza con la aplicación de las técnicas
adecuadas y la interpretación estadística de los resultados, por lo que
necesariamente deberá ser efectuado por un especialista bien formado y nunca
por un simple usuario.
La principal dificultad en el uso de la Estadística por parte de un usuario que
siendo ajeno a ésta, la emplea, suele ser el lenguaje que utiliza. Como toda
Ciencia, la Estadística formula abstracciones de la realidad y por tanto
necesita de un lenguaje o términos propios. El dominio del mismo es fundamental
para entender la Estadística y para comunicarse con un experto con el fin de
obtener los resultados deseados. A efectos prácticos, es lo mismo decir que se
ha tomado una muestra de 5 individuos al azar entre 100 estudiantes, que decir
que se han sacado 5 bolas al azar de entre las 100 bolas de una urna, pero el
segundo planteamiento permite establecer el modelo para otros problemas
similares.
La Estadística no es ningún procedimiento milagroso que permita obtener
cualquier conclusión que se desee con independencia de los datos disponibles,
sino que es un método riguroso de análisis de las observaciones basado en
hipótesis fundamentales que no pueden ser violadas. No sólo es importante
conocer los métodos estadísticos, sino también sus limitaciones. Un método
resulta útil para responder a una determinada cuestión, bajo ciertas hipótesis,
y el incumplimiento de alguna de esas hipótesis simplemente invalida el método.
Por otra parte, un mismo conjunto de datos es susceptible de ser analizado en
varios modos alternativos siendo cada uno de ellos útil para una determinada
cuestión planteada, aunque no para otras, teniendo también en cuenta que una
misma cuestión puede obtener respuesta a través de varias técnicas, unas
mejores que otras dependiendo de la situación, por lo que es necesario
conocerlas y saber cuando aplicarlas.
Desgraciadamente están bastante extendidas determinadas afirmaciones y usos
estadísticos erróneos que abonan el campo a otras afirmaciones despectivas que
sólo reflejan un profundo desconocimiento del método estadístico del que las
suscribe. La célebre frase de Disraeli, -Hay tres tipos de mentiras: mentiras,
condenadas mentiras y mentiras estadísticas-, son ejemplos de sátiras que
reflejan los prejuicios de la sociedad ante esta disciplina motivados por la
dificultad de su correcto conocimiento y como consecuencia por el mal uso de la
misma. El único modo de descubrir los tratamientos o conclusiones erróneas
consiste en estar avezado en el método estadístico.
Lo que vamos a tratar en los siguientes capítulos será una pequeña introducción
para realizar un proyecto estadístico, en los que abarcaremos los distintos
puntos a tener en cuenta para realizar correctamente un estudio estadístico.
En este apartado se pretende la descripción de un
procedimiento general para el análisis estadístico de datos, y por tanto, el
proceso de actuación será sistemático, empírico, inductivo, crítico y
analítico.
Desde un punto de vista general, las etapas del análisis pueden resumirse de la
siguiente forma:
El problema es el origen de la investigación y no es más que
una interrogante sobre la realidad, que en su origen, generalmente es impreciso
y abstracto por lo que resulta necesario concretarlo claramente siguiendo un
procedimiento sistemático.
Para la precisión del problema se requiere el estudio teórico en profundidad
del aspecto en consideración, el cual será completado con un estudio empírico
mediante información recogida de la realidad que permita obtener un
conocimiento genérico de ella.
Una vez efectuada la labor informativa y de estudio, sobre la base de ésta, se
procederá al enunciado preciso del problema y de los objetivos de la
investigación.
A continuación, se requiere que sean imaginadas las posibles soluciones o
hipótesis más probables para proceder a su verificación. Para ello, será
necesario precisar qué variables serán consideradas en la investigación. Qué
otras variables pueden influir en los resultados y prever los procedimientos a
utilizar y su control y, finalmente, habrá que determinar los datos específicos
y la forma de su obtención para recabar la información necesaria sobre las
variables en consideración.
Resulta especialmente importante planificar adecuadamente una experiencia para
la obtención de datos con la intención de que los resultados que se obtengan
ofrezcan respuesta a las cuestiones que deseaban plantearse. Un planteamiento
defectuoso o incorrecto puede originar la obtención de datos inservibles que
hay que desechar, datos incorrectos que, siendo también desechables, son
difíciles de localizar, o simplemente a datos insuficientes con los que no se
puede concluir nada o datos excesivos que representan un coste innecesariamente
elevado que no ofrecen más información.
Este proceso requiere la elección de la población sobre la que se realizará la
investigación y por tanto adoptar la decisión acerca de si se estudiará toda la
población o por el contrario una muestra o subconjunto representativo de ésta.
Así, la determinación de los datos requiere la construcción de los instrumentos
para su recogida y para su validación.
Todo lo anterior estará relacionado con la forma del tratamiento de los datos
para un análisis adecuado. Tanto la determinación del problema, la elección de
las variables representativas, el planteamiento de las hipótesis, la elección
de los datos y el análisis de los mismos son aspectos totalmente
interrelacionados entre sí que el investigador no debe nunca considerar de
manera independiente ya que todas las etapas del proceso forma parte de una
metodología conjunta.
Una vez obtenidas las conclusiones, se comparan con las hipótesis efectuadas y
la teoría fundamento de la cuestión investigada. Los resultados serán
contrastados y servirán para determinar la solución del problema o bien la
iniciación de un nuevo análisis para seguir la búsqueda de ésta.
Es necesario tener presente que aunque el proceso descrito es un método general
para la resolución de problemas, no existe un esquema exacto que permita
resolver cualquier análisis de datos de manera automática, es decir, donde las
etapas para conseguir la solución estén completamente determinadas sin más
información que la definición del problema. Existen pautas de actuación, en
algunos casos con elevada exactitud, pero no existen acciones automáticas en un
proceso de análisis de datos ya que a diferencia de un proceso de producción,
no existen dos problemas que no puedan considerarse distintos, en algún aspecto
o a lo largo del tiempo, y por tanto no puedan considerarse diferentes. Es por
tanto imprescindible la supervisión de un profesional en todo el proceso de
solución de cualquier problema.
La determinación del problema constituye la primera fase de
la investigación. Puede resumirse como la respuesta a dos preguntas: qué
investigar y qué se pretende encontrar. Comporta la elección del campo de
estudio y de las cuestiones que plantee. El problema que deberá investigarse no
será vago y genérico sino por el contrario concreto y estar formulado de la
manera más concreta posible. Muchos proyectos fracasan por falta de objetivos
claramente definidos y precisos.
El proceso que se debe seguir en la determinación del problema suele ser un
aspecto de selección de cuestiones de interés basada principalmente en la
agudeza intuitiva, en el que no existen reglas fijas ni suelen servir las
fórmulas previas.
Aunque todos los aspectos de la resolución de problemas están relacionados
entre sí, puede efectuarse una clasificación en función del carácter temporal
de la naturaleza de la solución que pretendemos estimar. Por tanto, en lo que
sigue, se estructurarán los problemas y técnicas para la resolución en tres
grandes grupos: A corto, medio y largo plazo.
Dentro de los primeros grupos, las acciones que se adoptarán frente a los
problemas serán determinadas mediante la Estadística y la Investigación
Operativa, dependiendo de la naturaleza de la solución. Cuando la solución al
problema se plantea a largo plazo intervendrán además las técnicas Prospectivas
especialmente ideadas para esa situación.
Una vez determinado explícitamente el problema habrá que prestar especial
atención en el inicio del proceso de investigación al planteamiento de las
hipótesis, que desde el punto de vista del problema pueden definirse como
soluciones probables, previamente seleccionadas y que son propuestas para
comprobar su verificación a lo largo de todo el proceso de investigación. Esas
hipótesis también dependerán del objetivo temporal de la solución del problema
en cada caso y su formulación, generalmente, determinará el futuro de la
investigación.
Por tanto, después de haber determinado el problema en cuestión, deberá
preguntarse cuál o cuales son las soluciones posibles a dicho problema. Como
contestación a esa pregunta se elegirán aquella o aquellas soluciones más
verosímiles, es decir, las hipótesis, cuya validez será la que sea comprobada
mediante la investigación.
De la definición del problema y el planteamiento de las hipótesis se derivarán
las variables que será necesario estudiar en virtud de las cuales será
determinada la posible solución del problema.
Una vez definido el problema y planteadas las hipótesis para
su verificación, el siguiente paso consiste en la búsqueda de información sobre
la cual se base la solución del problema. Esa información puede ser de varios
tipos aunque aquí se clasificará en dos: teórica, sobre situaciones similares a
la presentada o documentación al respecto, etc..., e información proveniente de
datos que reflejen la realidad, que será la que se tratará en lo que sigue.
Aunque en algunos procesos para la resolución de problemas a largo plazo como
son las técnicas de la Prospectiva, se utilice como información ideas o
conceptos provenientes de la opinión personal, éstos también serán considerados
como datos. Así pues, la búsqueda de la solución al problema se efectuará
básicamente partiendo de la información que suministren los datos sobre la
situación o contexto real en que se define el problema.
Antes de describir los tipos de datos y sus particularidades es necesario tener
presente que unido al planteamiento de las hipótesis estará el entorno donde el
problema obtendrá su solución y por tanto habrá de ser perfectamente descrita
la población cuyo estudio ofrecerá la información necesaria para el objetivo
que se pretende que es la resolución del problema.
Pueden distinguirse en líneas generales tres tipos de datos que pueden ser
manejados. Censos o listados exhaustivos con información de interés
sobre cada individuo de una determinada población estadística, muestras
formadas por un subconjunto determinado de individuos de una población
obtenidas mediante algún procedimiento adecuado y finalmente, experimentos e
investigación bajo control Veamos la diferencia entre ellos.
La información que suministra un experimento o investigación
bajo control es la más adecuada al estar exenta de perturbaciones indeseables.
No obstante no es representativa de ninguna población ni es aleatoria por lo
que no pueden derivarse conclusiones respecto a la población motivo del
problema.
La situación ideal sería la de un experimento sobre toda la población con lo
que se conseguiría la totalidad de la información exenta de perturbaciones.
Puesto que prácticamente nunca es posible, el siguiente paso sería el estudio
de un censo obtenido directamente y lo más actual posible de la población sobre
los aspectos en estudio, lo cual también suele resultar muy difícil y
excesivamente costoso. Así pues, lo normal suele ser una alternativa a lo
anterior mediante el muestreo estadístico.
Una vez determinado el conjunto de individuos u objetos de los que se obtendrá
la información para la resolución del problema, el siguiente paso consiste en
determinar la naturaleza de los datos que se obtendrán y que en muchos casos no
serán motivo de una elección sino que estarán determinados en virtud de la
información que pueda y deba ser recogida.
Puede distinguirse entre los datos de relación entre pares de individuos o de
características individuales. Respecto a ambos tipos, se considerarán las
variables sobre las que se organizará la información para su análisis estadístico.
Las variables se dividirán de acuerdo al tipo de escala de medida; nominal,
ordinal, intervalo o razón. Esta división será simultáneamente considerada
junto a la distinción clásica entre variables cuantitativas o cualitativas
según la naturaleza de sus modalidades, donde dentro de las primeras se
distinguirá entre discretas o continuas y de las segundas en dicotómicas o
multicategóricas.
Todas las distinciones anteriores no son arbitrarias sino por el contrario,
indispensables en un proceso para la resolución de problemas ya que, además de
las restricciones naturales de cada técnica estadística, asociado cada tipo de
datos existen solo determinadas técnicas estadísticas que podrán ser empleadas.
A partir de este punto, la información se supondrá organizada en variables
estadísticas con unas características determinadas por el problema y asociadas
a las cuales será necesario elegir la técnica más adecuada para la obtención de
la solución al problema.
Es en esta etapa del proceso de resolución donde se deberá
elegir la técnica o conjunto de técnicas estadísticas asociadas a los datos y a
los objetivos perseguidos, dentro de una nueva subetapa que pude dividirse a su
vez en tres fases secuencialmente organizadas: exploración, depuración y
análisis.
La exploración de los datos es la primera fase del análisis en la que
intervienen gran variedad de técnicas estadísticas tanto numéricas como
gráficas, siendo su objetivo la verificación de los datos y la determinación de
las estructuras y patrones que subyacen en éstos si asumir ninguna hipótesis
previamente definida y restrictiva de ninguna técnica.
Mediante el análisis gráfico de los datos, relaciones y residuos se observan
estructuras que pueden estar escondidas para los procedimientos puramente
numéricos, por lo que la información suministrada permitirá corregir las
técnicas que serán empleadas para la toma de decisiones y en algunos casos
sustituir a éstas.
En definitiva, la exploración es una fase previa a cualquier análisis
imprescindible, que permitirá entre otras, la comprensión de la naturaleza de
los datos, sus estructuras y la corrección de deficiencias.
La depuración de los datos es la etapa previa al análisis y suele surgir
como consecuencia de la detección, en la fase de exploración, de errores en los
datos con una solución factible.
Mediante la representación de los datos pueden solventarse algunas deficiencias
en los datos que imposibilitan la aplicación de técnicas estadísticas de alto
nivel, imprescindibles para la verificación de hipótesis o para la predicción
temporal.
Aunque mediante la aplicación de una transformación adecuada pueden solventarse
en algunas situaciones problemas de datos anómalos, falta de simetría o
heteroscedasticidad en varias variables, es necesario tener presente que una
transformación solo podrá ser aplicada cuando la información y conclusiones
derivadas de los datos transformados puedan ser extrapoladas a los datos
originales.
El análisis propiamente dicho de los datos es la segunda fase y donde
intervienen prácticamente todas las técnicas disponibles de la estadística al
servicio de obtener la información deseada de los datos previamente explorados.
Dependiendo de la naturaleza de los datos, del problema que se trata de
resolver y de las hipótesis formuladas al respecto, se usarán unas técnicas u
otras para la resolución del problema. En líneas generales, en función del
intervalo temporal donde se espera conseguir la solución, se hablará de
técnicas a corto, medio y largo plazo. A corto plazo pueden emplearse todas las
técnicas de la Estadística e Investigación Operativa. A medio plazo suelen
considerarse algunas técnicas estadísticas en las que interviene una variable
temporal como ocurre en los procesos estocásticos y series cronológicas, así
como determinadas técnicas de la investigación operativa. Finalmente, a largo
plazo, suelen emplearse los procedimientos y técnicas relacionados con la
Prospectiva.
No existe ninguna norma general que indique en una situación concreta qué
técnica estadística es la adecuada sino que en la mayoría de los casos depende
de la experiencia del investigador. No obstante, pueden considerarse algunas
directrices que permiten orientar el camino que deberá seguirse para que desde
el planteamiento del problema pueda alcanzarse su solución siguiendo los pasos
anteriormente indicados.
Por ejemplo, puede hacerse una clasificación de las técnicas estadísticas a
corto plazo en virtud del problema que resuelven, teniendo presente que la
aplicación de éstas también depende de otros factores como antes fue comentado.
Así, la Estadística Descriptiva y el Análisis Exploratorio de Datos serán
empleados fundamentalmente para la fase de descripción y exploración de los
datos. Técnicas como la Correlación y Regresión permiten el estudio de
relaciones entre variables. Los contrastes de medias o medianas y el Análisis
de la Varianza permiten la comparación entre dos o más poblaciones sobre un
mismo aspecto, las Tablas de Contingencia permiten el estudio de dependencias
entre variables. Las técnicas multivariantes como el Análisis Factorial, el
Análisis de Componentes principales o el Análisis de Correlaciones Canónicas
permiten la reducción de la dimensionalidad. Otras técnicas multivariantes
permiten el estudio de agrupamientos como el Análisis Cluster o Análisis
Discriminante. Otros estudian variables a lo largo del tiempo como los Modelos
Econométricos, el Análisis de Series Cronológicas.
Además de para las funciones antes descritas, muchos de los modelos anteriores
serán útiles en más de una circunstancia y no solo en la situación global en
que han sido encasillados. Además, para otros tipos de datos con menos
restricciones como los categóricos, existen técnicas alternativas a las
anteriores que tratan de desempeñar funciones parecidas.
A todo lo anterior resulta imprescindible unir las técnicas propias de la
Investigación Operativa que permiten la solución de determinados problemas
siguiendo criterios de optimización de una función objetivo sujeta a restricciones.
En este proyecto se pretende la construcción de un procedimiento general que
supervisado por un especialista permita la resolución de un problema mediante
el empleo de técnicas como las descritas anteriormente de la forma más precisa
posible. Para ello, además de las técnicas a emplear y las diferentes etapas
del proceso deberá formar parte muy importante las herramientas para la
ejecución y por tanto la intervención de la Estadística Computacional.
La Estadística Computacional es realmente un campo entre dos disciplinas: la
Estadística y la Informática, que proporcionan herramientas complementarias
cada vez más solicitadas en otras áreas de la Ciencia.
Es importante pero quizá no evidente a primera vista la universalidad de estas
herramientas. La Estadística trata sobre cómo acumular información, cómo
recabar mejor la información de unos datos, cómo recoger los datos para llegar
a un máximo contenido de la información y cómo extraer de los datos las
conclusiones para un mayor conocimiento. Muchos conocimientos implican procesar
y combinar datos de diversas maneras, tanto numérica como simbólicamente y la
Informática trata de cómo se pueden realizar mejor estas computaciones o
manipulaciones calculando el costo inherente de procesar la información,
estudiando cómo se puede representar con provecho la información o
conocimientos y prestando especial atención a los límites de lo que puede ser
convenientemente manipulado desde el punto de vista computacional.
Al realizar un estudio estadístico, lo primero en lo que
debemos pararnos será en el objetivo que pretendemos con este estudio, en
cuales son las conclusiones que vamos buscando, que datos y herramientas nos
hacen falta para llevar acabo dichos procedimientos, etc.
Por lo tanto en este capítulo se pretende dar una visión general de los
distintos aspectos a tener en cuenta en el diseño, tratamiento y validación de
una encuesta, (puesto que al realizar el estudio, los datos que tratemos pueden
venir dados en una base de datos, o tenemos que ser nosotros mismos los
encargados de recogerlos),sin pormenorizar en cada una de las técnicas que
pueden aplicarse en el tratamiento de una encuesta entre los que se encuentran:
Sin olvidarnos del uso de la Estadística Descriptiva, el
Análisis Exploratorio de Datos, el Análisis Gráfico-Estadístico, etc.
Por tanto, vamos ahora a desarrollar las fases a tener en cuenta en la puesta
en práctica de una encuesta, sucuencialmente los pasos a seguir desde la
concepción hasta la publicación de los resultados de una encuesta son:
Por último, también a nivel teórico es conveniente fijar la metodología de
recogida, depuración y tratamiento estadístico de la información.
Una vez realizadas estas fases, la información obtenida en
su conjunto debe ser almacenada en bases de datos, para facilitar su posterior
reexplotación o tratamiento. Esta acción, que se puede obviar en encuesta de
propósito reducido, es ineludible en otro tipo de encuestas específicas como
son los paneles (de la investigación sociológica y comercial), y en otras que
en su metodología tengan implícitos análisis estadísticos dinámicos.
La descriptiva es un concepto muy importante dentro de la
estadística, nos introduce al muestreo y a la inferencia, nos ofrece
importantes datos que nos facilitará el conocimiento de la población. Las
ciencias empíricas suelen estar limitadas, el conocimiento científico, que se
adquiere a partir de ellas, también lo está, ya que las conclusiones deben ser
más amplias que la simple observación de los datos.
La idea de muestra viene determinada por dos ideas contradictorias, como son la
representatividad (significa que la muestra se parece o debe en cierto modo
representar a la población que estamos estudiando) y la variabilidad (indica
que una muestra puede ser diferente a otra).
La lógica de la inferencia estadística es difícil, Pearson, estableció un
puente entre la estadística descriptiva y la probabilidad. Usó los resúmenes de
los datos para extraer inferencias sobre distribuciones básicas, (que
trataremos en otro capítulo), y creó el test de Chi-cuadrado de adherencia de
ajuste.
Los trabajos de Fisher también aportan una gran cantidad de ideas, inspirado en
la teoría de los test de hipótesis, así como creó los cimientos del diseño de
experimentos y el análisis de la varianza.
Pues bien, antes de entrar más profundamente en estos temas, trataremos una
serie de conceptos importantes a tener en cuenta, para así facilitar la
comprensión de este manual.
|
Xi = |
|
|
x |
= |
|
|
|
|
S2= |
|
|
|
S=S2
|
CV= |
|
Hasta ahora todo lo visto es dado para variables unidimensionales, pero existen casos en los que se consideran simultáneamente dos caracteres de una misma población, en este caso a cada valor observado le corresponde un par de modalidades, estamos entonces ante distribuciones bidimensionales, cada frecuencia corresponde a un par de valores, de cualquier modo sería posible realizar un estudio por separado de ambas, (tales distribuciones son llamadas marginales); sin embargo lo que nos interesa es un estudio simultáneo de ambas características, es decir estudiar su distribución conjunta, para lo cual necesitamos de una tabla de correlación y una tabla de contingencia, y así poder establecer la relación que existe entre ellas.
|
ni.= |
|
nij |
|
n.j= |
|
nij |
|
ni. |
= |
|
n.j |
= |
|
|
|
nij=N |
|
fij= |
|
|
fi.= |
|
|
fi/j= |
|
|
x |
= |
|
xi |
|
|
y |
= |
|
yj |
|
|
Sx2= |
|
xi-x2 |
|
|
Sy2= |
|
yj-y2 |
|
|
Sxy= |
|
|
xi-xyj-y |
|
|
ni.= |
|
nij |
|
n.j= |
|
nij |
|
N= |
|
|
nij |
Cuando se analizan conjuntamente dos características, un concepto de gran importancia es el de la independencia, (dos variables o factores son independientes cuando no existe relación entre ellas), así que vamos a dar un pequeño esquema de como detectar la no presencia de asociación entre dos caracteres analizados:
|
fi/j= |
|
|
fj/i= |
|
|
= |
|
|
Este apartado lo vamos a dedicar al estudio de la asociación
entre caracteres cuantitativos, donde la regresión nos permitirá determinar
cuál es la estructura de dependencia que mejor explica el tipo de relación
existente entre los dos caracteres y la correlación nos indicará el grado de
dicha relación.
Supongamos que existe una variable explicativa X mediante la cual
queremos deducir el comportamiento de una variable dependiente y;
tenemos una distribución conjunta de frecuencias (xi;yj;nij); denominamos entonces como
regresión de Y sobre X a la función que explica el comportamiento
de y para cualquier valor de X, para determinar tal función
podemos acudir a dos tipos de regresión:
Supongamos que nos encontramos en el caso más sencilla, en el que la función se puede ajustar por medio de una recta, (nos encontramos en el caso lineal):
Y=a+bx
donde a cada xi
le corresponden dos valores de Y, el observado yj y el teórico yj*,
de modo que la diferencia entre ambos nos da lugar al residuo ej:
ej=yj-yj*
Pues bien, el método de los mínimos cuadrados consiste en determinar los
parámetros desconocidos a y b de forma que los residuos sean
mínimos. En nuestro caso tendríamos que minimizar la siguiente expresión:
|
F= |
|
|
(yj-a-b xj)2 nij |
derivamos respecto de los parámetros desconocidos:
|
= |
|
|
(yj-a-b xj)2 nij=0 |
|
= |
|
|
(yj-a-b xj)2 xinij=0 |
de modo que operando:
a=y-bx
|
b= |
|
donde a es el término independiente, y b es la pendiente de la
recta o coeficiente de regresión.
Para saber si las variables están o no relacionadas, utilizaremos la varianza
residual, que viene descrita por la siguiente expresión:
|
Sry2= |
|
|
(ej-e)2 |
|
siendo ej=yj-yj*
de modo que si e=0 entonces:
|
Sry2= |
|
|
(yj-yj*)2 |
|
de manera que si el valor de la varianza es alto existirá una baja relación
entre X e Y.
Esta relación también la podemos medir mediante el coeficiente de
correlación general:
|
R= |
|
en el caso lineal:
|
Rlineal=r= |
|
.
Esta medida se interpreta del siguiente modo:
Y por último nos queda definir el coeficiente de
determinación lineal r2,
que nos indica la bondad de ajuste.
Si este valor es nulo, nos indica que el modelo ajustado es poco útil, si en
cambio es igual a 1 nos indicará que el modelo recoge las variaciones de la
variable explicada a partir de la explicativa, mientras que si r2 se encuentra entre ambos valores nos
expresa la bondad de ajuste, que cuanto más se aproxime a 1 mejor será.
El propósito de la estadística de encuestas es obtener
información acerca de poblaciones, existen dos estrategias para la recopilación
de datos, examinar todas las unidades de la población, lo que llamaremos censo,
y examinar ciertas unidades (muestra) es decir suponer que los resultados
obtenidos son representativos de toda la población.
La decisión óptima entre muestra y censo consiste en minimizar la pérdida total
en la que se incluyen, los recursos empleados (tiempo, dinero, recursos, etc.)
y el error y la probabilidad de cometerlo.
Llamamos Población al conjunto de unidades del que se desea obtener
información, (es posible contar en cada unidad una o varias características
denominadas parámetros o características poblacionales), donde una muestra es
el conjunto de unidades de la población de la que se obtiene la información.
Los valores que toman las variables que deseamos estudiar se llamarán valores
verdaderos, y los que no coinciden con los verdaderos los llamaremos
observados. Existen también los valores aproximados denominados estimaciones,
que se verán afectados por un error debido al muestreo, (cuanto menor sea mayor
será la precisión de los estimadores).
Un problema en los estimadores es elegir aquel que proporcione mayor precisión,
de modo que si q es un estimador
del parámetro q, una propiedad deseable
será que dicho estimador sea insesgado del parámetro desconocido q, esto significa:
E(q)=q
Para medir la precisión del estimador utilizaremos su varianza mediante el error
cuadrático medio:
ECM(q)=E(q-q)2
siendo el sesgo: B=E(q)-q
Llamaremos error de muestreo a la raíz cuadrada de la varianza del
estimador.
El intervalo de confianza lo podemos obtener a partir de la desigualdad
de Chebichef, tal como aparece en la siguiente expresión:
(q ± k ECM(q),)
que es un intervalo de confianza para el parámetro q con un grado de confianza de:
|
(1 - |
|
) 100% |
A continuación vamos a tratar algunos tipos de muestreo como son el muestreo
aleatorio simple y el muestreo estratificado, dos tipos muy usuales y que nos
proporcionan buenos resultados.
Es un muestreo de poblaciones finitas, cuando la muestra se obtiene unidad a unidad, sin reposición a la población, donde partimos de una población de N unidades de la cual extraemos una muestra de tamaño n, éstas son extraídas sucesiva e independientemente de las unidades con probabilidades iguales a:
|
; t=0,1,2...,n-1 |
donde la probabilidad de que una unidad cualquiera ui pertenezca a la muestra es: n/N.
Los estimadores de los parámetros son X,X y P:
X=Nx
X=x
media
|
P |
= |
|
|
|
proporción
donde x=åi=1n xi/n.
Las varianzas de los estimadores:
|
V(X)=N2(1-f) |
|
|
V(X)=(1-f) |
|
|
V(P)= |
|
|
donde Q=1-P y f=n/N llamada fracción de
muestreo, siendo la cuasivarianza poblacional:
|
S2= |
|
|
con intervalos de confianza:
|
(Nx± k |
|
1-f) |
|
(x± k |
|
1-f) |
|
(P± k |
|
) |
Veamos ahora como determinar el tamaño de la muestra.
Una muestra que sea demasiado grande nos implica un desperdicio de recursos,
mientras que una muestra demasiado pequeña disminuye la utilidad de los
resultados, por lo que vamos a estudiar un procedimiento en el caso más
sencillo de muestreo con probabilidades iguales, distinguiendo casos según el
parámetro que interesa estimas, q, con
un error máximo admisible, y un coeficiente de confianza pk
|
n= |
|
|
n= |
|
|
n= |
|
Para introducir este capítulo vamos a empezar hablando un
poco de los instrumentos estadísticos más necesario para un buen análisis.
Dentro de la estadística descriptiva, la cual ya hemos tratado antes, es
importante tener conocimiento de los histogramas y diagramas de probabilidad,
los cuales son concepto básicos que podemos extraer de varios programas
estadísticos asistidos por ordenador, como pueden ser STATGRAFICS o SPSS, dos
paquetes en los que con solo seleccionar una serie de conceptos nos
proporcionan dichos gráficos y muchos más que nos serán de gran utilidad en
nuestro análisis.
Es importante también tener conocimiento de algunas distribuciones como son la
Binomial, Poisson y Normal, (de las cuales hablaremos en este capitulo), además
de aquellas asociadas al muestreo como son la Chi-cuadrado, t-Student y F de
Snedecor, también sería interesante conocer la teoría de la estimación
(inferencia) así como los Test de hipótesis y el análisis de la varianza junto
con el diseño de experimentos.
Pues bien estos son algunos de los temas que vamos a ir tratando a
continuación.
Recordemos que existen varios tipos de muestreo, dependiendo de si la población
es finita o no, en este libro solo hemos tratado el muestreo aleatorio simple
que debe regirse por:
Pues bien la inferencia trata de hacer expresiones, predicciones y generalizaciones sobre la población estadística basándose en la muestra, este proceso puede llevarse a cabo de dos formas:
Supongamos una m.a.s. de tamaño n sobre X={X1...Xn} llamadas variables muestrales,
junto con sus valores observados {x1...xn}, tenemos además un estimador sobre
un parámetro desconocido, de modo que llamaremos estimación puntual al
valor concreto del estimador en una determinada realización.
Para hallar una aproximación a través de la estimación puntual procederemos del
siguiente modo:
Nuestra pregunta ahora será, ¿cuál será el mejor estimador?, para ello vamos a ver las propiedades que dichos estimadores deben cumplir:
Por lo tanto, nuestro estimador debe ser:insesgado,
eficiente absoluto y consistente.
Para construir un buen estimador existen varios métodos: el de los momentos, el
de la ji-cuadrado mínima, el de mínimos cuadrados, el método de Bayes,etc.
nosotros vamos a destacar los siguientes:
P[L1£q£ L2]=b
.
Nota: el mejor método para obtener este intervalo de confianza el método de
Neyman-Pearson, que lo podemos encontrar en cualquier libro de estadística.
Como hemos dicho antes la inferencia se puede llevar a cabo de dos formas, mediante la estimación de parámetros y mediante el contraste de hipótesis, pues dentro de éste podemos distinguir entre contrastes paramétricos y no paramétricos.
H0: q=q0
H1: q¹q0
Pero además existen dos tipos de errores: error de tipo I, llamado
también falsa alarma, ocurre cuando un punto que se encuentra fuera de
las líneas de control en realidad no debería rechazarse, sino que está fuera
por puro azar:
a = P(error tipo I)=P(H1/H0)
Y denominamos no detectar un cambio al caso contrario, es decir,
cuando un punto que queda dentro de los límites de control debería rechazarse,
se trata del Error de tipo II:
b = P(error tipo II)=P(H0/H1)
La potencia del test se mide mediante: 1-b=P(H1/H1). Debemos saber también que existe una relación inversa
entre las líneas de control y el tamaño de la muestra de modo que:
n aumenta Þ límites más estrechos Þ aumenta a
y disminuye b
n disminuye Þ límites más anchos Þ disminuye a
y aumenta b
La regla de conducta para elegir una u otra hipótesis consiste en fijar un
subconjunto del espacio muestral que denominamos región crítica,(que
puede ser unilateral o bilateral), se toma entonces una m.a.s. de la población
y se establece un estadístico, de forma que si el estadística pertenece ala
región crítica rechazamos la hipótesis nula, y en caso contrario la aceptamos.
P[l(X)£ k]=a
donde (l(X)£ k) es la mejor región crítica, de la
cual conocemos su distribución, por lo que:
si (l(X)£ k) rechazamos H0.
si (l(X)> k) aceptamos
H0.
|
FN(x)= |
|
|
l(X)= |
|
( |
|
)nij |
|
-2 ln l(X)=-2 |
|
nij ln( |
|
) |
Veamos para concluir este capítulo, dos estadísticos importantes en pruebas paramétricas para la comparación de medias, (mediante la prueba t-Student) y para la comparación de varianzas, (con el estadístico F).
|
t= |
|
|
s2= |
|
|
t= |
|
|
F= |
|
El análisis de la varianza es la primera prueba de significación que trata de comparar más de dos variables, para poder aplicarlo requiere que los datos cumplan algunos supuestos como son:
El diseño experimental es crucial para que los datos experimentales cumplan las premisas descritas anteriormente, este diseño describe las siguientes fases del experimento:
La variable que estamos investigando recibe el nombre de variable
respuesta y los factores serán aquellas variables que pueden ser
controladas por el investigador y que se presentan a diferentes niveles (o
tratamientos). También nos encontramos con variables extrañas no
controladas por el experimentador, llamadas perturbaciones.
Para realizar un experimento se aplican a distintas unidades experimentales los
diferentes niveles y se observa la variable respuesta, donde el tamaño del
experimento será el número de observaciones obtenidas. Para alcanzar este
objetivo, practicaremos las siguientes etapas:
Uno de los principales objetivos del Diseño Estadístico de
Experimentos es reducir la variabilidad cuando se repite el experimento, para
lo cual debemos realizar comparaciones lo más homogéneas posibles, esto conduce
a la formación de bloques en el diseño, (un bloque es una porción del material
que estudiamos que resulta ser más homogénea que el total de dicho material).
Dentro del Diseño de Experimentos podemos encontrar:
El modelo general viene dado por la siguiente expresión:
yij=µ+ti+uij
El Análisis multivariante proporciona diversos
procedimientos numéricos y gráficos para estudiar datos compuestos por
variables que describen un número de individuos, nos permitirá abordar el
tratamiento de dichos datos con el suficiente conocimiento para aplicar métodos
apropiados a cada tipo de problema, y así obtener una información más relevante
y apropiada de los datos de nuestra investigación.
Al igual que con técnicas anteriores, debemos comprobar una serie de premisas
que nos verifiquen que los datos utilizados son aptos para este tipo de
análisis. Al igual que en métodos univariantes, éste se base en la normalidad
multivariante, que se dará si todas nuestras variables de estudio siguen una
distribución normal individual, en caso contrario tendremos que realizar una
transformación de los datos o recurrir a test no paramétricos, aunque muchos
autores aseguran que el problema no está en saber si se cumplen o no estos
supuestos pramétricos, sino que lo importante será conocer los efectos que
pueden tener sobre los resultados.
Un análisis multivariante consta de tres fases bien diferenciadas:
Para comprender mejor de que trata este tipo de análisis,
podemos acudir al capítulo de Análisis Multivariante que aparece junto con este
documento.
El análisis exploratorio de datos es un conjunto de técnicas
que no solo tratan de ordenar, escribir y representar los datos, sino que
principalmente se centra en la búsqueda de anomalías de datos y en la tendencia
de los datos.
La forma de obtener este objetivo lo hace bajo dos principios, uno el
escepticismo "Ser escéptico frente aquellas medidas sin que hallan
sido investigadas"; y el otro la apertura "A la hora de
explorar los datos no debe irse son una idea preconcebida."
Sobre distribuciones unidimensionales, el análisis exploratorio de datos nos
puede informar sobre la forma de su distribución, la presencia de huecos, la
presencia de datos anómalos (outliers) alejados de la distribución...
Good (1183) explica que los puntos importantes del análisis exploratorio son:
Las técnicas gráficas revelan visualmente el comportamiento
de los datos y la estructura del conjunto, el análisis exploratorio presta
especial atención al análisis de residuos, empleando la transformación de los
datos para encontrar una escala adecuada a dicho análisis, haciendo hincapié en
la resistencia de algunas estadísticas frente a datos faltantes, y empleando
estadísticos robustos frente a la posible alteración de la hipótesis de
partida.
Este análisis se caracteriza por utilizar medidas descriptivas resistentes y
robustas, realiza una descripción de los datos no solo sobre una única medida
sino sobre todo un conjunto, y sobre todo por preferir las representaciones
gráficas a los sintetizadores numéricos.
En los últimos 30 años ha habido una revolución en la forma en que los
estadísticos piensan acerca del análisis de datos. El origen de esta revolución
puede ser convenientemente situada en la publicación en 1977 del monumental
trabajo de John Tukey, Exploratory Data Analysis, abreviadamente EDA,
cuyos cimientos fueron puestos en una serie de artículos escritos por Tukey,
sus colegas y sus estudiantes. La dirección de esta revolución fue puesta de
manifiesto de forma clara en 1962, en el artículo de Tukey, The Future of
Data Analysis. Los cambios propuestos en dicho trabajo reflejan el hecho
de que el análisis de los datos para aprender sobre un problema determinado
requiere más, que las herramientas formales de la estadística matemática.
Tukey argumentó que el análisis exploratorio es un paso necesario para la
solución de muchos problemas en los que los métodos gráficos juegan un papel
decisivo. Datos outliers suelen ser con frecuencia críticos para el
desarrollo y comprensión del proceso en estudio. Con frecuencia, algunos
problemas típicos incumplen las hipótesis estadísticas básicas sobre las que se
fundamentan las técnicas estadísticas clásicas o incluso, el análisis de los
datos es en sí mismo un estudio exploratorio de los mismos. Como consecuencia,
Tukey expresó el deseo de chequear estas hipótesis y de desarrollar métodos que
requiriesen menos hipótesis restrictivas. Métodos de remuestreo y estadísticos
robustos y resistentes ilustran este hecho. Por último, Tukey mantiene que
muchos problemas requieren soluciones iterativas en lugar de las más
convenientes soluciones de un solo paso.
Mientras que el EDA de Tukey se fundamentó en cálculos manuales e incluso en la
representación gráfica manual sin regla, su futuro sobre el análisis de datos
apunta reiterativamente al ordenador como medio de realizar lo que él
recomendó. De hecho, la aplicación actual del análisis de datos sería imposible
sin la ayuda del ordenador. Por tanto, la revolución computacional es un
componente esencial de la revolución del análisis de datos, de forma que
cálculos que requerían un extraordinario esfuerzo y costo en un pasado inminente
pueden ahora efectuarse convenientemente sin apenas esfuerzo.
Independientemente de las ideas propuestas por el programa de análisis de datos
de Tukey, las facilidades ofrecidas por los ordenadores han influido
notablemente en la forma en que se analizan los datos.
Un problema importante es el que se produce cuando se ignoran los datos. Por
ejemplo, consideremos los cuatro gráficos de Anscombe (1973). En los cuatro
casos se obtienen idénticas rectas de regresión mínimo cuadrática, incluidos el
coeficiente de correlación y desviaciones típicas. El análisis de datos que
ignore esas gráficas puede llevar a conclusiones totalmente inadecuadas, de lo
cual se deduce que el análisis gráfico de los datos es un aspecto tan
importante como el numérico.
Para una mayor información podemos consultar la parte de Computacional, en la
que se especifica mejor dichos calculos y muchos más.
El análisis de datos es una disciplina que consiste en la
búsqueda sistemática de información y de relaciones a través de conjuntos de
datos, pero la gran cantidad de información que es posible generar hoy en día
para llevar acabo una análisis hace que el investigador encuentre gran números
de datos a partir de los cuales puede adquirir buenas conclusiones, y aunque la
estadística aplicada a desarrollado numerosos métodos para realizar el
tratamiento de estos datos, a veces nos es casi imposible realizarlos a mano,
pero gracias a la implantación de los ordenadores podemos realizar dichos
cálculos con gran facilidad.
Por ello en este capitulo vamos a tratar de describir una serie de programas
que nos ayudarán a complementar nuestro proyecto.
Microsoft EXCEL: conocida como una hoja de cálculo, que incluye
diferentes tipos de funciones tanto matemáticas como trigonométricas,
estadísticas básicas, lógicas, financieras... Además existe también un módulo
de análisis de datos en el que podemos encontrar distribuciones de
probabilidad, análisis de la varianza, regresión, pruebas de significación...
STATGRAPHICS:(Statistical Graphics System by Statical Grafics
Corporation. A Plus Ware Product. STSC); es uno de los programas más
usados, en el que podemos encontrar:
SPSS for Microsoft Windows: es uno de los paquetes informáticos más completos existentes en la actualidad, donde podemos encontrar las siguientes herramientas:
BMDP: que permite la aplicación de las siguientes tecnicas:
Statisca: que nos ofrece:
El bajo peso al nacer es una característica de los recién
nacidos que, en ocasiones, condiciona el desarrollo, tanto físico como
psíquico, de los niños. El peso del recién nacido se cree que está asociado
tanto a características biológicas de su madre, como por ejemplo la edad o el
peso, como a la raza o ciertos hábitos de vida como puede ser el hábito de
fumar. Para estudiar la relación entre el peso del recién nacido y estas
características de la madre, se diseñó este estudio donde se midieron el peso
de cada uno de los 189 recién nacidos junto con variables de la madre como
fueron: raza, edad, peso, hábito de fumar, hipertensión, irritabilidad uterina,
número de partos previos y visitas al médico.
Este trabajo consta de tres apartados principales:
Para llevar a cabo los anteriores análisis, se utilizará: el
paquete estadístico SPSS/PC versión 12.0. En el disco adjunto, se encuentran la
base de datos original y la misma después de realizar todas las operaciones para
llevar a cabo el proyecto.
Como introducción previa al estudio univariante de las
variables que forman parte de la base de datos, realizaremos una transformación
de la variable "pesom", ya que la unidad de medida es la libra y,
para facilitar su tratamiento, convertiremos las libras en kgs. Una vez
realizada esta transformación, tendremos entonces una nueva variable a la que
pasaremos a llamar "pesomkg" siendo ésta la que utilizaremos para el
estudio.
Para ello llevamos a cabo el siguiente procedimiento:
Transformar |® Calcular |® Variable de destino: pesomkg.
Tipo de etiqueta: Peso de la madre en kilos.
Expresión numérica: pesom / 2
Una vez realizada esta transformación, pasaremos a estudiar las diferentes
variables de la base de datos con el siguiente esquema y sus correspondientes
procedimientos:
|
Validos |
Frecuencia |
Porcentaje |
% valido |
% acumulado |
|
>=2500 gr |
130 |
68,8 |
68,8 |
68,8 |
|
<2500 gr |
59 |
31,2 |
31,2 |
100,0 |
|
Total |
189 |
100,0 |
100,0 |
|
o

o Figure 9.1: Histograma bajo peso al nacer
|
Validos |
Frecuencia |
Porcentaje |
% valido |
% acumulado |
|
Blanca |
96 |
50,8 |
50,8 |
50,8 |
|
Negra |
26 |
13,8 |
13,8 |
64,6 |
|
Otra raza |
67 |
35,4 |
35,4 |
100,0 |
|
Total |
189 |
100,0 |
100,0 |
|
o

o Figure 9.2: Histograma raza de la madre
|
Validos |
Frecuencia |
Porcentaje |
% valido |
% acumulado |
|
No fumadora |
115 |
60,8 |
60,8 |
60,8 |
|
Fumadora |
74 |
39,2 |
39,2 |
100,0 |
|
Total |
189 |
100,0 |
100,0 |
|
o

o Figure 9.3: Histograma Madre fumadora o no.
|
Validos |
Frecuencia |
Porcentaje |
% valido |
% acumulado |
|
No hipertensa |
177 |
93,7 |
93,7 |
93,7 |
|
Hipertensa |
12 |
6,3 |
6,3 |
100,0 |
|
Total |
189 |
100,0 |
100,0 |
|
o

o Figure 9.4: Histograma Hipertensión.
|
Validos |
Frecuencia |
Porcentaje |
% valido |
% acumulado |
|
No |
161 |
85,2 |
85,2 |
85,2 |
|
Si |
28 |
14,8 |
14,8 |
100,0 |
|
Total |
189 |
100,0 |
100,0 |
|
o

o Figure 9.5: Histograma Irritabilidad uterina.
|
Validos |
Frecuencia |
Porcentaje |
% valido |
% acumulado |
|
0 |
159 |
84,1 |
84,1 |
84,1 |
|
1 |
24 |
12,7 |
12,7 |
96,8 |
|
2 |
5 |
2,6 |
2,6 |
99,5 |
|
3 |
1 |
0,5 |
0,5 |
100,0 |
|
Total |
189 |
100,0 |
100,0 |
|
o

o Figure 9.6: Histograma Nº de partos previos.
|
Validos |
Frecuencia |
Porcentaje |
% valido |
% acumulado |
|
0 |
102 |
54,0 |
54,0 |
54,0 |
|
1 |
46 |
24,3 |
24,3 |
78,3 |
|
2 |
29 |
15,3 |
15,3 |
93,7 |
|
3 |
7 |
3,7 |
3,7 |
97,4 |
|
4 |
4 |
2,1 |
2,1 |
99,5 |
|
6 |
1 |
0,5 |
0,5 |
100,0 |
|
Total |
189 |
100,0 |
100,0 |
|
o

o Figure 9.7: Histograma Visitas al médico.
|
Validos |
Frecuencia |
Porcentaje |
% valido |
% acumulado |
|
Ningun parto previo |
159 |
84,1 |
84,1 |
84,1 |
|
Uno o mas partos previos |
30 |
15,9 |
15,9 |
100,0 |
|
Total |
189 |
100,0 |
100,0 |
|
o

o Figure 9.8: Histograma Partos previos.
|
Validos |
Frecuencia |
Porcentaje |
% valido |
% acumulado |
|
Ninguna visita |
102 |
54,0 |
54,0 |
54,0 |
|
Una visita |
46 |
24,3 |
24,3 |
78,3 |
|
2 o mas visitas |
41 |
21,7 |
21,7 |
100,0 |
|
Total |
189 |
100,0 |
100,0 |
|
o

o Figure 9.9: Histograma Visitas.
|
|
|
Estadistico |
Error tip. |
|
Media |
|
64,907 |
1,112 |
|
I.C. al 95% |
Limite inferior |
62,713 |
|
|
|
Limite superior |
67,101 |
|
|
Media recortada al 5% |
|
63,679 |
|
|
Mediana |
|
60,500 |
|
|
Varianza |
|
233,775 |
|
|
Desv. tip. |
|
15,290 |
|
|
Minimo |
|
40,0 |
|
|
Maximo |
|
125,0 |
|
|
Rango |
|
85,0 |
|
|
Amplitud intercuartil |
|
15,250 |
|
|
Asimetria |
|
1,402 |
0,177 |
|
Curtosis |
|
2,404 |
0,352 |
|
4,00 |
4 . 0224 |
|
15,00 |
4 . 555567777777889 |
|
23,00 |
5 . 00000011111222222233444 |
|
33,00 |
5 . 555555555556666666777777788899999 |
|
35,00 |
6 . 00000000000000000000011111222223444 |
|
29,00 |
6 . 55555555555555666667777777899 |
|
9,00 |
7 . 000011334 |
|
13,00 |
7 . 5555567777799 |
|
7,00 |
8 . 0023444 |
|
5,00 |
8 . 55557 |
|
2,00 |
9 . 12 |
|
14,00 |
Extremes (>=93) |
o

o Figure 9.10: Peso de la madre.
|
|
|
Estadistico |
Error tip. |
|
Media |
|
23,24 |
0,39 |
|
I.C. al 95% |
Limite inferior |
22,48 |
|
|
|
Limite superior |
24,00 |
|
|
Media recortada al 5% |
|
23,02 |
|
|
Mediana |
|
23,00 |
|
|
Varianza |
|
28,076 |
|
|
Desv. tip. |
|
5,30 |
|
|
Minimo |
|
14 |
|
|
Maximo |
|
45 |
|
|
Rango |
|
31 |
|
|
Amplitud intercuartil |
|
7,00 |
|
|
Asimetria |
|
0,722 |
0,177 |
|
Curtosis |
|
0,616 |
0,352 |
|
,00 |
1 . |
|
6,00 |
1 . 444555 |
|
19,00 |
1 . 6666666777777777777 |
|
26,00 |
1 . 88888888889999999999999999 |
|
30,00 |
2 . 000000000000000000111111111111 |
|
26,00 |
2 . 22222222222223333333333333 |
|
28,00 |
2 . 4444444444444555555555555555 |
|
11,00 |
2 . 66666666777 |
|
16,00 |
2 . 8888888889999999 |
|
12,00 |
3 . 000000011111 |
|
9,00 |
3 . 222222333 |
|
3,00 |
3 . 455 |
|
2,00 |
3 . 66 |
|
1,00 |
Extremes (>=45) |
o

o Figure 9.11: Edad madre.
|
|
|
Estadistico |
Error tip. |
|
Media |
|
2.944,66 |
53,03 |
|
I.C. al 95% |
Limite inferior |
2.840,05 |
|
|
|
Limite superior |
3.049,26 |
|
|
Media recortada al 5% |
|
2.957,83 |
|
|
Mediana |
|
2.977,00 |
|
|
Varianza |
|
531.473,684 |
|
|
Desv. tip. |
|
729,02 |
|
|
Minimo |
|
709 |
|
|
Maximo |
|
4.990 |
|
|
Rango |
|
4.281 |
|
|
Amplitud intercuartil |
|
1.069,00 |
|
|
Asimetria |
|
-0,210 |
0,177 |
|
Curtosis |
|
-0,081 |
0,352 |
|
1,00 |
Extremes (=<709) |
|
2,00 |
1 . 01 |
|
1,00 |
1 . 3 |
|
3,00 |
1 . 455 |
|
3,00 |
1 . 777 |
|
9,00 |
1 . 888899999 |
|
10,00 |
2 . 0000011111 |
|
16,00 |
2 . 2222222333333333 |
|
18,00 |
2 . 444444444444445555 |
|
14,00 |
2 . 66666677777777 |
|
20,00 |
2 . 88888888999999999999 |
|
18,00 |
3 . 000000000000111111 |
|
19,00 |
3 . 2222222222233333333 |
|
13,00 |
3 . 4444444445555 |
|
19,00 |
3 . 6666666666667777777 |
|
14,00 |
3 . 88888899999999 |
|
6,00 |
4 . 001111 |
|
1,00 |
4 . 2 |
|
1,00 |
4 . 5 |
|
,00 |
4 . |
|
1,00 |
4 . 9 |
o

o Figure 9.12: Peso niño.
Aquí se pretende ver cómo influyen las distintas
características de las madres de los niños para que estos nazcan con peso
normal o bajo.
Volvemos a dividir las variables:
|
Peso niño |
|
Blanca |
Negra |
Otra raza |
Total |
|
>=2500 gr |
Recuento |
73 |
15 |
42 |
130 |
|
|
% de Bajo peso |
56,2% |
11,5% |
32,3% |
100,0% |
|
<2500 gr |
Recuento |
23 |
11 |
25 |
59 |
|
|
% de Bajo peso |
39,0% |
18,6% |
42,4% |
100,0% |
|
Total |
Recuento |
96 |
26 |
67 |
189 |
|
|
% de Bajo peso |
50,8% |
13,8% |
35,4% |
100,0% |
o

o Figure 9.13: Diagrama de barras.
|
|
|
No fumadora |
Fumadora |
Total |
|
>=2500 gr |
Recuento |
86 |
44 |
130 |
|
|
% de Bajo peso |
66,2% |
33,8% |
100,0% |
|
<2500 grs |
Recuento |
29 |
30 |
59 |
|
|
% de Bajo peso |
49,2% |
50,8% |
100,0% |
|
Total |
Recuento |
115 |
74 |
189 |
|
|
% de Bajo peso |
60,8% |
39,2% |
100,0% |
o

o Figure 9.14: Diagrama de barras.
|
|
|
No hipertensa |
Hipertensa |
Total |
|
>=2500 gr |
Recuento |
125 |
5 |
130 |
|
|
% de Bajo peso |
96,15384% |
3,84615% |
100% |
|
<2500 gr |
Recuento |
52 |
7 |
59 |
|
|
% de Bajo peso |
88,13559% |
11,8644% |
100% |
|
Total |
Recuento |
177 |
12 |
189 |
|
|
% de Bajo peso |
93,65079% |
6,349206% |
100% |
o

o Figure 9.15: Diagrama de barras.
|
|
|
No |
Sí |
Total |
|
>=2500 gr |
Recuento |
116 |
14 |
130 |
|
|
% de Bajo peso |
89,2% |
10,8% |
100,0% |
|
<2500 gr |
Recuento |
45 |
14 |
59 |
|
|
% de Bajo peso |
76,3% |
23,7% |
100,0% |
|
Total |
Recuento |
161 |
28 |
189 |
|
|
% de Bajo peso al nacer |
85,2% |
14,8% |
100,0% |
o

o Figure 9.16: Diagrama de barras.
|
|
|
Ningún parto |
Uno o más partos |
Total |
|
>=2500 gr |
Recuento |
118 |
12 |
130 |
|
|
% de Bajo peso |
90,8% |
9,2% |
100,0% |
|
<2500 gr |
Recuento |
41 |
18 |
59 |
|
|
% de Bajo peso |
69,5% |
30,5% |
100,0% |
|
Total |
Recuento |
159 |
30 |
189 |
|
|
% de Bajo peso |
84,1% |
15,9% |
100,0% |
o

o Figure 9.17: Gráfico de barras.
|
|
|
Ninguna |
Una visita |
2 o más |
Total |
|
>=2500 gr |
Recuento |
65 |
35 |
30 |
130 |
|
|
% de Bajo peso |
50,0% |
26,9% |
23,1% |
100,0% |
|
<2500 gr |
Recuento |
37 |
11 |
11 |
59 |
|
|
% de Bajo peso |
62,7% |
18,6% |
18,6% |
100,0% |
|
Total |
Recuento |
102 |
46 |
41 |
189 |
|
|
% de Bajo peso |
54,0% |
24,3% |
21,7% |
100,0% |
o

o Figure 9.18: Gráfico de barras .
|
|
|
Estadistico |
Error tip. |
|
Media |
|
66,650 |
1,391 |
|
I.C. al 95% |
Lim.inf. |
63,897 |
|
|
|
Lim.sup. |
69,403 |
|
|
Media recortada al 5% |
|
65,254 |
|
|
Mediana |
|
61,750 |
|
|
Varianza |
|
251,603 |
|
|
Desv. tip. |
|
15,862 |
|
|
Minimo |
|
42,5 |
|
|
Maximo |
|
125,0 |
|
|
Rango |
|
82,5 |
|
|
Ampli. interc. |
|
17,375 |
|
|
Asimetria |
|
1,452 |
0,212 |
|
Curtosis |
|
2,423 |
0,422 |
|
|
|
Estadistico |
Error tip. |
|
Media |
|
61,068 |
1,729 |
|
I.C. al 95% |
Lim. inf. |
57,607 |
|
|
|
Lim. sup. |
64,528 |
|
|
Media recortada al 5% |
|
60,158 |
|
|
Mediana |
|
60,000 |
|
|
Varianza |
|
176,349 |
|
|
Desv. tip. |
|
13,280 |
|
|
Minimo |
|
40,0 |
|
|
Maximo |
|
100,0 |
|
|
Rango |
|
60,0 |
|
|
Ampl.interc. |
|
13,500 |
|
|
Asimetria |
|
1,119 |
0,311 |
|
Curtosis |
|
1,172 |
0,613 |
o

o Figure 9.19: Diagrama de cajas.
|
|
|
Estadístico |
Error típ. |
|
Media |
|
23,66 |
0,49 |
|
I.C. al 95% |
Lim. inf. |
22,69 |
|
|
|
Lim. sup. |
24,63 |
|
|
Media recortada al 5% |
|
23,41 |
|
|
Mediana |
|
23,00 |
|
|
Varianza |
|
31,187 |
|
|
Desv. tip. |
|
5,58 |
|
|
Minimo |
|
14 |
|
|
Maximo |
|
45 |
|
|
Rango |
|
31 |
|
|
Ampli. interc. |
|
9,00 |
|
|
Asimetria |
|
0,754 |
0,212 |
|
Curtosis |
|
0,503 |
0,422 |
|
|
|
Estadistico |
Error tip. |
|
Media |
|
22,31 |
0,59 |
|
I.C. al 95% |
Lim. inf. |
21,13 |
|
|
|
Lim. sup. |
23,48 |
|
|
Media recortada al 5% |
|
22,19 |
|
|
Mediana |
|
22,00 |
|
|
Varianza |
|
20,354 |
|
|
Desv. tip. |
|
4,51 |
|
|
Minimo |
|
14 |
|
|
Maximo |
|
34 |
|
|
Rango |
|
20 |
|
|
Ampl.interc. |
|
6,00 |
|
|
Asimetria |
|
0,300 |
0,311 |
|
Curtosis |
|
-0,162 |
0,613 |
o

o Figure 9.20: Diagrama de cajas.
En principio, el modelo es el siguiente:
E[persom]=b0+b1edad+b2pesomkg+b3raza+b4tabaco+
b5partprevr+b6hta+b7iu+b8visitasr
En primer lugar, hay que mirar las variables cuyo número de categorías sea
mayor que 2 y vemos que hay dos: raza y visitasr. Cuando se tiene una variable
categórica con k categorías hay que formar k-1 variables dummy. En este caso
ambas variables tienen 3 categorías, luego habrá que crear dos variables dummy
para cada una de ellas.
Procedimiento para crearlas:
Resumen del modelo 1.
|
R |
R2 |
R2 corregida |
Error típ. |
|
0,225 |
0,051 |
0,041 |
714,09 |
Nota:Variables predictoras: (Constante), RAZA2, RAZA1.
R2=0.051 lo que significa
que el 5.1% de la variabilidad de la variable dependiente viene explicada
porque los niños son hijos de madres de distintas razas.
ANOVA(b). Modelo1.
|
|
Suma.cuadrados |
gl |
Media cuadrática |
F |
Sig. |
|
Regresion |
5.070.607,632 |
2 |
2.535.303,816 |
4,972 |
0,008 |
|
Residual |
94.846.445,013 |
186 |
509.927,124 |
|
|
|
Total |
99.917.052,646 |
188 |
|
|
|
Nota: Variables predictoras: (Constante), RAZA2, RAZA1. Variable
dependiente: Peso de recien nacido (grs).
Según la tabla, 99917053 expresa la variabilidad del peso del recién nacido. De
dicha cantidad, la variabilidad explicada por las variables independientes es
5070607.6. El resto, que es 94846445, es la variabilidad residual, es decir, lo
que queda por explicar. El P-value es 0.008 así que hay diferencia
significativa entre el peso de los niños, por lo tanto dicho peso depende, en
parte, de la raza de la madre.
Coeficientes. Modelo 1.
|
|
Coef. no estand. |
|
Coef. estand. |
t |
Sig. |
|
|
B |
Error típ. |
Beta |
|
|
|
(Constante) |
3.103,740 |
72,882 |
|
42,586 |
0,000 |
|
RAZA1 |
-384,047 |
157,874 |
-0,182 |
-2,433 |
0,016 |
|
RAZA2 |
-299,725 |
113,678 |
-0,197 |
-2,637 |
0,009 |
Nota: Variable dependiente: Peso de recien nacido (grs).
Para ver si hay diferencia significativa, miramos los P-value y vemos que la
hay, tanto para el peso de los niños de madres negras con respecto al peso de
los niños de madres blancas, como para el peso de los niños de madres de otra
raza con respecto al peso de los niños de madres blancas.
Resumen del modelo 1.
|
R |
R2 |
R2 corregida |
Error típ. |
t |
Sig. |
|
0,128 |
0,016 |
0,006 |
726,94 |
|
|
Nota: Variables predictoras: (Constante), VISITAS2,
VISITAS1.
R2=0.016 lo que significa
que el 1.6% de la variabilidad de la variable dependiente viene explicada por
los distintos números de visitas al médico que han realizado las madres de los
niños cuyo peso está en estudio.
ANOVA(b). Modelo 1.
|
|
Suma cuadrados |
gl |
Media cuadratica |
F |
Sig. |
|
Regresion |
1.627.882,022 |
2 |
813.941,011 |
1,540 |
0,217 |
|
Residual |
98.289.170,624 |
186 |
528.436,401 |
|
|
|
Total |
99.917.052,646 |
188 |
|
|
|
Nota: Variables predictoras: (Constante), VISITAS2, VISITAS1. Variable
dependiente: Peso de recien nacido (grs).
Observando esta tabla vemos que 99917053 expresa la variabilidad del peso del
recién nacido. De esa cantidad, 1627882.0 es la variabilidad explicada por las
variables independientes. El resto, que es 98289171, es lo que queda por
explicar, es decir, la variabilidad residual. El P-value es 0.217 así que no
hay diferencia significativa entre el peso de los niños, por el hecho de que
sus madres hayan ido al médico o no.
Procedemos ahora al análisis multivariante:
Analizar Regresión Lineal. Variable Dependiente pesorn.
Variable independiente edad, pesom kg, raza1, raza2, fuma, partprevr, hta, iu,
visitas1, visitas2.
Resumen del modelo 1.
|
R |
R2 |
R2corregida |
Error típ. |
F |
Sig. |
|
0,506 |
0,256 |
0,215 |
646,05 |
1,540 |
0,217 |
Nota: Variables predictoras: (Constante), VISITAS2, Irritabilidad
uterina, RAZA1, Si la madre fuma o no, Hipertensión, Edad de la madre, Número de
partos previos (recodificada), VISITAS1, Peso de la madre en kilos, RAZA2.
R2=0.256 lo que
significa que el conjunto de todas las variables independientes explican
aproximadamente la cuarta parte de la variable del peso de los niños.
ANOVA para el modelo 1.
|
|
Suma de cuadrados |
gl |
Media cuadratica |
F |
Sig. |
|
Regresion |
25.622.586,439 |
10 |
2.562.258,644 |
6,139 |
0,000 |
|
Residual |
74.294.466,206 |
178 |
417.384,642 |
|
|
|
Total |
99.917.052,646 |
188 |
|
|
|
Nota:Variables predictoras: (Constante), VISITAS2, Irritabilidad
uterina, RAZA1, Si la madre fuma o no, Hipertensión, Edad de la madre, Número
de partos previos (recodificada), VISITAS1, Peso de la madre en kilos, RAZA2.
Variable dependiente: Peso de recién nacido (grs).
Según esta tabla, 99917053 expresa la variabilidad del peso del recién nacido.
De esta cantidad, 25622586 es la variabilidad explicada por las variables
independientes. El resto, la variabilidad residual que es 74294466, es lo que
queda por explicar. R2=0.256,
no es más que el cociente entre la variabilidad explicada en relación con la
variabilidad total.
La siguiente columna muestra los grados de libertad:
En la siguiente aparecen las medias cuadráticas que son los
cocientes entre las variabilidades explicadas y residuales y sus respectivos
grados de libertad. La F es el cociente resultado de la división de las dos
medias cuadráticas anteriores.
El hecho de que el P-value sea 0.000 no significa, de ninguna manera, que el
error sea 0, sino que es menor de una milésima. Ya que el error es pequeño,
podemos afirmar que el conjunto de las variables independientes está asociado
significativamente con el peso del recién nacido.
Coeficientes del modelo 1.
|
|
Coef.no estandar. |
|
Coef. estandar. |
t |
Sig. |
|
|
B |
Error típ. |
Beta |
|
|
|
(Constante) |
2.880,303 |
312,951 |
|
9,204 |
0,000 |
|
Edad madre |
-3,035 |
9,597 |
-0,022 |
-0,316 |
0,752 |
|
Peso madre |
8,733 |
3,451 |
0,183 |
2,531 |
0,012 |
|
RAZA1 |
-469,312 |
149,480 |
-0,222 |
-3,140 |
0,002 |
|
RAZA2 |
-322,476 |
117,088 |
-0,212 |
-2,754 |
0,006 |
|
Si fuma o no |
-305,008 |
109,604 |
-0,205 |
-2,783 |
0,006 |
|
partos previos (rec.) |
-229,053 |
137,902 |
-0,115 |
-1,661 |
0,098 |
|
Hipertensión |
-592,320 |
201,167 |
-0,199 |
-2,944 |
0,004 |
|
Irri. uterina |
-481,705 |
137,220 |
-0,235 |
-3,510 |
0,001 |
|
VISITAS1 |
103,367 |
122,988 |
0,061 |
0,840 |
0,402 |
|
VISITAS2 |
-62,245 |
123,177 |
-0,035 |
-0,505 |
0,614 |
Nota:Variable dependiente: Peso de recien nacido (grs).
Como sabemos, las variables que influyen significativamente son las que tienen
la significación menor de 0.05 así que hemos de fijarnos en el P-value más
grande, quitarlo y volver a hacer el análisis. Hay que quitar la edad de la
madre ya que su P-value=0.752.
Por lo que realizando el mismo procedimiento que antes, obtenemos R2=0.256, es decir, prácticamente igual
que en la situación anterior.
Nota: se invita al lector a ir realizando el ejercicio en su propio
ordenador para que de ese modo compruebe los resultados, logrando así una mejor
comprensión.
Según esta tabla, 99917053 expresa la variabilidad del peso del recién nacido.
De esta cantidad, 25580836 es la variabilidad explicada por las variables
independientes. El resto, la variabilidad residual que es 74336217, es lo que
queda por explicar.
La siguiente columna nos muestra los siguientes grados de libertad:
En la siguiente apareceran, como antes, las medias cuadráticas que son los cocientes entre las variabilidades explicadas y residuales y sus respectivos grados de libertad. La F es el cociente resultado de la división de las dos medias cuadráticas anteriores.
|
|
Coef. no estandar. |
|
Coef. estand. |
t |
Sig. |
|
|
B |
Error típ. |
Beta |
|
|
|
(Constante) |
2.822,541 |
253,495 |
|
11,135 |
0,000 |
|
Peso madre |
8,522 |
3,377 |
0,179 |
2,524 |
0,012 |
|
RAZA1 |
-459,504 |
145,860 |
-0,218 |
-3,150 |
0,002 |
|
RAZA2 |
-318,001 |
115,938 |
-0,209 |
-2,743 |
0,007 |
|
Si fuma o no |
-302,583 |
109,060 |
-0,203 |
-2,774 |
0,006 |
|
partos previos (recod) |
-235,295 |
136,139 |
-0,118 |
-1,728 |
0,086 |
|
Hipertensión |
-589,497 |
200,463 |
-0,198 |
-2,941 |
0,004 |
|
Irri. uterina |
-479,011 |
136,611 |
-0,234 |
-3,506 |
0,001 |
|
VISITAS1 |
97,349 |
121,201 |
0,057 |
0,803 |
0,423 |
|
VISITAS2 |
-67,271 |
121,841 |
-0,038 |
-0,552 |
0,582 |
Nota:: Variable dependiente: peso del recien nacido.
Sigue habiendo P-value demasiado grandes. Vemos que el mayor ahora es el de
visitas2, así que la quitamos junto con visitas1, ya que al ser variables dummy
deben ir a la par.
Al eliminar como venimos haciendo estas variables, obtenemos un R2=0.250, así que ahora sí que es
realmente la cuarta parte la que es explicada, ademas, si observamos la tabla
podremos comprobar que apenas hay cambio con respecto a antes.
Según esta tabla, 99917053 expresa la variabilidad del peso del recién nacido.
De dicha cantidad, 25014083 es la variabilidad explicada por las variables
independientes. El resto, la variabilidad residual que es 74902970, es lo que
queda por explicar.
La siguiente columna muestra los grados de libertad:
En la siguiente aparecen las medias cuadráticas que son los cocientes
entre las variabilidades explicadas y residuales y sus respectivos grados de
libertad.Y donde La F es el cociente resultado de la división de las dos medias
cuadráticas anteriores.
Y al observar la tabla de coeficientes que hemos obtenido, nos daremos cuenta
de que aun existen varibles con un valor superior al que buscamos, de modo que
seguiremos eliminando variables, (realizando los mismos pasos que al
principio), hasta que todos los p-valores sean significativos.
(La siguiente a eliminar seria la variable que representa a los partos previos
de las madres.)
La última tabla de coeficientes obtenida:
|
|
Coef. no estandar. |
|
Coef. estandar. |
t |
Sig. |
|
|
B |
Error típ. |
Beta |
|
|
|
(Constante) |
3.388,770 |
88,269 |
|
38,391 |
0,000 |
|
RAZA1 |
-475,808 |
145,578 |
-0,225 |
-3,268 |
0,001 |
|
RAZA2 |
-349,998 |
112,342 |
-0,230 |
-3,115 |
0,002 |
|
Si fuma o no |
-354,900 |
103,426 |
-0,238 |
-3,431 |
0,001 |
|
Hipertensión |
-585,112 |
199,610 |
-0,196 |
-2,931 |
0,004 |
|
Irri. uterina |
-524,439 |
134,652 |
-0,256 |
-3,895 |
0,000 |
|
PESOCENT |
8,479 |
3,350 |
0,178 |
2,531 |
0,012 |
Modelo definitivo:
Ya se puede interpretar el b0 =3388,77 que es lo que vale el peso, por
término medio, de un niño recién nacido, cuando la madre es blanca, no fuma, no
es hipertensa, no tiene irritabilidad uterina y pesa 65 kgs.
Si queremos ver los posibles desajustes del modelo ajustado
hemos de estudiar los residuales.
Para obtener sus correspondientes variables realizamos el siguiente
procedimiento (estando en analizar à regresión à lineal y con las variables
definitivas introducidas, es decir, después de haber obtenido el modelo
ajustado):
Dentro de Guardar... elegimos:
Obtenemos las siguientes variables:
Normalidad de los residuales tipificados:
Para saber si hay normalidad, vamos a obtener un gráfico aclaratorio mediante:
Gráficos ® Q-Q ® meter la variable zre.1

Figure 9.21: Q-Q.
Este gráfico muestra que hay
normalidad puesto que dicha forma es la que debe salir para indicar que la
distribución de los residuales es normal. Figura: 9.21
Ordenamos el fichero (Datos: Ordenar casos) por la variable zre-1, es decir,
los residuales tipificados para ver los outliers (observaciones extremas o
raras) que son los menores que -1'96 y mayores que 1'96 (lo contenido entre
dichos valores será, lógicamente, el 95% de los casos, =0'05).
Hecho esto, se identifican los niños cuyo código de identificación (id)
corresponda a los residuales anteriores; así los niños 10, 16, 4 y 36, cuyos
residuales tipificados son menores que -1'96, indican que estos niños tienen un
peso raramente inferior al que cabría esperar según las características de sus
madres. Asimismo, los niños con id 188 y 226, cuyos residuales son mayores que
1'96, indican que tienen un peso raramente superior al esperado según las
características de sus madres.
La distancia de Cook mide la influencia de cada niño sobre las estimaciones de
los coeficientes, de tal forma que si sacamos un punto influyente del fichero
de datos, las estimaciones de los coeficientes del modelo pueden variar
sensiblemente.
Vamos a ordenar el fichero según la variable correspondiente a las distancia de
Cook (coo-1).
El niño cuyo id=10 es el más influyente porque su distancia es la mayor. Pero
realmente aún no sabemos si influye de manera importante o no; para
averiguarlo:
Datos |® Seleccionar casos |® Si se satisface la condición: id 10 (aquí
en la calculadora del SPSS el significa distinto).
Analizar |® Regresión |® Lineal (quitamos todo lo marcado antes).
Resumen del modelo 1.
|
R |
R2 |
R2 corregida |
Error típ. |
|
0,498 |
0,248 |
0,223 |
632,13 |
Nota:Variables predictoras: (Constante), PESOCENT, Si la madre fuma o
no, Irritabilidad uterina, RAZA1, Hipertensión, RAZA2.
ANOVA:
|
|
Suma de cuadrados |
gl |
Media cuadratica |
F |
Sig. |
|
Regresion |
23.870.616,152 |
6 |
3.978.436,025 |
9,956 |
0,000 |
|
Residual |
72.326.300,502 |
181 |
399.592,820 |
|
|
|
Total |
96.196.916,654 |
187 |
|
|
|
Nota:Variables predictoras: (Constante), PESOCENT, Si la madre fuma o
no, Irritabilidad uterina, RAZA1, Hipertensión, RAZA2. Variable dependiente:
Peso de recién nacido (grs).
Tabla de coeficientes:
|
|
Coef. no estand. |
|
Coef. estand. |
t |
Sig. |
|
|
B |
Error típ. |
Beta |
|
|
|
(Constante) |
3.415,536 |
86,858 |
|
39,323 |
0,000 |
|
RAZA1 |
-500,242 |
142,724 |
-0,241 |
-3,505 |
0,001 |
|
RAZA2 |
-384,355 |
110,556 |
-0,257 |
-3,477 |
0,001 |
|
Si fuma o no |
-386,067 |
101,766 |
-0,264 |
-3,794 |
0,000 |
|
Hipertensión |
-582,474 |
195,379 |
-0,199 |
-2,981 |
0,003 |
|
Irri. uterina |
-449,454 |
134,153 |
-0,220 |
-3,350 |
0,001 |
|
PESOCENT |
8,562 |
3,279 |
0,183 |
2,611 |
0,010 |
Nota:Variable dependiente: Peso de recien nacido (grs).
Después del análisis realizado podemos
concluir que, de las variables proporcionadas en el fichero original, tan sólo
tienen efecto independiente sobre el peso del recién nacido la raza de la madre,
si fuma o no, la hipertensión, la irritabilidad uterina y el peso de la madre.
La interpretación de las estimaciones de los coeficientes se hizo
anteriormente; en cuanto al análisis de los residuales, podemos decir que
siguen una distribución normal como implica el modelo de regresión lineal; hay
algunos niños (outliers) con pesos "raros", tanto por exceso como por
defecto, en relación a las características de sus respectivas madres.
Por último, no se ha detectado ningún punto que ejerza una influencia
importante en la estimación de los coeficientes.
Ya que el coeficiente de determinación del modelo elegido es de 0'24, significa
que no podemos explicarnos más de las tres cuartas partes, 0'76, de la
variabilidad de los pesos de los recién nacidos.
Esto implica que hay variables que podrían ayudarnos a explicarnos mejor el
peso de los niños pero que no nos han sido proporcionadas.
Ader, H.J. et all.- The use of conversational packages in statistical computing. Statist. Softw. Newsl. 11, 106-116. 1985
Babilliot, A.- Typologie des progiciels statistiques pour micro-ordinateur. Statistique Appliquée, XXXVI (3), 15-32. 1988
Bratley, P. et all.- A guide to Simulation. Springer-Verlag. 1983
Brooking, Annie G.- The analysis phase in development of Knowledge based systems. Artificial Intelligence and Statistics. Addison-Wesley. 1986.
Carroll, J.M.- Simulation using personal computers. Prentice-Hall Inc. Ed.. 1987.
Cody, R.P. & Smith, J.K.- Applied Statistics and the SAS programming language. North-Holland. 1985.
Chambers, J.M. & Pregibon, D. Zayas, E.R.- Expert software for data analysis-an initial experiment (1983).- Proc. 43th session of the ISI Vol XLIX, Book 1, 294-303. 1983.
Darius, L.P.- Building expert systems with the help of exixting statistical software. COMPSTAT 277-282. 1986.
Dirschedl, P. & Pstermann, R.- Computational Statistics. Physica-Verlag. 1994.
Dixon, W.J. et all.- BMDP Statistical Software Manual. University of California Press. 1990.
Eddy, W.F. & Gentle, J.E. - Statistical computing: what's past is prologue. A Celebration of Statistics, A. C. Atkinson and S. E. Fienberg, ed, Springer Verlag: New York 233-249. 1985.
Ellman, T.- Representing Statistical Computations: Toward a Deeper Understanding, Artificial Intelligence and Statistics, Addison-Wesley. 1986.
Etxeberría, J., Joaisti, L. & Lizasoain, L.- Programación y análisis estadísticos básicos con spss-pc (+). Paraninfo 1990.
Freiberger, W. & Grenander, U.- A short course in Computational Probability and Statistics. Applied Mathematical Sciences. Vol. 6, 1971.
González A. y Maldonado J. A.- The JANDSTAT Statistical System. A.S.M.S.A., World Scientific. 1991.
González A., Maldonado J. A. y Serrano J.J.- Opened interrelated Knowledge bases as support for the systems of statistical analysis. A.S.M.S.A., World Scientific. 1993.
Gutiérrez, R. y González A.- Estadística Multivariable. 1991.
Gutiérrez, R. y otros.- Técnicas de Análisis de datos multivariable. Tratamiento computacional. 1994.
Hand, D.J.- Patterns in statistical strategy. Artificial Intelligence and Statistics. Addison-Wesley. 355-388. 1986.
Harmon, P. & King, D.- Sistemas Expertos. Ed. Díaz de Santos. 1988.
Haux, R.- Expert Systems in Statistics. Ed. Díaz de Santos 1988.
IMSL.- IMSL Librery. Reference Manual. 1980.
Jackson, P.- Introduction to Expert Systems. Addison-Wesley. 1990
Jhonson, M.E.- Multivariate Statistical Simulation. John Wiley & Sons ed. 1987.
Kennedy, W.J. & Gentle, J.E.- Statistical Computing. Marcel Dekker: New York, 1980.
Kleijnen, J. & Groenendaal, W.V.- Simulation: A Statistical Perspective. Wiley 1992.
Lefebvre, J., Boitard, M. & Rey, J.F.- Logiciels d'analyses statistiques. Masson Ed. 1981.
Lehn J. & Retting, S.- On the Choice and Implementation of Pseudorandom Number Generators. Computational Statistics, 25th Conference on Statistical Computing. 125-142. 1994.
Maindonald, J.H.- Statistical Computation. Wiley: New York. 1984.
Microsoft Corporation.- Microsoft FORTRAN POWERSTATION. 1992.
Molenaar, I.W.- Statistical Consultants and Statistical Expert Systems. COMPSTAT 187-192, 1988.
Intelligent programs, the next stage in statistical computint. Recent Developments in Statistics, Barra ed, Amsterdam, North Holland. 79-86. 1977.
Nelder, J.A. & Baker, R.J.- Statistical software: progress and prospects. Computer Science and Statistics. Proc. of the 16th symposium on the interface. 33-37. Amsterdam, 1985.
Noriusis, M.J.- SPSS Introductory Statistics Guide. Mc Graw Hill ed. 1992
Noriusis, M.J.- SPSS Advanced Statistics Guide. Mc. Graw Hill ed. 1992.
Payne, J.A.- Introduction to simulation: Programming techniques and methods of analysis. McGraw-Hill. 1982.
Pardo, L. & Valdés T.- Simulación. Aplicaciones prácticas en la empresa. Gestión Informatizada 1987.
Pelletier, P.- Techniques numeriques appliquées au calcul scientifique. Masson ed. 1971.
Phelps, R. I. & Musgrove P.B.- Artificial intelligence approaches in statistics. (A.I.S.), Addison-Wesley. 1986.
Rice, J. R.- Numerical methods, software and analysis: IMSL refernce adition. Mc. Graw Hill. 1983.
Royston, J.P. et all.- The construction and description of algoriths. Appl. Statist. Royal Statistial Soiety. 36. 1, 94-103. 1987.
SAS user's guide: Statistics, SAS Institute Inc.
Siegel, J.B.- Statistical software for microcomputers. North-Holland. 1985.
Thisted, R. A.- The effect of personal computers on statistical practice. computer Science and Statistics: Thirteenth Symposium on the Interface. William F. Eddy, ed. 25-30. 1986.
Thisted, R. A.- Computing environments for data analysis (with Discussion). Statistical Science 1, 259-275. 1986.
Thisted, R. A.- Elements of Statistical Computing. Numerical Computation. Ad. Chapman & Hall 1988.
Tukey, J. W.- Another look at the future. Computer Science and Statistics: proceedings of the 14th symposium on the interface, Heiner, Sacher, and Wilkison ed. 2-8 New York: Springer-Verlag. 1982.
Victor, N.- Computational Statistics-tool or science?. Stat. Software Newl. 10, 105-116. 1984.
Wilkinson, L.- Practical Guidelines for Testing Statistical Software. Computational Statistics, 25th conference on Statistical Computing. 111-124. 1994.
Yakowitz, S.J.- Computational Probability and Simulation. Addison Wesley Pb. Co. Reading. Massachussetts. 1977.
Zanakis, S. H.& Rustagi, J.S., Optimization in Statistics. North Holland, ed. 1982.
This document was translated from LATEX by HEVEA.