Programa de la asignatura
Ampliación de análisis de Datos Multivariantes.
123 11 W3
3º Diplomatura de Estadística. Curso 2000-01
Programa de Teoría.
Tema 1: Introducción al Análisis Cluster. Consideraciones Generales.
El problema de la clasificación.
El Análisis Cluster.
Cluster por individuos y por variables.
Clasificación de las técnicas cluster.
Métodos Jerárquicos.
Métodos no Jerárquicos.
Tema 2: Medidas de Asociación.
Introducción.
Distancias y similaridades.
Distancias. Propiedades.
Similaridades. Propiedades.
Medidas de asociación entre variables.
Coseno del ángulo de vectores.
Coeficiente de correlación.
Medidas para datos binarios.
Medidas basadas en probabilidades condicionadas.
Medidas de asociación entre individuos.
Distancia euclídea, de Minkowski y de Mahalanobis.
Correlación entre individuos.
Distancias derivadas de la distancia chi2
Medidas no métricas. Coeficiente de Bray-Curtis.
Medidas para datos binarios.
Tema 3: Métodos Jerárquicos de Análisis Cluster.
Introducción.
Métodos jerárquicos aglomerativos.
Estrategia de la distancia mínima o similitud máxima.
Estrategia de la distancia máxima o similitud mínima.
Estrategia de la distancia o similitud promedio no ponderado.
Estrategia de la distancia o similitud promedio ponderado.
Métodos basados en el centroide.
Método del promedio ponderado.
Método de la Mediana.
Método de Ward.
Ejemplo numérico de Análisis Cluster.
Fórmula de recurrencia de Lance-Williams.
Métodos jerárquicos disociativos.
La matriz cofenética. Coeficiente de correlación cofenético.
El problema del número de clusters a determinar. Técnicas de validación.
Tema 4: Métodos no Jerárquicos de Análsis Cluster.
Introducción.
Puntos semilla. Métodos de elección.
Particiones iniciales. Métodos de elección.
Métodos que fijan el número de clusters.
Método de Forgy y variante de Jancey. Ejemplo.
Método de las K-Medias de MacQueen.
Algunas cuestiones sobre estos métodos.
Propiedades de convergencia.
Métodos con el número final de clusters variable.
Nueva versión del método de las K-Medias.
Variante de Wishart del método de las K-Medias.
El método Isodata.
Tema 5: Otros métodos de Análisis Cluster.
Introducción.
Técnicas de búsqueda de la densidad.
El método Taxmap.
El análisis Modal.
Método del entorno cercano.
Cluster simultáneo de individuos y variables.
Bibliografía.
Aldenderfer, M.S. y Blashfield, R.K. (1989).
Cluster Analysis. Series: Quantitative Applications in
the Social Sciences. Sage University Paper.
Anderberg, M.R. (1973). Cluster Analysis for
applications. Academic Press.
Duran Benjamin, S. y Odell, P.L. (1974).
Cluster Analysis. Lecture Notes in Economics and
Mathematical Systems. Springer-Verlag.
Escudero, L.F. (1977). Reconocimiento de patrones.
Paraninfo.
Everitt, B.S. (1993). Cluster Analysis. Edward
Arnold.
Gutiérrez, R.; González, A.; Torres, F. y Gallardo, J.A.
(1994).
Técnicas de Análisis de datos multivariable. Tratamiento
computacional.
Romesburg, H.C. (1984). Cluster Analysis for
researchers. Lifetime Learning Publications.
Späth, H. (1982). Cluster Analysis algorithms.
John Wiley \& Sons.
Programa de Prácticas.
El objetivo perseguido en la realización de las prácticas de ordenador, es
mostrar al
alumno la resolución de ejercicios prácticos
directamente relacionados con las técnicas teóricas estudiadas, de forma que
estos
desarrollos adquiridos sepa traducirlos en la resolución de
casos prácticos.
Para las prácticas de ordenador se utilizarán los paquetes estadísticos BMDP,
( capítulos 1M, 2M y KM) y SPSS. Para la realización de Técnicas de Validación
se emplearán programas de propia elaboración.
Una parte de las prácticas se encuentra
completamente resuelta, y se proponen otras para su resolución. Algunas de las
propuestas tendrán que ser
entregadas al final del curso perfectamente realizadas por escrito.
El programa comprende las siguientes prácticas en ordenador:
Dos prácticas de Análisis Cluster por variables.
El alumno tendrá que realizar otra que presentará
por escrito al final del curso. Programas utilizados: BMDP (capítulo 1M) y SPSS.
Dos prácticas de Análisis Cluster por individuos. El alumno tendrá que
realizar otra que entregará por escrito al final del curso.
Programas utiliados: BMDP (capítulo 2M) y SPSS.
Dos prácticas de Análisis Cluster no jerárquico mediante el procedimiento de las
K-Medias. El alumno tendrá que
realizar otra que entregará por escrito al final de curso.
Programa utilizados: BMDP (capítulo CA) y SPSS.
Pautas a seguir en la realización de las prácticas:
Para la realización de las prácticas se hará una introducción de las diferentes
órdenes
que deben utilizarse en los capítulos del BMDP, y las
secuencias y menús usados en SPSS.
La primera práctica de cada bloque tiene como objetivo mostrar al alumno
la aplicación directa y pormenorizada de cada uno de los pasos seguidos en el
desarrollo teórico y será expuesta de manera muy exhaustiva.
Las siguientes prácticas resueltas de cada bloque, ofrecen una visión de
las
diferentes variantes que se pueden plantear en cada técnica estudiada, y llevan
una graduación de menor a mayor dificultad.
Por último se propone al alumno la realización completa de una de las
prácticas de cada técnica, siguiendo el mismo modelo que las prácticas resueltas.
Evaluación de la asignatura
El alumno deberá realizar un examen escrito sobre las cuestiones teóricas
estudiadas y otro sobre los
ejercicios prácticos realizados, en este último podrá contar con toda la
documentación y bibliografía que precise.
La nota final será la media aritmética de
ambos.
Finalmente deberá presentar por escrito los resultados de las tres prácticas
propuestas para su resolución a lo largo del curso, con todos los datos
proporcionados por los
programas estadísticos utilizados en su estudio, junto con el análisis y
conclusiones obtenidas. La nota de este trabajo puede permitir al
alumno aumentar en un escalón la obtenida en los exámenes escritos. El
alumno calificado negativamente en la realización de este trabajo práctico,
deberá repetirlo nuevamente para poder aprobar la asignatura.