Proyecto Docente "Software Específico para Bibliometría, Evaluación de la Ciencia y Vigilancia Tecnológica"

Redes 2005

Análisis de Redes Tecnocientíficas


Técnicas de visualización de grafos: Análisis de Agrupaciones

Una vez calculadas las ponderaciones de los arcos o enlaces que constituyen la matriz de adyacencia, usando coeficientes de similitud o disimilitud, se procede a dibujar el grafo que representa esta matriz. Cuando los vértices son pocos, esta tarea es bastante fácil, pero cuando el número de ellos es algo elevado y además se encuentran muy enlazados, es prácticamente imposible visualizar un grafo que presente una cierta claridad. Es evidente que el interés, al menos en ciencimetría, de utilizar los grafos o mapas se centra en "visualizar con claridad" las relaciones entre actores y no obtener una maraña de enlaces que no conduzca a nada.

Denominado en la literatura inglesa "Cluster Analysis", el Análisis de Agrupaciones, se basa en dividir el grafo en conjuntos o agrupaciones de vértices altamente enlazados entre sí. Este proceso se denomina partición y gracias a él podemos localizar zonas diferenciadas y de características propias dentro de la red y realizar, por tanto, estudios estructurales y dinámicos de las agrupaciones resultantes. Las técnicas de agrupación son muy variadas y ampliamente utilizadas en ciencimetría, tanto en análisis de citas, como de co-citas o de palabras asociadas. Someramente expondremos algunas.

a) Construcción directa de un grafo imponiendo un valor umbral.

Consiste en representar solo aquellos enlaces que tengan un valor igual o superior a uno prefijado. Si el umbral es demasiado bajo, la representación muestra un exceso de lineas y la visualización es muy deficiente; en cambio, cuando el umbral es demasiado alto, se pierde detalle y el mapa presenta un exceso de partición, con demasiados grupos y vértices aislados sin interconexión. De ello se deduce que el problema fundamental es poder asignar un valor óptimo del umbral que genere una partición adecuada.

Puede comprobarse, por ejemplo en el caso de redes de co-citas, que para un umbral dado de citación, el grafo de co-citación presenta dos umbrales que definen los límites de validez estadística (SHAW, W. M. JR., 1985). Entre estos dos umbrales el mapa obtenido es estadísticamente válido y puede ser interpretado adecuadamente. En cambio, fuera de estos límites, por encima o por debajo, los resultados no responden a una estructura inherente a la naturaleza de los datos.

Para encontrar el umbral óptimo se han propuesto diversas técnicas (GOETSCHEL, R. JR. y VOXMAN, W., 1987). Citemos por ejemplo el método MWSF (Maximal Weight Spanning Forest) o el modelo de "Máxima Adhesividad". En ambos casos se busca una partición intermedia que genere un número de agrupaciones óptimo.

(SMALL, H.; SWEENEY, E. y GREENLEE, E., 1985) y (SMALL, H. y SWEENEY, E., 1985) realizan un amplio estudio de análisis de agrupaciones basado en citación y co-citación usando, lógicamente, la base de datos SCI. Compara la influencia sobre el número, tamaño, tipo y propiedades de las agrupaciones resultantes después de utilizar cuatro métodos que combinan umbrales de citación enteros o fraccionarios con umbrales de co-citación constante o variable. Encuentra que estos métodos mejoran la generación de mapas de la ciencia más comprensibles.

La utilización de valores umbrales es frecuente en ciencimetría cuando el número de vértices del grafo no es demasiado extenso. En el trabajo donde por primera vez se introduce el concepto de mapas de co-citas (SMALL, H., 1973b), la representación se lleva a cabo usando directamente valores umbrales de co-citación, sin el uso, todavía, de índices normalizados. (MARSHAKOVA, I. V., 1981) estudia el concepto de popularidad de un autor, aplicado al campo de la Ciencia de la Información, presentando un grafo muy completo de las relaciones entre los autores más populares. Podemos citar otros ejemplos como el estudio realizado en el ámbito de la bioquímica y la agricultura, tanto en su aspecto estructural (BRAAM, R. R.; MOED, H. F. y VAN RAAN, A. F. J., 1991a) como dinámico (BRAAM, R. R.; MOED, H. F. y VAN RAAN, A. F. J., 1991b), combinando análisis de co-citas con análisis de palabras. En los inicios del proyecto Leximappe, se usaron grafos de palabras asociadas aplicando valores umbrales de índices de Jaccard y de índices de inclusión (RIP, A. y COURTIAL, J. P., 1984). También se han utilizado umbrales de índices de inclusión en un análisis de co-encabezamientos en el ámbito de la geofísica australiana (TODOROV, R. y WINTERHAGER, M., 1990).

b) Dendrogramas

Es otra técnica de agrupamiento cuyo objetivo es encontrar relaciones de jerarquía. Partiendo de la matriz de adyacencia (ver por ejemplo (EGGHE, L. y ROUSSEAU, R., 1990)) es posible utilizar tres técnicas diferentes de agrupación basadas en algoritmos iterativos:

1.- Método de enlace simple o de máxima proximidad.

2.- Método de enlace completo o de máxima lejanía.

3.- Método de enlace medio o de agrupación de grupos medios.

No entraremos en detalles sobre estas técnicas y sólamente diremos que son apropiadas tan solo cuando el número de entes que se enlazan son relativamente pocos y entre ellos hay una relación de jerarquía que permita establecer tipologías. Esta última cualidad ha sido muy bien aprovechada en Arqueología para crear clasificaciones y tipologías de artefactos (CONTRERAS-CORTÉS, F. et al., 1987-1988) y (CONTRERAS-CORTÉS, F., 1984)

Aplicaciones en la ciencimetría han sido llevadas a cabo, por ejemplo, por (SMALL, H., 1986), (SMALL, H. y SWEENEY, E., 1985) y (SMALL, H. y GARFIELD, E., 1985). Utilizan el método de enlace simple con citas y co-citas usando, por supuesto, los datos proporcionados por el ISI. Otro ejemplo de análisis jerárquico mediante dendrogramas es el realizado por (KORENNOI, A. A., 1989) sobre el campo de la teoría de los ordenadores y sus aplicaciones. Más recientemente (MCCAIN, K. W., 1995) estudia la estructura I+D de la Biotecnología, introduciendo, entre otras representaciones, un dendrograma que agrupa las principales empresas de biotecnología en función de sus tipologías investigadoras y productivas.

c) Leximappe.

Leximappe utiliza una técnica híbrida que combina umbrales con algoritmos iterativos. Puede imponerse un umbral mínimo de ocurrencia y de co-ocurrencia de las palabras, así como un valor mínimo y otro máximo del tamaño de las agrupaciones o temas obtenidos. Los algoritmos, en los que entraremos en más detalle más adelante, permiten generar agrupaciones de estructura libre o en forma de estrella. Leximappe combina simultaneamente las técnicas con umbral y las de enlace. Aporta además la posibilidad de utilizar índices como el de cohesión interna o densidad y el de cohesión externa o centralidad.

d) Otras técnicas de representación.

Aparte de las técnicas anteriormente citadas mediante las cuales se intenta reconstruir a partir de una matriz de adyacencia la estructura de la red en estudio, se utilizan muy extensamente otras técnicas que permiten hacer representaciones de esta red pero ya no en forma de grafo con vértices y ejes. Por no alejarnos demasiado del interés de esta tesis no entraremos en profundidad en la descripción de estos otros métodos alternativos y solo haremos una referencia muy somera.

Citemos en primer lugar el análisis de componentes principales (PCA) Si en un espacio multidimensional localizamos los entes de una red, obtendremos una nube de puntos en cuyo centro de gravedad podemos situar el origen de coordenadas. El método de análisis de componentes principales intenta encontrar un sistema de ejes coordenados ortogonales cuyo primer eje o componente se dirija en una dirección tal que los puntos situados sobre él presenten la máxima dispersión posible. El segundo eje, perpendicular u ortogonal al anterior, se situará en la dirección de la máxima dispersión de los puntos restantes. Se repite el proceso hasta agotar todos los ejes o componentes del espacio multidimensional.

En el análisis multidimensional escalar (MDS) se pretende llegar a una representación similar al análisis de componentes principales pero se parte de supuestos distintos. En MDS no es necesario conocer las coordenadas de los puntos, aunque sí es imprescindible conocer las distancias entre ellos. Esta técnica suele utilizarse asociada con análisis de agrupaciones.

Es extensísima la bibliografía en la que alguno de estos métodos, PCA o MDS son utilizados, bien solos, bien asociados ambos o bien en combinación con otros como el análisis factorial. Sobre análisis de componentes principales citaremos a (BOOKSTEIN, A. y PODET, E. B., 1986), (SIMEON, V. et al., 1986), (TIJSSEN, R. J. W.; DE LEEUW, J. y VAN RAAN, A. F. J., 1987) y (CHENEY, P. H. y NELSON, R. R., 1988). La bibliografía sobre análisis multidimensional escalar es muy amplia y entre ella destacamos: (WHITE, H. D., 1983), (MCCAIN, K. W., 1986), (TIJSSEN, R. J. W.; DE LEEUW, J. y VAN RAAN, A. F. J., 1987), (BAYER, A. E.; SMART, J. C. y MCLAUGHLIN, G. W., 1990), (TIJSSEN, R. J. W. et al., 1990), (MCCAIN, K. W., 1991), (VAN RAAN, A. F. J. y TIJSSEN, R. J. W., 1993) y (LEYDESDORFF, L., 1994). Los estudios híbridos de MDS con otras técnicas son muy usuales: con dendrogramas (MCCAIN, K. W., 1995) y con análisis factorial (MCCAIN, K. W., 1990). Un modelo Loglineal/MDS es desarrollado por (EVERETT, J. E. y PECOTICH, A., 1991). Con tan solo análisis factorial tenemos por ejemplo el trabajo de (LENK, P., 1983).

Índice

Referencias:

Bayer, A. E., Smart, J. C., & McLaughlin, G. W. (1990). Mapping intellectual structure of a scientific subfield through author cocitations. Journal of the American Society for Information Science, 41(6), 444-452 .

Bookstein, A., & Podet, E. B. (1986). Predicting graduate library school performance using a probability retrieval model. Library Quaterly, 56, 370-388.

Braam, R. R., Moed, H. F., & Van Raan, A. F. J. (1991a). Mapping of science by combined co-citation and word analysis. I. Structural aspects. Journal of the American Society for Information Science, 42(4), 233-251.

Braam, R. R., Moed, H. F., & Van Raan, A. F. J. (1991b). Mapping of science by combined co-citation and word analysis. II. Dinamical aspects. Journal of the American Society for Information Science, 42(4), 252-266.

Cheney, P. H., & Nelson, R. R. (1988). A tool for measuring and analyzing end user computing abilities. Information Processing & Management, 24, 199-203.

Contreras-Cortés, F. (1984). Clasificación y tipología en Arqueología. El camino hacia la cuantificación. Cuadernos De Prehistoria De La Universidad De Granada, 9, 327-384.

Contreras-Cortés, F., Capel, J., Esquivel, J. A., Molina, F., & De la Torre, F. (1987-1988). Los ajuares cerámicos de la necrópolis argárica de la Cuesta del Negro (Purullena, Granada). Avance al estudio analítico y estadístico. Cuadernos De Prehistoria De La Universidad De Granada, 12-13, 135-155.

Egghe, L., & Rousseau, R. (1990). Introduction to informetrics: quantitative methods in library, documentation and information science. Amsterdam, etc.: Elsevier.

Everett, J. E., & Pecotich, A. (1991). A combined loglinear-MDS model for mapping journals by citation analysis. Journal of the American Society for Information Science, 42(6), 405-413.

Goetschel, R. Jr., & Voxman, W. (1987). Optimal clustering in graphs with weighted edges: a unified approach to the threshold problem. Journal of the American Society for Information Science, 38(1), 13-20.

Korennoi, A. A. (1989). Information co-modelling of a network of research institutions. Scientometrics, 15(1-2), 59-71.

Lenk, P. (1983). Mappings of fields based on nominations. Journal of the American Society for Information Science, 34(2), 115-122 .

Leydesdorff, L. (1994). The generation of aggregated journal-journal citation maps on the basis of the CD-ROM version of the Science Citation Index. Scientometrics, 31(1), 59-84.

Marshakova, I. V. (1981). Citation networs in information science. Scientometrics, 3(1), 13-26.

McCain, K. W. (1986). Cocited author mapping as a valid representation of intellectual structure. Journal of the American Society for Information Science, 37(3), 111-122.

McCain, K. W. (1990). Mapping authors in intellectual space: a tecnical overview. Journal of the American Society for Information Science, 41(6), 433-443.

McCain, K. W. (1991). Mapping economics through then journal literature: an experiment in journal cocitation analysis. Journal of the American Society for Information Science, 42(4), 290-296.

McCain, K. W. (1995). The structure of biotechnology R & D. Scientometrics, 32(2), 153-175.

Rip, A., & Courtial, J. P. (1984). Co-word maps of biotechnology: an example of cognitive scientometrics. Scientometrics, 6(6), 381-400.

Shaw, W. M. Jr. (1985). Critical thresholds in co-citation graphs. Journal of the American Society for Information Science, 36(1), 38-43.

Simeon, V., Momcilovic, B., Kralj, Z., & Grgas, B. (1986). Multivariante stadistical analysis of the bibliographic output from a research institution, in relation to the measures of scientific policy. Scientometrics, 9, 223-230.

Small, H. (1973). Co-citation in the scientific literature: a new measure of the relationship between two documents. Journal of the American Society for Information Science, 24(Julio-agosto), 265-269.

Small, H. (1986). The synthesis of specialty narratives from co-citations clusters. Journal of the American Society for Information Science, 37(3), 97-110.

Small, H., & Garfield, E. (1985). The geography of science: disciplinary and national mappings. Journal of Information Science, 11, 147-159.

Small, H., & Sweeney, E. ( 1985). Clustering the Science Citation Index using co-citations. I. A comparison of methods. Scientometrics, 7(3-6), 391-409.

Small, H., Sweeney, E., & Greenlee, E. (1985). Clustering the Science Citation Index using co-citations. II. Mapping science. Scientometrics, 8(5-6),  321-340.

Tijssen, R. J. W., De Leeuw, J., & Van Raan, A. F. J. (1987). Quasi-correspondence analysis on scientometric transaction matrices. Scientometrics, 11(5-6), 351-366.

Tijssen, R. J. W., Van Raan, A. F. J., Heiser, W. J., & Wachmann, L. (1990). Integrating multiple sources of information in literature-based maps of science. Journal of Information Science, 16, 217-227.

Todorov, R., & Winterhager, M. (1990). Mapping Australian geophysics: a co-heading analysis. Scientometrics, 19(1-2), 35-56.

Van Raan, A. F. J., & Tijssen, R. J. W. (1993). The neural net of neural network research: an exercise in bibliometric mapping. Scientometrics, 26(1), 169-192.

White, H. D. (1983). A cocitation map of the social indicators movement. Journal of the American Society for Information Science, 34(5), 307-312.

Índice