Matriz de ocurrencias. Matriz de asociaciones

Proyecto Docente "Software Específico para Bibliometría, Evaluación de la Ciencia y Vigilancia Tecnológica"	Redes ²⁰⁰⁵	Análisis de Redes Tecnocientíficas

Matriz de ocurrencias. Matriz de asociaciones

El método de las palabras asociadas considera que el contenido de un documento viene definido por sus descriptores o palabras clave. Se parte, por tanto, de una matriz de datos "documentos x palabras clave", denominada matriz de ocurrencias, que representaría el contenido conceptual del campo científico en estudio (COURTIAL, J. P. y MICHELET, B., 1990).

La lista de palabras clave puede ser muy extensa, del orden de varios miles, por lo que las dimensiones de esta matriz de ocurrencias son extraordinarias. Si partimos de, por ejemplo, una base de datos con 10.000 documentos y manejamos un vocabulario de 5.000 palabras, el número de elementos que contendrá será de 50 millones (10.000 x 5.000) La ecuación 1 representa una matriz de ocurrencias constituida por 3000 documentos y 1000 descriptores. El número de celdillas es de 3000 x 1000, que se completará con ceros y unos. Cuando un documento "i" contiene la palabra clave "j" en la celdilla "i,j" colocamos un 1 y en caso contrario se coloca un 0. Debido a que los documentos se indizan con muy pocas palabras clave, normalmente nunca más de 10 ó 15, la matriz de ocurrencias apenas si tiene celdillas ocupadas con unos. El número de veces que una palabra clave "i" aparece u ocurre se denota por C_i.

Ecuación 1

Según la ley de Zipf , la frecuencia de aparición de palabras en un texto es muy baja en la mayoría de los casos, por lo que la mayor parte de los descriptores serán poco abundantes y pueden ser despreciados. Por esta razón, LEXIMAPPE sólo reconoce como máximo hasta las primeras 1.500 palabras más frecuentes, siendo lo más usual utilizar unas 700.

Decimos que dos palabras co-ocurren cuando aparecen simultáneamente en el mismo documento. Dos palabras estarán más ligadas o asociadas entre sí cuanto mayor sea la co-ocurrencia entre ellas. Por tanto, la medida del enlace entre dos palabras de una red será proporcional a la co-ocurrencia de esas dos palabras en el conjunto de documentos que se tome como muestra.

Ecuación 2

La matriz de asociaciones, de co-ocurrencias o de "palabras clave x palabras clave" es una matriz de adyacencia cuadrada simétrica. Cada elemento representa la asociación entre los descriptores. En la celdilla C_ij colocamos el número de documentos en los que la palabra "i" y la palabra "j" aparecen simultáneamente.

Como observamos en la Ecuación 2, C_ij es igual a 20, lo que significa que las palabras "i" y "j" aparecen juntas en un total de 20 documentos.

En teoría, a partir de esta matriz de adyacencia podríamos reconstruir completamente la red ciencimétrica que genera el campo científico en estudio; pero en la práctica no es conveniente, ya que los valores de las co-ocurrencias, tal cual, dependen del tamaño de la muestra. Bajo estas circunstancias, los estudios de comparación de redes descritas por diferente número de documentos, serían incorrectos. Es por tanto conveniente recurrir a la normalización de los valores de las co-ocurrencias.

Referencias:

Courtial, J. P., & Michelet, B. (1990). A mathematical model of development in a research field. Scientometrics, 19(1-2), 127-141.

Índice