COMO CONSULTAR EFICAZMENTE UNA BASE DE DATOS BIBLIOGRÁFICA. EL MÉTODO DE LAS PALABRAS ASOCIADAS

Rosario Ruiz-Baños* y Francisco Contreras-Cortés**

*Departamento de Biblioteconomía y Documentación

**Departamento de Prehistoria y Arqueología.

Universidad de Granada.

 

PALABRAS CLAVE:

Base de datos bibliográfica, Recuperación de la información, Método de las palabras asociadas, Centro de interés, Diagrama estratégico, Arqueología, Francis.

RESUMEN

La consulta de las bases de datos bibliográficas conduce en muchos casos a acciones fallidas, bien por un exceso de registros recuperados o bien por la ausencia de ellos. En cualquier caso, siempre queda la duda de que la interrogación que se haya utilizado sea la más adecuada. Se propone el método de las palabras asociadas para construir interrogaciones eficaces y flexibles que satisfagan en cada situación las necesidades del usuario. El análisis de palabras asociadas es capaz de construir una red de conceptos a partir de la información textual contenida en cualquier base de datos. La red presenta ciertas zonas de mayor densidad informativa llamadas centros de interés y que pueden ser visualizadas sobre el denominado diagrama estratégico. Partiendo de un diagrama estratégico general y eligiendo un centro de interés básico, se construye una nueva sub-red con centros de interés más específicos. Repitiendo varias veces este proceso de profundización es posible recuperar los documentos más cercanos a nuestras necesidades. Aunque en este trabajo hemos usado como ejemplo los documentos de Arqueología de la base de datos Francis, esta técnica que se propone es aplicable a cualquier base de datos bibliográfica.

1.- INTRODUCCIÓN

Las nuevas tecnologías están revolucionando el acceso a la información científica. Continuamente se incrementa tanto el número de bases de datos disponibles como su contenido. Los nuevos medios de almacenamiento masivo, cuyo mejor exponente es el CD-ROM, multiplican las posibilidades de consulta, ofreciendo al estudioso y al investigador unos horizontes hasta hace pocos años insospechados.

Los medios informativos se han incrementado pero la capacidad humana de leer la información recibida, analizarla, relacionarla, discutirla, etc... se mantiene básicamente constante. Un investigador, cuando elabora un trabajo científico, solo puede normalmente manejar algunas decenas o incluso cientos de documentos. En cambio y gracias a esta nuevas tecnologías, es posible disponer de más información de la que se pueda tratar. Por ello es necesario recurrir a medios que filtren este exceso, tomando en consideración sólo aquella información de interés para el usuario, aquella que cumpla sus necesidades y que no le atosigue o le desvíe excesivamente de sus intereses.

En muchas ocasiones, cuando se dispone de tantos datos, la cuestión radica en saber realmente por dónde empezar, por dónde terminar y delimitar con claridad qué estoy buscando.

Estos nuevos problemas añadidos, procedentes de la consulta de las bases de datos, pueden ser solventados o al menos paliados con la aplicación del método de las palabras asociadas. En este trabajo propondremos una estrategia basada en este método que puede ayudar al usuario a recibir la información, y solo aquella, que mejor se ajuste a sus intereses.

2.- PROBLEMAS DE CONSULTA EN BASES DE DATOS BIBLIOGRÁFICAS

a) ¿Qué es lo que estoy buscando?

La primera cuestión que se nos plantea es saber qué es lo que se desea consultar en la base de datos. Podemos encontrarnos con dos posibilidades. La primera de ellas es, lógicamente, que realmente sepamos con precisión lo que queremos y además podemos expresarlo con palabras. En estos casos la interrogación más adecuada utilizará unitérminos o bien expresiones booleanas o de proximidad. Por ejemplo, deseamos saber qué artículos ha publicado el autor GARCÍA LÓPEZ en los años 1980, 1981 y 1982. La consulta booleana que nos llevará con toda seguridad a la respuesta adecuada sería del tipo:

Autor ="GARCÍA LÓPEZ" AND (Fecha="1980" OR Fecha="1981" OR Fecha="1982")

La segunda posibilidad es que no sepamos con exactitud lo que buscamos o no sepamos expresarlo con palabras. Una solución posible es recurrir al hojeo de los registros, bien de forma lineal (uno tras otro) o bien de forma multidireccional (hipertexto).

b) ¿El álgebra de Boole me resuelve siempre el problema?

Las técnicas de recuperación de información utilizadas en la actualidad están basadas normalmente en la denominada indización binaria, donde los términos de indización están o no están en el documento. Las operaciones realizadas con los términos de indización en el proceso de recuperación son las operaciones de conjuntos del álgebra de Boole. Estos operadores booleanos no resuelven totalmente el problema de la recuperación de la información ya que presentan una serie de dificultades [MOYA-ANEGÓN, 1995]:

- Es difícil aprender el uso de los operadores booleanos: AND, OR, NOT, sobre todo cuando las interrogaciones son complejas.

- Muchas necesidades de información no pueden expresarse como combinaciones de operadores booleanos.

- El operador AND es demasiado estricto y puede excluir documentos de interés.

- El operador OR puede llevar a recuperar demasiados documentos, y de ellos la mayoría poco interesantes.

- Los documentos recuperados no se ordenan según su relevancia, cuando en la realidad no son todos de igual valor.

- Imposibilidad de usar la información recuperada para rehacer las operaciones de búsqueda, ya que no existe realimentación.

En la práctica se sabe que el 50 % de las consultas suelen ser fallidas, no recuperándose ningún documento. En otros casos, sobre todo con bases de datos muy grandes, el resultado es un exceso de información que no es posible tratar.

c) ¿El hojeo de los registros nos ofrece la mejor respuesta?

Ante los problemas planteados por el álgebra de Boole existe la posibilidad de recuperar la información mediante el "hojeo" de los ficheros. Este tipo de búsqueda plantea los siguientes problemas:

- Las búsquedas son muy lentas con una pérdida de tiempo a veces considerable, sobre todo si es lineal, registro a registro.

- Se corre el peligro, si la búsqueda es multidireccional, de perderse y alejarse de nuestro interés o incluso de volver al punto de partida y entrar en un círculo vicioso sin solución.

d) ¿Existen otras técnicas alternativas?

Aparte de la extendidísima álgebra de Boole o del recurrido hojeo, se disponen de otras técnicas de naturaleza muy diversa [BELKIN et al., 1987]. Podremos citar entre ellas las probabilísticas, las basadas en similitudes en un espacio vectorial, la de conjuntos difusos, las de agrupaciones, etcétera. Lo que sí parece claro es que ninguna de ellas es de por sí perfecta, presentando ventajas e inconvenientes. Se pueden, por tanto, proponer técnicas híbridas que intenten aprovechar lo mejor de cada una de ellas e intentar reducir al mínimo las desventajas.

El método de las palabras asociadas, aplicado corrientemente al análisis de campos científicos y a la toma de decisiones en políticas investigadoras, puede ser una herramienta útil en la recuperación de la información.

3.- MÉTODO DE LAS PALABRAS ASOCIADAS

El método de las palabras asociadas es una herramienta ciencimétrica desarrollada en el Centre de Sociologie de l'Innovation (CSI) de l'Ecole Nationale Superieur de Mines de París y en el Institut de l'Information Scientific et Technique del CNRS [CALLON et al., 1991]. Este método visualiza la estructura de las redes científicas, según la teoría actor-red que concibe la ciencia como una red que entreteje intereses entre actores. Un actor es cualquier ente que participa en esta red y es capaz de generar nuevas redes. Por ejemplo, un investigador que publica sus resultados, el centro de investigación donde se adscribe, un artículo científico, un aparato de medida, una línea de investigación, un concepto, etc. Todos estos actores pueden definirse mediante palabras. Por ejemplo, un investigador se define por lo que escribe o un artículo es representable por un conjunto de descriptores o palabras clave.

El método de las palabras asociadas es capaz de calcular los parámetros que nos permitan estudiar el comportamiento de cada uno de los actores, tanto en su aspecto puramente estructural como en su aspecto evolutivo o dinámico. El CSI ha diseñado una serie de programas informáticos que utilizan este método y que se denominan Leximappe. Leximappe se aplica a todo tipo de documentos indizados mediante palabras clave y en especial a los artículos científicos y técnicos, patentes, etc. De forma más general es aplicable a cualquier documento textual, siempre y cuando se haga una indización automática o semiautomática previa, mediante un programa adecuado, tal como Lexinet. Leximappe admite que el contenido de un documento viene definido por sus descriptores. Se parte, por tanto, de una matriz de datos de "documentos x palabras clave", denominada matriz de ocurrencias.

Decimos que dos palabras co-ocurren cuando aparecen simultáneamente en el mismo documento. Dos palabras estarán más ligadas o asociadas entre sí cuanto mayor sea la co-ocurrencia entre ellas. Por tanto la medida del enlace entre dos palabras de una red será proporcional a la co-ocurrencia de esas dos palabras en el conjunto de documentos que se tome como muestra.

Se utiliza el índice de equivalencia o de asociación:

donde Cij es el número de documentos en que las palabras i y j aparecen simultáneamente, Ci los documentos con la palabra i y Cj los documentos con la palabra j.

El método es capaz de dividir la red de palabras en sub-redes o temas. Cada una de estas sub-redes representa un centro de interés, es decir, zonas de la red muy enlazadas y consistentes, asimilables a "puntos calientes" o "polos de atracción" de gran intensidad informativa. Representan a los actores temáticos más relevantes, de más significado en el paradigma de la investigación en el período en estudio. Si algo es realmente importante, aparece como centro de interés; si su importancia es pequeña o está difuminada, no se manifiesta. En numerosas ocasiones, al utilizar Leximappe nos aparecen centros de interés sorprendentes, en el sentido de no ser esperados previamente, de pensar que "aquello" no tenía tanto peso. Luego, un examen más detenido de los documentos asociados a estos centros nos indica a las claras la enorme importancia de ellos y que pasaban desapercibidos. En otras ocasiones, no aparecen centros de interés que pensábamos "tenían" que aparecer. De nuevo el método de las palabras asociadas destruye nuestros prejuicios: lo que creíamos como interesante, en el período temporal en estudio ya no lo es y si lo fue años atrás, ya no lo es tanto.

Cada centro de interés viene definido por palabras, aquellas que nos podrán recuperar de forma más óptima los documentos que se asocian a él. Esto es muy importante, ya que nos evita hacer una interrogación a priori equivocada. En definitiva, cada centro de interés tiene asociado el conjunto de documentos más representativo y puede ser identificado con los descriptores óptimos.

Cada centro de interés o tema se describe por dos parámetros cuantitativos: densidad y centralidad.

La densidad o índice de cohesión interna es la intensidad de las asociaciones internas de un tema y representa el grado de desarrollo que posee.

La centralidad o índice de cohesión externa es la suma de los índices de equivalencia de todos los enlaces externos que posee el tema con otros.

Si representamos en un diagrama cartesiano en el eje de abscisas la centralidad y en el eje de ordenadas la densidad, obtenemos lo que se denomina diagrama estratégico. Los cuatro cuadrantes de que consta nos definen las cualidades de los centros de interés contenidos en ellos.

En la figura 1 se muestra el diagrama estratégico de los documentos que recoge la base de datos Francis sobre Arqueología en el período 1989-1991 [RUIZ-BAÑOS, 1997]. En él aparecen los temas o centros de interés que regulan el paradigma de investigación en estos años.

Concretamente, en el cuadrante arriba a la derecha, con centralidad y densidad elevadas, se encuentran los temas de investigación mejor desarrollados internamente y de mejor conexión externa. Podríamos decir que representan el "motor" de la investigación arqueológica en los años 1989 a 1991. Citemos por ejemplo "China", "Epigrafía", "Comercio", "Pintura", "Islam", etcétera.

Los temas del cuadrante abajo a la derecha, muestran un menor desarrollo interno (baja densidad), pero sí muy buenas relaciones conceptuales externas (alta centralidad). Normalmente en este cuadrante suelen aparecer los centros de interés más generales (por ejemplo "Historia"), o aquellos que generan categorías, relaciones, etcétera, como "Tipología". El tema "Mesopotamia" aparece aquí debido a que se encuentra en un período transitorio de baja definición interna. Tenemos constancia de que en otros períodos de tiempo aparece en el cuadrante arriba a la derecha de temas motores.

En el cuadrante de la izquierda arriba se sitúan los temas muy desarrollados, muy consistentes, pero alejados del centro de la red. En muchas ocasiones terminan en este cuadrante aquellos temas que durante mucho tiempo fueron motores y que ahora presentan un proceso de aislamiento (como "Italia-Roma") o que por sus características propias no tienen tendencia a presentar similitudes fuertes con otros ("Maya" por ejemplo).

Finalmente, en el cuadrante abajo a la izquierda, se sitúan los centros de interés de menor densidad y menor centralidad, lo que supone una marginalidad y una indefinición importantes.

4.- APLICACIÓN DEL MÉTODO DE LAS PALABRAS ASOCIADAS A LA RECUPERACIÓN DE DOCUMENTOS BIBLIOGRÁFICOS

Una vez presentado someramente el método de las palabras asociadas, vamos a proponerlo como instrumento para la recuperación de información. Para ello vamos a mostrar un ejemplo práctico, sacado de la base de datos Francis, de la sección Arqueología durante el período 1989-1991. El procedimiento de consulta es como sigue:

PASO 1:

Se somete el conjunto de documentos a un tratamiento con el método de las palabras asociadas y se obtiene el diagrama estratégico general de la Arqueología. El resultado es el que ya hemos mostrado anteriormente en la figura 1. El diagrama nos propone un conjunto de centros de interés de carácter general, entre los que con casi toda seguridad estará la idea más básica de lo que buscamos. Si no apareciera es porque concurren alguna de estas circunstancias:

a) No existe el tema o concepto que buscamos. Al menos en el periodo considerado.

b) Nuestra idea mental de lo deseado es demasiado específica. Deberemos, por tanto, pensar en qué área genérica se encuadra. Para ayudarnos en esta tarea, sobre todo si tenemos dudas, vamos viendo la estructura de cada uno de los temas propuestos. En el ejemplo de la figura 1 se ha elegido el centro de interés "Islam" que consta de 10 descriptores entrelazados, tal como se muestran en el dibujo. Su estructura nos ayuda a saber si corresponde a nuestras necesidades de información.

El método nos propone ahora un conjunto de 506 documentos que contienen al menos uno de los enlaces del tema "Islam".

PASO 2:

Como el número de documentos recuperado es muy elevado y poco manejable, podemos realizar un nuevo tratamiento con palabras asociadas y obtener el diagrama estratégico más específico de Islam. El resultado es el que se muestra en la figura 2. Se comprueba que en general los nuevos sub-temas o centros de interés más específicos se situan básicamente sobre la diagonal principal. Esto indica una sub-red constituida por varios núcleos temáticos muy bien construidos y que forman la estructura fundamental de Islam (situados en el cuadrante arriba a la derecha) y otros relacionados de alguna manera con Islam pero marginales (cuadrante izquierda y abajo).

PASO 3:

De entre los nuevos centros de interés más específicos encontrados, alguno de ellos podrá ajustarse a nuestras necesidades. Si no apareciera el deseado es porque en realidad no existe lo que buscamos en este periodo de tiempo, ya que el nivel de especificidad que tenemos es suficiente. Supongamos que nos interesa el tema "Hidráulico". Su estructura es la que se muestra en la figura 2, y que consta de los términos "Hidráulico", "Jardín", "Cisterna" y "Barrera". Los documentos recuperados para este tema son 10, un número pequeño y muy manejable.

PASO 4:

Podemos hacer un mapa resumen del contenido de estos últimos documentos aplicando de nuevo el método de las palabras asociadas. El diagrama estratégico ya no es capaz de discernir centros de interés más específicos, ya que sólo nos vuelve a generar el tema "Hidráulico". Ahora en este caso, la estructura de "Hidráulico" es diferente (Figura 3), ya que hace una recopilación tanto de sus elementos más fundamentales (Aparece la palabra "Islam" e incluso "Arquitectura"), como otros mucho más específicos como "Jardín", "Barrera" y "Cisterna".

En el diagrama estratégico general de la figura 1, también aparece el tema "Hidráulico", pero de forma genérica, y común a otros centros de interés. No olvidemos que el tema del agua es interesante, además de en el Islam en otras culturas, como por ejemplo la cultura maya, la mesopotámica, etcétera. Si hubiéramos recuperado los documentos de "Hidráulico" del primer diagrama estratégico obtendríamos muchos documentos, la mayor parte de ellos no circunscritos al tema "Islam".

PASO 5:

Como último paso, podemos hacer un hojeo, registro a registro, de los 10 recuperados. El análisis breve de ellos nos podrá indicar cuál o cuáles de ellos nos interesan más.

5.- CONCLUSIONES

Hemos visto cómo el método de las palabras asociadas, corrientemente utilizado para hacer estudios sobre la estructura y dinámica de cualquier campo científico o técnico, o bien como herramienta de ayuda para políticas investigadoras, puede ser utilizado ventajosamente en la consulta de bases de datos bibliográficas y por qué no, en cualquier base de datos textual. Se ha comprobado que muchos de los problemas corrientes en la consulta de las bases de datos se pueden solventar de una manera fácil y cómoda.

No hace falta conocer el álgebra de Boole, por lo que las dificultades en la construcción de una interrogación adecuada desaparecen. La metodología seguida sí la utiliza, pero el usuario no lo percibe ni tiene que preocuparse, ya que la recuperación de los documentos se hace en base a los descriptores óptimos que ofrece el método de las palabras asociadas para cada centro de interés.

El sistema ofrece los centros de interés que realmente existen. Si la búsqueda es finalmente fallida, no nos queda la duda de no haber sabido encontrar lo que queríamos. Simplemente no está.

Otra ventaja que nos ofrece la metodología propuesta es que no hace falta construir ninguna interrogación, ya que sólo hay que elegir entre los centros de interés existentes.

Se puede, además, alcanzar el grado de generalización o de especificidad que se quiera. Tan sólo hay que hacer más o menos diagramas estratégicos sucesivos.

Por último indicar que es posible realizar un hojeo sobre una cantidad de documentos razonable, lo que nos reporta varias ventajas. La primera es la eliminación del exceso de información recuperada y la segunda que el hojeo será sencillo y muy directo, no necesitándose hojeos multidireccionales con los problemas que conlleva.

REFERENCIAS

1.- BELKIN, N.J. y CROFT, W.B. Retrieval Techniques. Annual Review of Information Science and Technology, 1987, vol. 22, p. 109-145.

2.- CALLON, M., COURTIAL, J.P. y LAVILLE, F. Co-Word analysis as a tool for describing the network of interactions between basic and technological research: the case of polymer chemistry. Scientometrics, 1991, vol. 22, nº 1, p. 155-205.

3.-MOYA-ANEGÓN, F. de. Los sitemas integrados de gestión bibliotecaria: Estructuras de datos y recuperación de información. Madrid: ANABAD, 1995. ISBN 84-887116-15-X.

4.- RUIZ-BAÑOS, R. Ciencimetría de redes. Análisis de la investigación internacional sobre Arqueología mediante el método de las palabras asociadas (1980-1993) [Tesis Doctoral], Granada: Universidad, 1997.