MICROCONCORD

MICROCONCORD

MICROCONCORD. Oxford University Press.

MicroConcord

The manual

Corpus Collection A: Newspaper texts

Corpus Collection B: Academic texts

Luis Quereda Rodríguez-Navarro

Unas breves líneas para dar la bienvenida a esta obra de Oxford University Press que estamos convencidos va a ser de gran utilidad tanto para aquellas personas que se dedican a la investigación de la lengua inglesa como para aquellas que se ocupan de su enseñanza. Y decimos breves ya que esta reseña se ha hecho en base a una versión reducida y limitada que la Oxford University Press ha lanzado para su difusión. Esperamos poder dar más información sobre esta importante obra cuando dispongamos de ella en su totalidad.

La obra consta de cuatro componentes: dos colecciones de textos mecanizados para ser usados en cualquier ordenador personal compatible, un programa de análisis léxico (programa de concordancias) para extraer información diversa de dichos corpus y un manual que ofrece no sólo las instrucciones necesarias para utilizar correctamente el programa de análisis léxico sino también interesantes sugerencias para el posible uso de esta obra en la enseñanza de lenguas en general y en la enseñanza de inglés en particular.

Para poder analizar mejor esta obra, la vamos a dividir en dos partes distintas, aunque, como veremos, ambas no pueden concebirse una sin otra. Por una parte, analizaremos las dos colecciones de corpus, y por otra, el programa de análisis de textos propiamente dicho (el MicroConcord) y su manual.

Las colecciones de corpus

Actualmente existen bastantes colecciones de textos informatizados (machine-readable corpora) en lengua inglesa que pueden ser utilizados para el estudio de la lengua inglesa. Entre estos, los más conocidos son el SEC (Spoken English Corpus) (realizado en Lancaster, de 50.000 palabras), el Louvain Corpus of modern English drama (de 1.300.000 palabras), el Brown Corpus of present day AmE (1.000.000 de palabras de inglés americano dirigido por Francis), el LOB (Lancaster, Oslo & Bergen) Corpus (1.000.000 de palabras, dirigido por G. Leech), el London-Lund Corpus of spoken English (500.000 palabras, dirigido por R. Quirk), el T.O.S.C.A. (de 1.500.000 palabras de diferentes variedades del inglés realizado en Njmegen) y el Birmingham Collection of English Texts (de 40.000.000 de palabras, base del Cobuild Dictionary dirigido por J. Sinclair), y el I.C.E. (International Corpus of English), dirigido por Jan Svartvik, actualmente en desarrollo, y que va a constar de 12 colecciones de textos de 1.000.000 de palabras, cada uno representativo del inglés usado en países como India, Africa, Nueva Zelanda, Australia, etc. Sin embargo, la accesibilidad a dichos corpus no es siempre fácil.

Es por esto por lo que el que dispongamos de nuevas colecciones de textos es siempre una buena noticia. No se debe olvidar que todo corpus es una ejemplificación de la lengua tal como es, sin las idealizaciones que los libros de texto, los diccionarios y las gramáticas conllevan, y, por tanto, debe ser necesariamente la fuente directa a consultar por estudiosos y enseñantes de la lengua.

Las dos colecciones que nos ofrece Oxford University Press están dedicadas a dos registros específicos del inglés. La primera (Corpus Collection A) está dedicada al inglés periodístico y consta de 5 corpus de 200.000 palabras, cada uno de ellos referente a una sección distinta de la organización natural de un periódico (noticias nacionales, noticias internacionales, economía, cultura, y deportes). La segunda (Corpus Collection B) consta de 5 corpus de inglés académico, distribuidos en las siguientes áreas: físicas y biología, medicina y psicología, historia y derecho, filosofía y letras, y religión).

Aunque se trata de dos colecciones de inglés para fines específicos es probable que sea la primera colección de ejemplos, por su propio carácter, la más interesante tanto para el profesor de inglés como para el estudioso de la lengua. Sin embargo, en la versión de demostración, que consta de un pequeño corpus de alrededor de 68.000 palabras, no hay ninguna muestra de la misma, por lo que no podemos dar ninguna información sobre ella. La versión de demostración consta de tres textos de la segunda colección. El primero de ellos referente al área de filosofía y letras (algunos capítulos del libro de Spiro Kostof (ed), The architect), el segundo al de medicina (algunos capítulos de la obra de J.M. Waterhouse, D.S. Minors y M.E. Waterhouse Your body clock: How to live with it, not against it), y el tercero al de físicas (algunos capítulos de la obra de J.B. Griffiths Colliding plane waves in general relativity). Puesto que la obra de Kostof es una publicación americana (hecho que se delata en el reiterado uso de formas ortográficas como favor, behavior, labor, modeling, color, center, etc.) y las otras dos son publicaciones británicas, parece que hay un intento de representar en la colección distintas variedades dialectales del inglés, o al menos, las dos más representativas. Evidentemente se trata de textos de carácter muy técnico, por lo que esta colección es útil fundamentalmente para estudiosos de la lengua y para enseñantes de estos registros de inglés. El vocabulario es bastante especializado. Baste esta muestra como ejemplo:

The architect: The equisse system, our handling of poché and the mosaic treatment of plans, the premiated projects were stone-faced, the fuzzy mélange of ideas, etc.

Your body clock: bladder‑emptying and body temperature, ultradian rhythms, the post‑lunch dip, frequent bursts of hormone release, a monthly cycle of oestrogens and progesterone, concentrations of the hormones melatonin and cortisol in the blood, the integration of biological and environmental rhythms, etc.

Colliding plane waves: The electromagnetic Gowdy cosmologies, the context of colliding shock electromagnetic waves, other type D electrovac solutions, incomplete geodesics or incomplete curves of bounded acceleration, the metric is asymptotic to an inhomogeneous Kasner solution, the curvature tensor, non‑scalar curvature singularities, a scalar polynomial curvature singularity, three conserved momentum components, etc.

El nivel de inglés necesario para la comprensión de estos textos es un nivel avanzado, como puede verse en estos tres párrafos elegidos al azar:

Its character was and remains distinctly urban and its students a more polyglot mix, more closely representing what one would expect in the urban centers of the East, than was characteristic of deep Ivy League schools such as Princeton or Yale. (The architect).

We live in a rhythmic world. From early childhood we are all aware of the annual cycle of the season and its effect on nature, from the general sense of dormancy in the winter to the burst of light, warmth, colour, and activity in summer. (Your body clock).

In colliding plane wave problems, what is essentially a coordinate singularity for a single wave is transformed into a fold singularity prior to the collision by the presence of curvature singularities at the points ... (Colliding plane waves).

Los textos están ordenados por párrafos, con la distinción entre párrafos del texto <p>, citas de otros textos <qt>, y títulos <hd>.

El hardware requerido para el almacenamiento de estos corpus así como del programa de MicroConcord es el de un ordenador personal compatible que disponga al menos de 640k de memoria RAM y de un disco duro de 40 MB, aunque cuanto más memoria RAM y más MB mejor, ya que esto nos permitirá no sólo manipular más información al mismo tiempo, sino también poder almacenar tanto las concordancias que vayamos realizando como nuevas colecciones de textos. La colección de textos de la versión de demostración (las 68.000 palabras) ocupa 410.264 bytes y el programa analizador de textos (el MicroConcord) 150.121 bytes.

En la propaganda del MicroConcord, la Oxford University Press anuncia la publicación de nuevas colecciones (corpus de inglés escrito y de inglés hablado, de inglés británico y de inglés americano, de inglés estandard y de inglés económico). Si es verdad que estas dos colecciones son sólo el principio de una larga serie, tendremos que volver a felicitarnos, ya que no nos cabe la menor duda de que los corpus de ejemplos son la mejor fuente de información lingüística de la que podemos disponer en la actualidad.

El manual

No conocemos directamente el manual que acompaña al programa, pero podemos adelantar que éste se divide en dos tipos de información claramente delimitados; una parte del mismo está dedicada, naturalmente, a la explicación del funcionamiento del programa y al análisis de sus posibilidades. En una segunda parte, quizá la más importante y novedosa para nosotros, se analizan las posibilidades metodológicas de las concordancias léxicas en el aprendizaje y enseñanza de lenguas, y se nos proporciona información precisa e ideas altamente sugestivas para que podamos elaborar con cierta facilidad una gran cantidad de ejercicios así como una gran variedad de pruebas que, sin duda, pueden ser de gran ayuda tanto a nosotros como profesores como a nuestros propios estudiantes.

El MicroConcord

En la actualidad existen varios programas informáticos para la explotación y análisis de textos por ordenador. Quizás los dos más conocidos son el Micro-OCP (Oxford Concordance Program, de Hockey & Marriot, 1979) de la misma Oxford University Press, programa que sustituyó al antiguo COCOA (Berry-Rogghe, 1973) en los ochenta y el Wordcruncher. Sin embargo, mientras estos programas están pensados más bien para la investigación, el MicroConcord, además de las funciones de búsqueda léxica que estos programas realizan, dispone de otras posibilidades que van específicamente dirigidas para su uso en la enseñanza.

Pero )qué es el MicroConcord y cuáles son sus funciones y características más importantes? El MicroConcord es inicialmente un programa de concordancias que permite buscar en textos de gran cantidad de palabras ejemplos de una palabra o de combinaciones de varias palabras en un espacio de tiempo muy breve. Las posibilidades de búsqueda léxica del MicroConcord son casi ilimitadas. Podemos buscar una palabra (kick), todas las formas gramaticales de una palabra (kick/kicked/kicking/kicks), varias palabras distintas a la vez (eye/leg/arm/head), combinaciones de palabras (kick off), una palabra en un contexto determinado (play con el significado de 'tocar', ya que se puede buscar la palabra play en el contexto de palabras como violin, piano, trumpet, etc.). Se pueden buscar cualquier tipo de afijos, ya que el programa dispone de dos símbolos, el asterísco (*) que representa cualquier número de letras entre un espacio en blanco y la interrogación (?), que representa cualquier letra, aunque sólo una. Estas dos opciones abre un abanico de posibilidades inmenso. Por ejemplo la búsqueda de book* nos proporcionará ejemplos como book, bookable, bookcase, booked, bookie, booking, etc. La búsqueda de *book, por el contrario, nos dará palabras como book, notebook, order‑book, textbook, etc. y consecuentemente la búsqueda de *book* nos dará no sólo book, bookable, bookcase, booked, bookie, booking, etc. sino también notebook, order‑book, textbook, etc. La búsqueda de ha**ed nos ofrece todos los perfectos regulares, tanto en presente como en pasado, que existan en el texto (have/had studied/worked/played, etc.). La búsqueda de co*ct nos da palabras como collect, conduct, conflict, construct, contact, contract, convict, correct, etc. Por el contrario, si la búsqueda es del tipo ?ough lo que obtendremos serán aquellas palabras que están formadas por cualquier letra + ough, como por ejemplo bough, cough, rough, tough, etc.

Las búsquedas realizadas se nos presentan en lo que normalmente se conoce como a KWIC (Key Word in Context) concordance. Una concordancia de una palabra es una lista o índice de todos los ejemplos que de esa palabra existen en un texto (o en un grupo de textos) determinado(s). Una Kwic concordance es aquella que se nos da una sola línea en la que la palabra buscada aparece destacada en el centro y con aproximadamente ocho palabras a la derecha y otras ocho a la izquierda del contexto en el que aparecen. Para una primera aproximación para ver el uso de la palabra en cuestión, este contexto suele ser suficiente. Pero en el caso de que no sea así, el programa nos proporciona dos opciones diferentes: se puede avanzar dos o tres palabras más a la derecha o retroceder otras tantas a la izquierda. Si esto todavía no es suficiente, hay una segunda opción, que es ver todo el texto en donde aparece la palabra en cuestión. Así pues, el programa es bastante versátil en este sentido.

La versatilidad del programa se demuestra también en las posibilidades de movimiento dentro y fuera de las concordancias obtenidas. En este sentido, uno se puede mover fácilmente a través de todas los concordancia, casi con la misma facilidad que nos movemos dentro de un texto en cualquier procesador de textos. Podemos ir viendo una a una, o ir de página en página, o irse al principio o al final del documento sin mayor problema. De la misma manera, se pueden también borrar aquellos ejemplos que no nos interesen, guardar en un documento aparte los que nos parezcan más oportunos e incluso clasificarlos según distintos criterios (como, por ejemplo, según la categoría de la palabra - nombre o verbo -, según la dificultad del ejemplo - muy fácil, fácil, regular, difícil, muy difícil -, etc.).

El número de concordancias que podemos obtener en una búsqueda dependerá de la potencia tanto de nuestro ordenador como de nuestro software, pero normalmente el número oscila entre 1.200 y 1.600 concordancias distintas. El programa se puede limitar a un número específico de concordancias. Si creemos que con 25 ejemplos tendremos suficiente, se puede programar para que nos de sólo los primeros veinticinco ejemplos que encuentre. Además, siempre se puede parar la búsqueda cuando pensamos que el número de ejemplos encontrados sea suficiente.

Una vez obtenidas las concordancias, las posibilidades del MicroConcord son numerosas, aunque aquí por cuestiones de espacio nos vamos a centrar en las más importantes.

Para poder estudiar las concordancias mejor, éstas se pueden ordenar y clasificar de varias maneras. El MicroConcord nos ofrece dos criterios para ordenar la palabra buscada: una opción prioritaria y otra secundaria. Estas opciones nos permiten ordenar la palabra buscada teniendo en cuenta o bien las palabras que aparecen a la derecha (10, 20 o 30 palabra a la derecha) o las que aparecen a la izquierda (10, 20 o 30 palabra a la izquierda). La información que estas ordenaciones nos ofrecen son verdaderamente interesantes, ya que la información lingüística que se puede obtener varía según ordenemos las palabras de una manera u otra. Por ejemplo, si buscamos un substantivo cualquiera y lo ordenamos según la 10 palabra que aparece a la derecha, obtendremos las distintas preposiciones que rige, pero si lo ordenamos según la palabra que aparece a la izquierda, podremos ver los sustantivos (10 a la izquierda), adjetivos (10 o 20 a la izquierda) y determinantes (10, 20 o 30 a la izquierda) que se combinan más frecuentemente con la palabra en cuestión. Evidentemente esto nos lleva a todo el problema léxico de las collocations. Las posibilidades del programa en relación con este aspecto son importantísimas, ya que simplemente con pulsar una tecla (C), obtenemos una lista de las palabras que aparecen más frecuentemente con la palabra buscada. Esta función es de gran interés no sólo para el estudioso de la lengua sino también para el profesor de lenguas, ya que permite el estudio de las palabras en su contexto más apropiado y pone de manifiesto las distintas relaciones léxicas y gramaticales de una palabra determinada con aquellas con las que más frecuentemente aparece.

Esta función se puede combinar con otra de gran aplicación en la enseñanza. El MicroConcord puede borrar la palabra buscada y sustituirla por diez espacios en blanco. Esta función nos permite elaborar una gran cantidad de ejercicios en un espacio brevísimo de tiempo. Podemos, por ejemplo, eliminar todas las preposiciones de un texto para que luego el alumno las intente reproducir. También se pueden hacer ejercicios léxicos en el que se comparen palabras de difícil uso, como, por ejemplo, contrastes entre lend y borrow, steal y rob, o some y any.

La información obtenida se puede o bien imprimir directamente o bien se puede llevar a cualquier procesador de textos (WordPerfect, etc.). La posibilidad de poder llevar toda la información que nos ofrece el MicroConcord a un procesador de textos es muy importante, ya que esto nos permite manipular los ejemplos obtenidos de acuerdo con nuestros intereses particulares. Una vez en el procesador de textos, podremos simplificar los ejemplos, cambiar las palabras que queramos, darle el formato que más nos interese, y por supuesto, almacenar la información en ficheros específicos.

Digamos por último que el MicroConcord puede usarse con cualquier tipo de textos y con otras lenguas además de la lengua inglesa, ya que dispone de la posibilidad de reproducir toda clase de acentos y de caracteres. La única condición es que el texto tiene que estar procesado en formato ASCII. Esto sin embargo no es problema, ya que hoy en día todos los procesadores de textos llevan esta función (en el WordPerfect, por ejemplo, la conversión se hace usando Ctrl + F5, y luego 1). Esta posibilidad es muy importante, ya que nos permite no sólo poder operar con cualquier corpus de ejemplos que podamos adquirir sino lo que es más importante nos permite crear nuestros propios corpus, corpus que probablemente cubran más directamente nuestras necesidades específicas.

Queda claro que la obra que nos presenta Oxford University Press es de gran utilidad para todos los que estamos de alguna manera u otra interesados en el aprendizaje y la enseñanzas de lenguas y lo único que podemos desear es que este tipo de publicaciones proliferen mucho más, para que las posibilidades de material disponible sean más amplias del que actualmente tenemos.