|
|
MICROCONCORD. Oxford University Press.
MicroConcord
The manual
Corpus Collection A: Newspaper texts
Corpus Collection B: Academic texts Luis Quereda Rodríguez-Navarro
Unas breves líneas para dar la bienvenida a esta obra de Oxford University Press que estamos convencidos va a
ser de gran utilidad tanto para aquellas personas que se dedican a la
investigación de la lengua inglesa como para aquellas que se ocupan de su enseñanza.
Y decimos breves ya que esta reseña se ha hecho en base a una versión reducida
y limitada que la Oxford University Press ha lanzado para su difusión.
Esperamos poder dar más información sobre esta importante obra cuando
dispongamos de ella en su totalidad.
La obra consta de cuatro componentes: dos colecciones de textos
mecanizados para ser usados en cualquier ordenador personal compatible, un
programa de análisis léxico (programa de concordancias) para extraer información
diversa de dichos corpus y un manual que ofrece no sólo las instrucciones
necesarias para utilizar correctamente el programa de análisis léxico sino
también interesantes sugerencias para el posible uso de esta obra en la enseñanza
de lenguas en general y en la enseñanza de inglés en particular.
Para poder analizar mejor esta obra, la vamos a dividir en dos partes
distintas, aunque, como veremos, ambas no pueden concebirse una sin otra. Por
una parte, analizaremos las dos colecciones de corpus, y por otra, el programa
de análisis de textos propiamente dicho (el MicroConcord) y su manual.
Las colecciones de corpus
Actualmente existen bastantes colecciones de textos informatizados (machine-readable
corpora) en lengua inglesa que pueden ser utilizados para el estudio de la
lengua inglesa. Entre estos, los más conocidos son el SEC (Spoken English
Corpus) (realizado en Lancaster, de 50.000 palabras), el Louvain Corpus
of modern English drama (de 1.300.000 palabras), el Brown Corpus of
present day AmE (1.000.000 de palabras de inglés americano dirigido por
Francis), el LOB (Lancaster, Oslo & Bergen) Corpus (1.000.000
de palabras, dirigido por G. Leech), el London-Lund Corpus of spoken English (500.000
palabras, dirigido por R. Quirk), el T.O.S.C.A. (de 1.500.000 palabras de
diferentes variedades del inglés realizado en Njmegen) y el Birmingham
Collection of English Texts (de 40.000.000 de palabras, base del Cobuild
Dictionary dirigido por J. Sinclair), y el I.C.E. (International
Corpus of English), dirigido por Jan Svartvik, actualmente en desarrollo, y
que va a constar de 12 colecciones de textos de 1.000.000 de palabras, cada uno
representativo del inglés usado en países como India, Africa, Nueva Zelanda,
Australia, etc. Sin embargo, la accesibilidad a dichos corpus no es siempre fácil.
Es por esto por lo que el que dispongamos de nuevas colecciones de textos
es siempre una buena noticia. No se debe olvidar que todo corpus es una
ejemplificación de la lengua tal como es, sin las idealizaciones que los libros
de texto, los diccionarios y las gramáticas conllevan, y, por tanto, debe ser
necesariamente la fuente directa a consultar por estudiosos y enseñantes de la
lengua.
Las dos colecciones que nos ofrece Oxford University Press están
dedicadas a dos registros específicos del inglés. La primera (Corpus
Collection A) está dedicada al inglés periodístico y consta de 5 corpus
de 200.000 palabras, cada uno de ellos referente a una sección distinta de la
organización natural de un periódico (noticias nacionales, noticias
internacionales, economía, cultura, y deportes). La segunda (Corpus
Collection B) consta de 5 corpus de inglés académico, distribuidos en las
siguientes áreas: físicas y biología, medicina y psicología, historia y
derecho, filosofía y letras, y religión).
Aunque se trata de dos colecciones de inglés para fines específicos es
probable que sea la primera colección de ejemplos, por su propio carácter, la
más interesante tanto para el profesor de inglés como para el estudioso de la
lengua. Sin embargo, en la versión de demostración, que consta de un pequeño
corpus de alrededor de 68.000 palabras, no hay ninguna muestra de la misma, por
lo que no podemos dar ninguna información sobre ella. La versión de demostración
consta de tres textos de la segunda colección. El primero de ellos referente al
área de filosofía y letras (algunos capítulos del libro de Spiro Kostof (ed),
The architect), el segundo al de medicina (algunos capítulos de la obra
de J.M. Waterhouse, D.S. Minors y M.E. Waterhouse Your body clock: How to
live with it, not against it), y el tercero al de físicas (algunos capítulos
de la obra de J.B. Griffiths Colliding plane waves in general relativity).
Puesto que la obra de Kostof es una publicación americana (hecho que se delata
en el reiterado uso de formas ortográficas como favor, behavior, labor,
modeling, color, center, etc.) y las otras dos son publicaciones británicas,
parece que hay un intento de representar en la colección distintas variedades
dialectales del inglés, o al menos, las dos más representativas. Evidentemente
se trata de textos de carácter muy técnico, por lo que esta colección es útil
fundamentalmente para estudiosos de la lengua y para enseñantes de estos
registros de inglés. El vocabulario es bastante especializado. Baste esta
muestra como ejemplo: The
architect: The equisse system, our handling of poché and the mosaic treatment
of plans, the premiated projects were stone-faced, the fuzzy mélange of ideas,
etc. Your
body clock: bladder‑emptying and body temperature, ultradian rhythms, the
post‑lunch dip, frequent bursts of hormone release, a monthly cycle of
oestrogens and progesterone, concentrations of the hormones melatonin and
cortisol in the blood, the integration of biological and environmental rhythms,
etc. Colliding
plane waves: The electromagnetic Gowdy cosmologies, the context of colliding shock
electromagnetic waves, other type D electrovac solutions, incomplete geodesics
or incomplete curves of bounded acceleration, the metric is asymptotic to an
inhomogeneous Kasner solution, the curvature tensor, non‑scalar curvature
singularities, a scalar polynomial curvature singularity, three conserved
momentum components, etc.
El nivel de inglés necesario para la comprensión de estos textos es un
nivel avanzado, como puede verse en estos tres párrafos elegidos al azar: Its
character was and remains distinctly urban and its students a more polyglot mix,
more closely representing what one would expect in the urban centers of the East,
than was characteristic of deep Ivy League schools such as Princeton or Yale. (The
architect). We
live in a rhythmic world. From early childhood we are all aware of the annual
cycle of the season and its effect on nature, from the general sense of dormancy
in the winter to the burst of light, warmth, colour, and activity in summer. (Your
body clock). In colliding plane wave problems,
what is essentially a coordinate singularity for a single wave is transformed
into a fold singularity prior to the collision by the presence of curvature
singularities at the points ... (Colliding plane waves).
Los textos están ordenados por párrafos, con la distinción entre párrafos
del texto <p>, citas de otros textos <qt>, y títulos
<hd>.
El hardware requerido para el almacenamiento de estos corpus así como
del programa de MicroConcord es el de un ordenador personal compatible
que disponga al menos de 640k de memoria RAM y de un disco duro de 40 MB, aunque
cuanto más memoria RAM y más MB mejor, ya que esto nos permitirá no sólo
manipular más información al mismo tiempo, sino también poder almacenar tanto
las concordancias que vayamos realizando como nuevas colecciones de textos. La
colección de textos de la versión de demostración (las 68.000 palabras) ocupa
410.264 bytes y el programa analizador de textos (el MicroConcord)
150.121 bytes. En la propaganda del MicroConcord, la Oxford University Press anuncia la publicación de nuevas colecciones (corpus de inglés escrito y de inglés hablado, de inglés británico y de inglés americano, de inglés estandard y de inglés económico). Si es verdad que estas dos colecciones son sólo el principio de una larga serie, tendremos que volver a felicitarnos, ya que no nos cabe la menor duda de que los corpus de ejemplos son la mejor fuente de información lingüística de la que podemos disponer en la actualidad. El manual
No conocemos directamente el manual que acompaña al programa, pero
podemos adelantar que éste se divide en dos tipos de información claramente
delimitados; una parte del mismo está dedicada, naturalmente, a la explicación
del funcionamiento del programa y al análisis de sus posibilidades. En una
segunda parte, quizá la más importante y novedosa para nosotros, se analizan
las posibilidades metodológicas de las concordancias léxicas en el aprendizaje
y enseñanza de lenguas, y se nos proporciona información precisa e ideas
altamente sugestivas para que podamos elaborar con cierta facilidad una gran
cantidad de ejercicios así como una gran variedad de pruebas que, sin duda,
pueden ser de gran ayuda tanto a nosotros como profesores como a nuestros
propios estudiantes. El MicroConcord En
la actualidad existen varios programas informáticos para la explotación y análisis
de textos por ordenador. Quizás los dos más conocidos son el Micro-OCP (Oxford
Concordance Program, de Hockey & Marriot, 1979) de la misma Oxford
University Press, programa que sustituyó al antiguo COCOA (Berry-Rogghe,
1973) en los ochenta y el Wordcruncher. Sin embargo, mientras estos
programas están pensados más bien para la investigación, el MicroConcord,
además de las funciones de búsqueda léxica que estos programas realizan,
dispone de otras posibilidades que van específicamente dirigidas para su uso en
la enseñanza.
Pero )qué
es el MicroConcord y cuáles son sus funciones y características más
importantes? El MicroConcord es inicialmente un programa de concordancias
que permite buscar en textos de gran cantidad de palabras ejemplos de una
palabra o de combinaciones de varias palabras en un espacio de tiempo muy breve.
Las posibilidades de búsqueda léxica del MicroConcord son casi
ilimitadas. Podemos buscar una palabra (kick), todas las formas
gramaticales de una palabra (kick/kicked/kicking/kicks), varias palabras
distintas a la vez (eye/leg/arm/head), combinaciones de palabras (kick
off), una palabra en un contexto determinado (play con el significado
de 'tocar', ya que se puede buscar la palabra play en el contexto de
palabras como violin, piano, trumpet, etc.). Se pueden buscar cualquier
tipo de afijos, ya que el programa dispone de dos símbolos, el asterísco (*)
que representa cualquier número de letras entre un espacio en blanco y la
interrogación (?), que representa cualquier letra, aunque sólo una. Estas dos
opciones abre un abanico de posibilidades inmenso. Por ejemplo la búsqueda de book*
nos proporcionará ejemplos como book, bookable, bookcase, booked, bookie,
booking, etc. La búsqueda de *book, por el contrario, nos dará
palabras como book, notebook, order‑book, textbook, etc. y
consecuentemente la búsqueda de *book* nos dará no sólo book,
bookable, bookcase, booked, bookie, booking, etc. sino también notebook,
order‑book, textbook, etc. La búsqueda de ha**ed nos ofrece todos los
perfectos regulares, tanto en presente como en pasado, que existan en el texto (have/had
studied/worked/played, etc.). La búsqueda de co*ct nos da palabras
como collect, conduct, conflict, construct, contact, contract, convict,
correct, etc. Por el contrario, si la búsqueda es del tipo ?ough lo
que obtendremos serán aquellas palabras que están formadas por cualquier letra
+ ough, como por ejemplo bough, cough, rough, tough, etc.
Las búsquedas realizadas se nos presentan en lo que normalmente se
conoce como a KWIC (Key Word in Context) concordance. Una concordancia de
una palabra es una lista o índice de todos los ejemplos que de esa palabra
existen en un texto (o en un grupo de textos) determinado(s). Una Kwic
concordance es aquella que se nos da una sola línea en la que la palabra
buscada aparece destacada en el centro y con aproximadamente ocho palabras a la
derecha y otras ocho a la izquierda del contexto en el que aparecen. Para una
primera aproximación para ver el uso de la palabra en cuestión, este contexto
suele ser suficiente. Pero en el caso de que no sea así, el programa nos
proporciona dos opciones diferentes: se puede avanzar dos o tres palabras más a
la derecha o retroceder otras tantas a la izquierda. Si esto todavía no es
suficiente, hay una segunda opción, que es ver todo el texto en donde aparece
la palabra en cuestión. Así pues, el programa es bastante versátil en este
sentido.
La versatilidad del programa se demuestra también en las posibilidades
de movimiento dentro y fuera de las concordancias obtenidas. En este sentido,
uno se puede mover fácilmente a través de todas los concordancia, casi con la
misma facilidad que nos movemos dentro de un texto en cualquier procesador de
textos. Podemos ir viendo una a una, o ir de página en página, o irse al
principio o al final del documento sin mayor problema. De la misma manera, se
pueden también borrar aquellos ejemplos que no nos interesen, guardar en un
documento aparte los que nos parezcan más oportunos e incluso clasificarlos según
distintos criterios (como, por ejemplo, según la categoría de la palabra -
nombre o verbo -, según la dificultad del ejemplo - muy fácil, fácil,
regular, difícil, muy difícil -, etc.).
El número de concordancias que podemos obtener en una búsqueda dependerá
de la potencia tanto de nuestro ordenador como de nuestro software, pero
normalmente el número oscila entre 1.200 y 1.600 concordancias distintas. El
programa se puede limitar a un número específico de concordancias. Si creemos
que con 25 ejemplos tendremos suficiente, se puede programar para que nos de sólo
los primeros veinticinco ejemplos que encuentre. Además, siempre se puede parar
la búsqueda cuando pensamos que el número de ejemplos encontrados sea
suficiente.
Una vez obtenidas las concordancias, las posibilidades del MicroConcord
son numerosas, aunque aquí por cuestiones de espacio nos vamos a centrar en las
más importantes.
Para poder estudiar las concordancias mejor, éstas se pueden ordenar y
clasificar de varias maneras. El MicroConcord nos ofrece dos criterios
para ordenar la palabra buscada: una opción prioritaria y otra secundaria.
Estas opciones nos permiten ordenar la palabra buscada teniendo en cuenta o bien
las palabras que aparecen a la derecha (10, 20 o 30 palabra a la derecha) o
las que aparecen a la izquierda (10, 20 o 30 palabra a la izquierda).
La información que estas ordenaciones nos ofrecen son verdaderamente
interesantes, ya que la información lingüística que se puede obtener varía
según ordenemos las palabras de una manera u otra. Por ejemplo, si buscamos un
substantivo cualquiera y lo ordenamos según la 10
palabra que aparece a la derecha, obtendremos las distintas preposiciones que
rige, pero si lo ordenamos según la palabra que aparece a la izquierda,
podremos ver los sustantivos (10 a la izquierda), adjetivos (10
o 20
a la izquierda) y determinantes (10, 20 o 30 a la izquierda) que se
combinan más frecuentemente con la palabra en cuestión. Evidentemente esto nos
lleva a todo el problema léxico de las collocations. Las posibilidades
del programa en relación con este aspecto son importantísimas, ya que
simplemente con pulsar una tecla (C), obtenemos una lista de las palabras que
aparecen más frecuentemente con la palabra buscada. Esta función es de gran
interés no sólo para el estudioso de la lengua sino también para el profesor
de lenguas, ya que permite el estudio de las palabras en su contexto más
apropiado y pone de manifiesto las distintas relaciones léxicas y gramaticales
de una palabra determinada con aquellas con las que más frecuentemente aparece.
Esta función se puede combinar con otra de gran aplicación en la enseñanza.
El MicroConcord puede borrar la palabra buscada y sustituirla por diez
espacios en blanco. Esta función nos permite elaborar una gran cantidad de
ejercicios en un espacio brevísimo de tiempo. Podemos, por ejemplo, eliminar
todas las preposiciones de un texto para que luego el alumno las intente
reproducir. También se pueden hacer ejercicios léxicos en el que se comparen
palabras de difícil uso, como, por ejemplo, contrastes entre lend y borrow,
steal y rob, o some y any.
La información obtenida se puede o bien imprimir directamente o bien se
puede llevar a cualquier procesador de textos (WordPerfect, etc.). La
posibilidad de poder llevar toda la información que nos ofrece el MicroConcord
a un procesador de textos es muy importante, ya que esto nos permite manipular
los ejemplos obtenidos de acuerdo con nuestros intereses particulares. Una vez
en el procesador de textos, podremos simplificar los ejemplos, cambiar las
palabras que queramos, darle el formato que más nos interese, y por supuesto,
almacenar la información en ficheros específicos.
Digamos por último que el MicroConcord puede usarse con cualquier
tipo de textos y con otras lenguas además de la lengua inglesa, ya que dispone
de la posibilidad de reproducir toda clase de acentos y de caracteres. La única
condición es que el texto tiene que estar procesado en formato ASCII. Esto sin
embargo no es problema, ya que hoy en día todos los procesadores de textos
llevan esta función (en el WordPerfect, por ejemplo, la conversión se
hace usando Ctrl + F5, y luego 1). Esta posibilidad es muy importante, ya que
nos permite no sólo poder operar con cualquier corpus de ejemplos que podamos
adquirir sino lo que es más importante nos permite crear nuestros propios
corpus, corpus que probablemente cubran más directamente nuestras necesidades
específicas.
Queda claro que la obra que nos presenta Oxford University Press
es de gran utilidad para todos los que estamos de alguna manera u otra
interesados en el aprendizaje y la enseñanzas de lenguas y lo único que
podemos desear es que este tipo de publicaciones proliferen mucho más, para que
las posibilidades de material disponible sean más amplias del que actualmente
tenemos. |