Sistemas de diálogo hablado y multimodal

bullet Sistemas de diálogo hablado
bullet Sistemas de diálogo multimodal
bullet Sistemas de diálogo que hemos desarrollado
bullet Proyectos de investigación en curso en nuestro grupo de investigación
bullet Oferta de Proyectos Fin de Carrera
bullet Libros recomendados
bullet Enlaces de interés
bullet Revistas científicas
bullet Congresos de interés
bullet Algunas empresas del sector

Sistemas de diálogo hablado

Los sistemas de diálogo hablado (spoken dialogue systems) son sistemas informáticos que reciben como entrada frases del lenguaje natural expresadas de forma oral y generan como salida frases del lenguaje natural expresadas asimismo de forma oral. La finalidad de estos sistemas es emular el comportamiento inteligente de un ser humano que realiza una tarea concreta, utilizándose en la actualidad por diversas empresas para proporcionar información de forma automática, por ejemplo, horarios de salida de aviones, partes meteorológicos, estado de cuentas bancarias, etc.

La siguiente figura muestra el esquema general de un sistema de diálogo hablado. Los módulos en color amarillo se implementan mediante cinco tecnologías fundamentales en el diseño de los sistemas actuales: reconocimiento automático de habla, procesamiento del lenguaje natural, gestión del diálogo, generación de lenguaje natural y síntesis de habla. Los módulos en color azul representan componentes adicionales y el módulo en color verde representa la base de datos en la que el sistema obtiene la información que el usuario necesita conocer (horarios de salida de aviones, partes meteorológicos, etc.).

La finalidad del reconocedor de habla es procesar la voz del usuario y transformarla en una secuencia de palabras reconocidas en forma de texto.

Dicha secuencia constituye la entrada del módulo de análisis lingüístico, cuya finalidad es obtener la representación semántica (significado) de la frase reconocida.

La representación semántica obtenida constituye la entrada del módulo de gestión del diálogo, cuya finalidad consiste en determinar qué acción debe realizar el sistema en cada momento. Puede decirse que este es el módulo fundamental del sistema, pues su finalidad es lograr que la interacción con el usuario sea lo más cómoda e “inteligente” posible. Para lograr este objetivo, el módulo de gestión del diálogo suele realizar confirmaciones de los datos obtenidos del usuario, iniciar subdiálogos de corrección y generar expectativas respecto a las frases más probables del usuario en un momento dado.

Una vez el módulo de gestión del diálogo ha decidido la acción que debe realizar el sistema, el módulo de generación de respuestas construye la respuesta del sistema en formato de texto, la cual constituye la entrada del sintetizador de voz para generar la respuesta oral del sistema.

El módulo de memoria almacena las representaciones semánticas obtenidas a lo largo de la interacción así como las frases previamente generadas por el sistema, proporcionando esta información histórica a los módulos de análisis lingüístico, gestión del diálogo y generación de frases. De esta forma, el sistema puede resolver las referencias anafóricas existentes en las frases pronunciadas por los usuarios, puede conocer qué frases ha expresado el usuario previamente, y puede utilizar información contextual (mediante el uso de anáforas y elipsis) durante la generación de las frases.

Finalmente, el gestor de las bases de datos se encarga de generar las consultas necesarias a las bases de datos (por ejemplo, en SQL) y proporcionar la información obtenida de las mismas al módulo de gestión del diálogo.

Sistemas de diálogo multimodal

El objetivo fundamental de un sistema de diálogo multimodal (multimodal dialogue system) es superar las limitaciones de la interacción basada exclusivamente en el habla. En una interacción multimodal el usuario no está restringido a utilizar el habla como único canal de comunicación, sino que puede utilizar varios dispositivos de entrada, como por ejemplo un teclado, un ratón, un micrófono, una cámara, una pantalla sensible al tacto, una PDA, etc. Asimismo, el sistema multimodal puede utilizar diversos canales de salida para proporcionar información al usuario como por ejemplo, voz, texto, gráficos o imágenes, con objeto de estimular varios de sentidos del usuario de forma simultánea. Algunos sistemas de diálogo multimodal permiten incluso que los usuarios puedan elegir entre las diversas modalidades de entrada para llevar a cabo la interacción, permitiendo así una cierta adaptación a las condiciones ambientales de luz, ruido, etc. Esta ventaja permite además que personas con determinadas discapacidades (p. e. personas invidentes) puedan usar estos sistemas mediante alguna de las modalidades de interacción disponibles.

A continuación se mencionan algunos sistemas de diálogo multimodal:

MASK – Multimodal-Multimedia Automated Service Kiosk

Sistema desarrollado en el LIMSI Spoken Language Processing Group (Francia) para proporcionar horarios de tren, reservas, precios, etc. Los usuarios se pueden comunicar con el sistema mediante habla y una pantalla sensible al tacto, mientras que éste se puede comunicar con los usuarios mediante habla, gráficos, vídeo y sonido.

Sistema MASK

AdApt Sistema desarrollado en el Centre for Speech Technology, Royal Institute of Technology (Suecia), para proporcionar información sobre apartamentos disponibles en la ciudad de Estocolmo. Los usuarios se pueden comunicar con el sistema oralmente y mediante un ratón, y el sistema se puede comunicar con ellos mediante un agente animado (ver figura) y un mapa acompañado de texto.

Sistema AdApt

August – Sistema desarrollado también en el Centre for Speech Technology, Royal Institute of Technology (Suecia), para proporcionar información acerca del autor sueco August Strindberg (a quien debe su nombre) y sobre restaurantes y otros servicios de la ciudad de Estocolmo.

Sistema August


Sistemas de diálogo que hemos desarrollado

bullet SAPLENSistema Automático basado en Procesamiento de LEnguaje Natural. Sistema de diálogo que proporciona información sobre productos de restaurantes de comida rápida y permite registrar pedidos efectuados desde los domicilios con objeto de enviar posteriormente los productos solicitados.
bullet VIAJERO. Sistema de diálogo que proporciona información sobre horarios de salida de autobuses de línea, precios, etc. (por ejemplo, los usuarios pueden realizar una consulta para conocer los horarios de autobuses directos disponibles para viajar desde Granada a Córdoba).
bullet VIAJERO II. Versión extendida del sistema comentado anteriormente que permite interactuar en dos idiomas: Castellano e Inglés.
bulletSINFOTELSistema de INFOrmación de números de TELéfono. Sistema de diálogo que proporciona los números de teléfono de los profesores de nuestro Departamento. Los usuarios (generalmente alumnos) pueden indicar el nombre y apellidos del profesor cuyo teléfono desean conocer, o bien, sólo su nombre o sus apellidos, realizando el sistema las clarificaciones oportunas en caso de existir más de un profesor con el nombre (o apellidos) especificados.
bulletUAH - Universidad al Habla . Sistema de diálogo que proporciona información sobre nuestro Departamento (profesores, asignaturas, horarios de tutorías, etc.) y sobre el proceso de Automatrícula en la Universidad de Granada.


Proyectos de investigación en curso en nuestro grupo de investigación

bullet Análisis y Aplicación de Tecnologías Basadas en XML para la Implementación de Sistemas de Diálogo (Dial-XML)


Oferta de Proyectos Fin de Carrera (curso 05/06)

bullet Listado de proyectos


Libros recomendados

bullet Ramón López-Cózar, Masahiro Araki."Spoken, Multilingual and Multimodal Dialogue Systems: Development and Assesment", John Wiley & Sons, 2005
bullet Michael F. McTear. "Spoken Dialogue Technology: Toward the Conversational User Interface", Springer, 2004


Enlaces de interés

bullet The Conversational Humanoid
bullet Talking Heads
bullet HTK (Hidden Markov Model Toolkit)
bullet The Festival Speech Synthesis System
bullet Dialogue System Links
bullet CSLU Toolkit
bullet Speechworks
bullet IBM WebSphere Voice Toolkit
bullet Voxeo Community
bullet HeyAnita RapidApp
bullet Tellme Studio


Revistas científicas

bullet Association for Computational Linguistics
bullet Computer Speech and Language
bullet Journal of Logic, Language and Information
bullet Literary and Linguistic Computing
bullet Machine Translation
bullet Natural Language Engineering
bullet Sociedad Española para el Procesamiento del Lenguaje Natural (SEPLN)
bullet Speech Communication


Congresos de interés

bullet ACL (Association for Computational Linguistics)
bullet CONLL (Computational Natural Language Learning)
bullet Eurospeech (European Conference on Speech Communication and Technology)
bullet ICASSP (International Conference on Acoustics, Speech and Signal Processing)
bullet ICSLP (International Conference on Speech and Language Processing)
bullet LREC (International Conference on Language, Resources and Evaluation)
bullet TSD (International Conference on Text, Speech and Dialogue)
bullet SEPLN (Congreso de la Sociedad Española para el Procesamiento del Lenguaje Natural)


Algunas empresas del sector

bullet IBM
bullet ScanSoft
bullet Lucent
bullet Microsoft
bullet Philips