Durante los últimos años, en el área de la Interacción Humano-Robot (HRI), ha sido creciente el estudio de la interacción en la que participan usuarios no entrenados tecnológicamente con sistemas robóticos. Para esta población de usuarios potenciales, es necesario utilizar técnicas de interacción que no precisen de conocimientos previos específicos. En este sentido, al usuario no se le debe presuponer ningún tipo de habilidad tecnológica: la única habilidad interactiva que se le puede presuponer al usuario es la que le permite interaccionar con otros humanos. Las técnicas desarrolladas y expuestas en este trabajo tienen como finalidad, por un lado que el sistema/robot se exprese de modo y manera que esos usuarios puedan comprenderlo, sin necesidad de hacer un esfuerzo extra con respecto a la interacción con personas. Por otro lado, que el sistema/robot interprete lo que esos usuarios expresen sin que tengan que hacerlo de modo distinto a como lo harían para comunicarse con otra persona. En definitiva, se persigue imitar a los seres humanos en su manera de interactuar.
En la presente se ha desarrollado y probado un sistema de interacción natural, que se ha denominado Robotics Dialog System (RDS). Permite una interacción entre el robot y el usuario usando los diversos canales de comunicación disponibles. El sistema completo consta de diversos módulos, que trabajando de una manera coordinada y complementaria, trata de alcanzar los objetivos de interacción natural deseados. RDS convive dentro de una arquitectura de control robótica y se comunica con el resto de sistemas que la componen, como son los sistemas de: toma de decisiones, secuenciación, comunicación, juegos, percepción sensoriales, expresión, etc.
La aportación de esta tesis al avance del estado del arte, se produce a dos niveles. En un plano superior, se presenta el sistema de interacción humano-robot (RDS) mediante diálogos multimodales. En un plano inferior, en cada capítulo se describen los componentes desarrollados expresamente para el sistema RDS, realizando contribuciones al estado del arte en cada campo tratado. Previamente a cada aportación realizada, ha sido necesario integrar y/o implementar los avances acaecidos en su estado del arte hasta la fecha. La mayoría de estas contribuciones, se encuentran respaldadas mediante publicación en revistas científicas.
Preguntas frecuentes
¿De qué trata esta tesis doctoral?
Esta tesis doctoral presenta un sistema de interacción humano-robot llamado Robotics Dialog System (RDS), basado en diálogos multimodales y adaptables. El sistema busca facilitar una interacción natural entre humanos y robots, imitando la forma en que los humanos interactúan entre sí.
¿Cuáles son las principales aportaciones de la tesis?
Las principales aportaciones son: un sistema de interacción general (RDS) que trabaja con múltiples modos de entrada y salida; un gestor del diálogo (IDiM) que facilita la adaptación al usuario mediante perfiles; un sistema de fusión multimodal que imita la teoría de actos comunicativos; y desarrollos específicos en reconocimiento automático del habla, localización del usuario y gestión de emociones.
¿Qué componentes conforman el sistema RDS?
El sistema RDS consta de varios componentes, incluyendo un sistema de procesamiento del lenguaje natural (PLN), un sistema de síntesis de voz con emociones, un gestor de diálogo basado en huecos de información (IDiM), un módulo de fusión multimodal, un sistema de localización de usuarios, y módulos para la detección y gestión de emociones.
¿Qué métodos se utilizan para el reconocimiento automático del habla?
Se analizan y experimentan diferentes métodos, incluyendo sistemas basados en gramáticas, modelos estadísticos del idioma, y modelos estadísticos de contextos específicos. El sistema integra múltiples motores de ASR concurrentemente para mejorar la precisión.
¿Cómo se gestiona la multimodalidad en el sistema?
La multimodalidad se gestiona mediante un módulo de fusión multimodal que abstrae la multimodalidad al gestor del diálogo, empaquetando la información sensorial emitida por los módulos sensoriales de RDS siguiendo un algoritmo de detección de actos comunicativos.
¿Cómo se adapta el sistema al usuario?
El sistema se adapta al usuario mediante perfiles de usuario que almacenan información como el idioma, la distancia de interacción preferida, el nivel de experiencia con el sistema y las emociones del usuario.
¿Qué modos de entrada y salida soporta el sistema?
El sistema soporta diversos modos de entrada, incluyendo voz, gestos, tacto, etiquetas RFID y texto escrito. Los modos de salida incluyen voz sintetizada con emociones, sonidos no verbales, expresión musical y gestos.
¿Qué son GEVA y GEFA?
GEVA es un sistema de detección de emociones por voz desarrollado en esta tesis. GEFA es un sistema de detección de emociones a partir del análisis del rostro, que integra herramientas de terceros como SHORE y CERT.
¿En qué se diferencia IDiM de otros gestores de diálogo?
IDiM se distingue por su capacidad de adaptación al usuario, su gestión de diálogos multimodales y su funcionamiento dentro de una arquitectura de control robótica. Además, se separa la implementación del diálogo de la gestión del diálogo en sí misma.
¿Qué tecnologías se utilizan para la síntesis de voz con emociones?
Se utilizan diferentes motores de síntesis de voz, un sistema de plantillas para variabilidad expresiva, y modulación de parámetros como tono y ritmo para expresar emociones.
¿Cómo se ha evaluado el sistema?
El sistema se ha evaluado mediante experimentos con usuarios reales, analizando vídeos de las interacciones y recopilando datos a través de cuestionarios. Las métricas utilizadas incluyen el tiempo de interacción, número de turnos intercambiados, fallos de reconocimiento, coherencia y la percepción subjetiva de los usuarios sobre la facilidad de uso y diversión.
¿Cuáles son algunos trabajos futuros planeados para el sistema?
Los trabajos futuros incluyen el desarrollo de capacidades de conversación multiparte, mejoras en el sistema de identificación de usuarios, mejoras en la detección y modelado de emociones, y la implementación de un sistema de "fisión" multimodal estandarizado.
- Quote paper
- Fernando Alonso (Author), 2014, Sistema de interacción humano-robot basado en diálogos multimodales y adaptables, Munich, GRIN Verlag, https://www.hausarbeiten.de/document/282893