Ciberestética: Comunicación Multimodal

jueves, 11 de agosto de 2011

Comunicación Multimodal

La idea de "comunicación multimodal" es la aplicación contemporánea tecnológica de las formas múltiples de comunicación que el ser humano a utilizado separadamente desde siempre: voz, vista, tacto, oido... Lo que es una innovación es la combinación de estas capacidades sensoriales entre el hombre y la máquina. En esencia se llama "Multimodal" a la comunicación en la que intervienen modos humanos, como por ejemplo: la voz o el habla, los gestos, los movimientos, y otros sentidos entre las computadoras y los usuarios. El objetivo de la comunicación multimodal es hacer más "natural" la interacción hombre-máquina.

Actualmente el estudio y aplicación de la comunicación multimodal es un campo en el cual se está investigando y se ha convertido en una nueva frontera para las comunicaciones. La clave está en cómo adaptar todos estos datos e información de manera que una interfaz electrónica los pueda interpretar y permita interactuar con ella mediante esta comunicación.

De alguna forma es tratar de que la máquina imite y sea capaz de replicar los diferentes modos de expresión y comunicación de los hombres y las mujeres. Esto implica también una interactividad no solo entre seres pensantes sino entre máquinas y éstos.

Es interesante mostrar algunos de los lenguajes tecnológicos que están tratando de reproducir nuestros modos comunicacionales. Algunos son ya estádar:

VoiceXML:es un lenguaje de etiquetado que permite crear diálogos con los que se puede interactuar escuchando comandos hablados, controlables a través de entradas de voz. VoiceXML se encarga de convertir habla en texto y para ello utiliza, entre otros mecanismos el SRGS (Gramática de Reconocimiento del Habla).

SRGS (Speech Recognition Grammar Syhthesis) tiene como función principal permitir que una aplicación de voz indique a un reconocedor, qué es lo que tiene que escuchar, es decir, palabras, modelos en los que estas palabras surgen, lenguaje hablado de cada palabra, etc.

SSML (Speech Synthesis Markup Language), lenguaje de marcado de Síntesis del Habla, basado en XML, forma parte del proceso de salida de información y funciona como componente de conversión ayudando a generar habla sintética. Este lenguaje tiene como principal objetivo ofrecer a los autores de contenido sintetizable un camino estándar para controlar aspectos del habla como pueden ser la pronunciación, volumen, tono y velocidad, mejorando así la calidad del contenido sintetizado.

EMMA es un lenguaje utilizado para el intercambio de datos en sistemas de administración de interacción multimodal. Es una especie de lenguaje común utilizado en la comunicación entre componentes de un sistema multimodal, cuyo objetivo es integrar la entrada de datos procedente de los usuarios desde diferentes recursos, y darle forma para ser procesada en una representación única que será a su vez procesada por componentes avanzados de procesamiento de información.

Todos estos programas y aplicaciones están pensados para lograr que el usuario se sienta cómodo con las máquina, en tanto el computador es capaz de interpertar y "entender" lo que ese usuario dice y quiere, incluso comprender su lenguaje gestual o visual, a través de cámaras y lectores ópticos.

Naturalmente es también todo un sistema tecnológico que está en pleno desarrollo, que no está ni consolidado y completamente adaptado; como en todos los casos de innovación, dista mucho de estar completamente funcional, pero nos seguro nos deparará muchas sorpresas.