Multimodalidad: ¿gestualidad?

febrero 18, 2024

Hoy, como cada domingo, aproveché mi caminata matutina para pasar a visitar a mis padres. Tras haber agotado los temas relacionados a lo cotidiano, recordé el reciente anuncio de OpenAI acerca de su novedoso modelo de texto a video: Sora. Y decidí mostarles los videos que se han popularizado, bajo la consigna de “¿notan algo raro en estos videos?”. Tras ver tres o cuatro de ellos, mi madre me dijo “los actores se ven muy bien, ¿son fragmentos de películas?”

Y en ese momento escupí todo mi entusiasmo, contándoles que es la nueva inteligencia artificial de los creadores de chatGPT para crear video realistas a partir de texto. A lo que mi madre replicó “eso va a ser muy bueno para las personas sordas, para poder recibir traducciones en lenguaje de señas”.

Me dejó pensando por un momento, y respondí “¿sabes qué ma? esa es una gran idea”. Y sonrió.

Nota: Para quienes no lo saben, uno de mis hermanos padece de sordera desde que nació, por lo que el lenguaje de señas es algo que siempre ha estado presente en nuestra vida.

Sin embargo creo que ni ella ni yo somos conscientes de las implicaciones de esto. Tras haberme marchado de su casa, comencé a elucubrar cómo encajaría el lenguaje de señas en todo esto. Y no solo el lenguaje de señas, sino la gestualidad en general.

Los gestos, como ya sabemos, son una parte clave en la comunicación no sólo humana sino de todos los animales. El perro agacha la cabeza cuando es regañado, el gato se estira cuando se siente cómodo, y el bebé llora cuando tiene hambre. Los gestos son una forma de comunicación no verbal, y en muchos casos, son más expresivos que las palabras, al punto que en ocasiones las palabras abundan.

La conclusión de esos minutos de reflexión fue la siguiente: estará OpenAI, Google, Amazon, Tesla, ElevenLabs o cualquiera de las otras grandes compañías de tecnología pensando en cómo integrar la gestualidad en sus modelos multimodales? Y fui un paso más allá: ¿será necesario desarrollar un estándar de gestualidad a fin de que los modelos multimodales puedan interpretar y generar gestos de forma coherente y portable entre avatares? ¿Cómo podría lograrse esto? ¿Debería ser antropomórfico o basado en regiones corporales (cabeza, manos o los miembros que las representen, pies o los miembros que los representen, sin importar en cualquier caso cuántos de estos posea el avatar)? ¿Debería estar orientado a articulaciones o ser algo más generalizado? ¿Podríamos simplemente usar algo como emojis para representar cada estado, y que sea responsabilidad del avatar convertirlo a gestos que tengan sentido dentro de su espectro de movimientos?

Inicialmente pensé en guardarme esta idea porque la encontré realmente apasionante y con un impacto considerable en el futuro de la I.A., sin embargo estoy casi totalmente convencido de que ya debe haber algo en alguno de los laboratorios de R&D de alguna de estas compañías, o quizá algún estudiante esté terminando de preparar su tesis doctoral sobre este tema. Y si no es así, espero que alguien lo haga pronto, porque el mundo necesita esto.