vie. Jul 4th, 2025

YOKOHAMA, JAPÓN – Un innovador sistema de traducción simultánea, denominado “Spatial Speech Translation”, ha sido presentado en la conferencia ACM CHI en Yokohama, prometiendo transformar la interacción en entornos multilingües. Este avance tecnológico, desarrollado con inteligencia artificial, permite a los usuarios de auriculares comprender múltiples voces en diferentes idiomas en tiempo real.

El sistema, que fue detallado por el MIT Technology Review, está diseñado para funcionar con auriculares convencionales con cancelación de ruido. No solo traduce las voces, sino que también reproduce la voz traducida con un timbre y dirección espacial que imitan a la persona original, ofreciendo una experiencia conversacional más natural y contextualizada.

Desafíos en la traducción de conversaciones grupales

El objetivo principal de Spatial Speech Translation es superar uno de los mayores retos en la traducción automática: la superposición de voces en conversaciones grupales. Utilizando inteligencia artificial, el sistema rastrea tanto la procedencia espacial del sonido como las características individuales de cada voz, permitiendo al usuario identificar con precisión quién habla y qué está diciendo.

La tecnología va más allá de una simple traducción simultánea. Según su descripción técnica, el modelo divide el entorno acústico en pequeñas regiones y analiza cada una para detectar posibles interlocutores. Esto genera una versión traducida de cada voz que conserva elementos clave como la dirección del sonido, el tono emocional y el timbre original.

La dimensión personal y social del proyecto

El profesor Shyam Gollakota, de la Universidad de Washington, es uno de los impulsores del proyecto. En declaraciones a MIT Technology Review, explicó que el sistema tiene un enfoque humanista, buscando no solo facilitar la comunicación, sino también promover la inclusión social de quienes enfrentan barreras idiomáticas.

Este enfoque pretende reducir la ansiedad y el aislamiento que muchas personas experimentan al no poder participar plenamente en conversaciones debido a la barrera del idioma.

“Creemos que este sistema podría ser transformador”,

afirmó Gollakota, destacando el potencial del sistema para cambiar la manera en que las personas interactúan en un mundo cada vez más globalizado.

Funcionamiento y diferencias con tecnologías existentes

El sistema se compone de dos modelos interdependientes. El primero analiza el espacio sonoro mediante una red neuronal que divide el entorno en pequeñas zonas, localizando la dirección exacta de las voces. El segundo modelo procesa las voces detectadas, traduciéndolas al inglés desde francés, alemán y español, y reconstruyendo una versión de la voz original que emula elementos como el tono y la cadencia emocional.

Lo innovador de esta tecnología es su capacidad para mantener un alto grado de naturalidad en la traducción. A diferencia de otros dispositivos, como las gafas inteligentes de Meta, que se enfocan en un único interlocutor, Spatial Speech Translation procesa múltiples voces simultáneamente, resolviendo el problema real de las conversaciones grupales.

Además, utiliza hardware accesible: auriculares con micrófonos incorporados y laptops con chips Apple M2, lo que facilita su adopción a gran escala.

Retos futuros y perspectivas

El equipo detrás de Spatial Speech Translation enfrenta el desafío de reducir la latencia entre la emisión de una frase y su traducción, que actualmente es de algunos segundos.

“Queremos reducir significativamente esa latencia a menos de un segundo para que se mantenga el ritmo conversacional”,

explicó Gollakota.

Este objetivo es técnicamente complejo, ya que la estructura sintáctica de cada idioma afecta la velocidad de traducción. Según Claudio Fantinuoli, de la Universidad Johannes Gutenberg de Mainz, el alemán, por ejemplo, coloca los verbos al final de las oraciones, lo que ralentiza el proceso.

Especialistas como Samuele Cornell, del Instituto de Tecnologías del Lenguaje de Carnegie Mellon, consideran el proyecto técnicamente impresionante, aunque advierten que para su aplicación masiva se requerirá más entrenamiento con datos reales y en ambientes ruidosos.

Con estos avances, Spatial Speech Translation se perfila como un hito en la tecnología multilingüe, prometiendo un futuro donde las barreras lingüísticas sean cada vez menos un obstáculo en la comunicación global.