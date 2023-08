Sólo unos días después de anunciar el lanzamiento de Code LlaMa, su IA asistente para programadores, Meta ha presentado su última innovación en el campo de la inteligencia artificial: el modelo SeamlessM4T, que promete transformar tanto el proceso de traducción como el de transcripción de lenguaje hablado.

¿Cómo? Fácil: convirtiéndose en un intérprete que ofrezca traducción automática masiva multimodal (puede traducir de voz a texto, de texto a voz, de voz a voz y —¿lo adivinas?— de texto a texto) y multilingüe (traduce para cerca de 100 idiomas de entrada y 35 de salida)…

…lo que podría tener un profundo impacto en la comunicación global y en la accesibilidad de contenidos en diferentes lenguajes, sobre todo teniendo en cuenta que también ofrece reconocimiento automático del idioma de origen… o el hecho de que el hablante pueda entremezclar idiomas en una misma oración.

Según el director científico de Meta, Paco Guzmán, esto último es posible gracias a la flexibilidad de que le dota el gran avance de este modelo: que no depende de modelos intermedios.

Según Meta, este nuevo modelo de IA ha sido entrenado con "decenas de miles de millones" de oraciones en formato texto y 4 millones de clips de voz, todo ello disponible públicamente en la web sin vulnerar derechos de autor. Los investigadores de la compañía crearon, sobre esta base, un dataset llamado SeamlessAling, que vinculó 443.000 horas de voz con textos, y 29.000 horas de grabaciones de voz a voz.

"Cuando se evalúa la robustez [del modelo], nuestro sistema funciona mejor frente a los ruidos de fondo y las variaciones del hablante en las tareas de conversión de voz a texto (con mejoras promedio del 37 % y 48 %, respectivamente) en comparación con el modelo actual de última generación [de la compañía]. SeamlessM4T también supera a los anteriores competidores de última generación".

En la presentación de SeamlessM4T, Meta no sólo se ha centrado en sus capacidades tecnológicas, también en su compromiso con la ética, pues afirma haber implementado medidas para evitar el 'lenguaje de odio' y el sesgo (especialmente el de género) en las traducciones.

Los sistemas de traducción polivalentes como SeamlessM4T pueden llegar a constituir una herramienta fundamental para compañías como Meta, con servicios de alcance global basados en la comunicación interpersonal, que pueden ver ahora cómo se personaliza la experiencia de los usuarios y se optimiza la moderación de contenidos.

Un vistazo a… ZAO, la APP MÓVIL china que a través de DEEPFAKE te convierte en DICAPRIO en SEGUNDOS

Que no, que no es 'open source'

De igual manera que tras el lanzamiento de su modelo de lenguaje LlaMa 2, Meta ha 'vendido' a los medios la naturaleza 'open source' de su nueva IA. Sin embargo, al igual que hicimos entonces, nos vemos obligados a explicar que eso no es así: la verdadera licencia de SeamlessM4T es la Creative Commons CC BY-NC 4.0…

…lo que significa que, realmente, no cumple los criterios del concepto de 'código abierto', al no permitir también su libre uso con fines comerciales. Es cierto, no obstante, que —en el resto de casos— usuarios y desarrolladores se beneficiarán de la libertad para replicar, redistribuir y transformar este modelo de IA.

Vía | Meta

Imagen | Marcos Merino mediante IA

En Genbeta | Hemos probado LlaMa 2, el ChatGPT de Meta. Lo mejor de su IA es que cualquiera puede acceder a ella y descargarla