"El 35% de las palabras son incomprensibles": la IA entrenada con traducciones basura de Wikipedia es un drama para las lenguas minoritarias

Hay personas editando manualmente el destrozo que ha hecho la IA

José Alberto Lizana

Editor

Cuando Kenneth Wehr se hizo cargo de la versión de Wikipedia en groenlandés hace cuatro años, su primera medida fue drástica: borrarlo casi todo. Era, según él, la única forma de que el proyecto tuviera alguna posibilidad de sobrevivir. Wehr, un alemán de 26 años obsesionado con Groenlandia, descubrió que la Wikipedia en este idioma, hablado por unas 57.000 personas, era un espejismo.

Pero esto también ocurre en auténticos paraísos como Hawai, donde Noah Ha'alilio Solomon, apunta a que alrededor del 35% de las palabras de algunas páginas de la Wikipedia hawaiana son incomprensibles. Aunque es algo que tiene su explicación. 

Falsos traductores. A pesar de contar con unos 1.500 artículos en este idioma, la inmensa mayoría habían sido creados por personas que no hablaban el idioma, utilizando traductores automáticos. El resultado, como se recoge en MIT Technology Review, era un desastre: artículos con errores gramaticales básicos, palabras sin sentido e incluso datos absurdos, como una entrada que afirmaba que Canadá tenía solo 41 habitantes. 

"Las frases no tenían ningún sentido o contenían errores obvios", se lamentaba Wehr. "Los traductores de IA son realmente malos en groenlandés".

Basados en predicción. Los grandes modelos de inteligencia artificial, desde Google Translate hasta ChatGPT, aprenden a "hablar" nuevos idiomas analizando cantidades masivas de texto extraído de internet. Para muchas lenguas minoritarias, con poca presencia digital, Wikipedia es a menudo la mayor, si no la única, fuente de datos lingüísticos disponible. Y aquí es donde empieza el gran destrozo lingüístico. 

Y es que al final todo comienza con usuarios bienintencionados (o no tanto) que utilizan herramientas de traducción automática para poder crear artículos en Wikipedia en lenguas que son minoritarias. Pero lógicamente no piensan que estos traductores no están bien entrenados para estas lenguas por los pocos recursos que hay de por sí en la red. 

Cíclico. Con toda esta información generada con los traductores automáticos se está generando también el material con el que van a trabajar los futuros modelos de IA, ya que van a usar la información que hay en la red. De esta manera, los nuevos modelos de IA aprenden de estos textos 'basura', perpetuando y amplificando los errores que se cometieron anteriormente. 

Ahora las nuevas herramientas de traducción que surgen se generan a partir de traducciones de otras IA y entonces se van a acumulando los errores uno encima de otro. Y al final lo que esperamos tener es un desastre auténtico. 

Va más alla. Voluntarios que trabajan en cuatro idiomas africanos estimaron para MIT Technology Review que entre el 40% y el 60% de los artículos en sus ediciones de Wikipedia eran traducciones automáticas sin corregir. Una auditoría de la edición en inuktitut (un idioma indígena de Canadá) reveló que más de dos tercios de las páginas contenían fragmentos generados de esta manera.

La dependencia. Ya en 2020, se estimaba que Wikipedia constituía más de la mitad de los datos de entrenamiento para la IA en idiomas hablados por millones de personas en África, como el malgache, el yoruba y el shona. En 2022, un equipo de investigación alemán descubrió que para 27 idiomas de bajos recursos, Wikipedia era la única fuente de datos lingüísticos fácilmente accesible en internet.

"Estos modelos se basan en datos brutos", explica Kevin Scannell, un informático que desarrolla software para lenguas en peligro. "No hay libros de gramática. No hay diccionarios. No hay nada más que el texto que se introduce".

Los secuestradores. Trond Trosterud, un lingüista computacional de la Universidad de Tromsø, lleva años alertando sobre este fenómeno. Él acuña el término "secuestradores de Wikipedia" para describir a un subconjunto de usuarios que, ya sea por ingenuidad o por un afán de "ayudar", inundan estas pequeñas ediciones con contenido de baja calidad. Concretamente, apunta a que estos usuarios están "armados con Google Translate", lo que categoriza como el problema principal. 

Antiguamente, esto era algo impensable, porque únicamente contábamos con una serie de diccionarios entre dos idiomas y traducir al final requería mucho tiempo. Pero al final un 'copia y pega' se pueden generar contenidos muy largos. 

Le dan las herramientas. La propia Wikipedia a día de hoy ofrece a los usuarios esta herramienta llamada 'Content Translate'. Esta permite traducir artículo a un idioma a otro conservando el formato original. Sin embargo, al depender de los motores externos lógicamente, los errores comenzaban a aflorar, y las imprecisiones eran mayúsculas. 

Se llegó a tal punto, que la versión en inglés de Wikipedia dejo de mostrar en gran medida el contenido que estaba generado con esta herramienta de traducción si antes no pasaba por un revisor humano. Todo porque no cumplían con el estándar de calidad mínimo que se solicitaba. Pero en las ediciones más pequeñas de Wikipedia no hay un ejército de editores humano que puedan corregir los errores que cometen los traductores de IA. 

Un ejemplo de esto está en Yuet Man Lee, un profesor canadiense, que admitió haber usado ChatGPT y Google Translate para crear artículos en inuktitut. Una decisión ue tomó tras ver la "arrogancia de la Wikipedia grande", ya que se encontraba que en inglés hay mucho contenido, pero en lenguas minoritarias no. Pero esto es algo que hizo confiando en que alguien vendría después a corregirlo, aunque la realidad es que nadie ha tocado los artículos desde entonces. 

Las consecuencias. En el norte de Nigeria Abdulkadir Abdulkadir dedica tres horas diarias a editar la Wikipedia en fula, un idioma hablado por pastores y agricultores. Él lo ve como una herramienta vital para llevar el conocimiento de la agricultora a las aldeas remotas. Pero si la información está traducida, obviamente puede haber grandes daños en los cultivos de las personas que han confiado en esta entrada. 

Pone varios ejemplos para poder ilustrarlo. Apunta específicamente que los traductores automáticos confunden la palabra fula para "cosecha" con "fiebre" o "bienestar". Aunque también relata como recientemente tuvo que corregir un artículo sobre el caupí, un cultivo fundamental en África, porque era prácticamente ilegible. Estima que el 60% de los artículos en fula son traducciones automáticas sin corregir. 

Al otro lado del país, Lucy Iwuala, editora en igbo, es aún más tajante. "El daño ya está hecho", afirma, mientras revisa artículos recién creados que contienen letras que ni siquiera existen en el alfabeto igbo. Apunta que esta edición de las entradas de Wikipedia para ella es una forma de lucha cultural, ya que se siente identificada con esas entradas. 

Imágenes |  Oberon Copeland 

En Genbeta | Wikipedia: 20 años que cambiaron internet y el acceso al conocimiento en 10 hitos


Ver todos los comentarios en https://www.genbeta.com

VER Comentarios