OpenAI transcribió más de un millón de horas de vídeos de YouTube para entrenar GPT-4 esquivando su política de uso, según NYT

Así es como las grandes tecnológicas están retorciendo las condiciones de uso o incluso modificándolas para conseguir más datos de entrenamiento para sus IA

Open
1 comentario Facebook Twitter Flipboard E-mail

Una de las claves del buen desempeño de los modelos de inteligencia artificial es su entrenamiento, pero hay un problema: encontrar una gran cantidad de datos de calidad para llevarlos a cabo y por supuesto, que estos estén disponibles para su uso. Si además tenemos en cuenta que hay varios modelos en el mercado compitiendo entre sí, la depuración se torna una característica clave.

De hecho y como explica The Wall Street Journal, ese es uno de sus grandes desafíos, motivo por el cual no es de extrañar que webs tan suculentas como Reddit cierren acuerdos para vender su contenido para tal fin. No obstante, no es que no haya ingentes cantidades de información disponible en internet, el matiz está en que su uso para entrenamiento puede estar restringido por políticas de uso.

Pero hecha la ley, hecha la trampa: en las últimas horas un reportaje de The New York Times recoge las artimañas de las principales empresas de inteligencia artificial para conseguir en esa valiosa información protegida por derechos de propiedad intelectual dando una vuelta de tuerca a esas condiciones para que caigan en una zona gris donde puedan aprovecharse de ella.

Buscando los agujeros a las políticas de uso... o cambiándolas

Según NYT, allá por 2021 OpenAI se enfrentó a un serio problema de falta de suministro de datos, así que se les ocurrió una idea tras analizar los recursos disponibles: transcribir  videos, podcasts y audiolibros de YouTube. Por aquel entonces ya había empleado datos de Github de código de programación, bases de datos de movimientos de ajedrez y contenido de tareas escolares de Quizlet.

Así que trazó un plan: supuestamente desarrolló Whisper, su modelo de IA de transcripción de audio, para así poder transcribir más de un millón de horas de vídeos de YouTube que servirían para entrenar su modelo de lenguaje más avanzado hasta el momento, GPT-4. Según el medio, el presidente de OpenAI Greg Brockman participó personalmente en la recopilación de vídeos para un uso legalmente cuestionable pero legítimo.

Cabe mencionar que YouTube prohíbe el uso de sus vídeos para aplicaciones que sean independientes de la plataforma. The Verge preguntó al portavoz de Google Matt Bryant sobre esta operación y su respuesta fue que la compañía 'ha visto informes no confirmados de la actividad de OpenAI' y que además 'tanto nuestros archivos robots.txt como nuestros Términos de servicio prohíben la extracción o descarga no autorizada de contenido de YouTube'. Esta misma semana, su director ejecutivo dijo algo parecido sobre la posibilidad de que OpenAI usara YouTube para entrenar a Sora, el generador de vídeos. Y Matt Bryant es claro: Google toma medidas para evitar un uso no autorizado 'cuando tenemos una base legal o técnica clara para hacerlo'.

Así que según The New York Times, OpenAI ha usado YouTube para entrenar a sus modelos de IA, pero no ha sido el único: Google también, algo que el propio Bryant ha confirmado amparándose en sus acuerdos con los creadores. Aquí parten con ventaja: la plataforma es propiedad de Google, pero es que además el equipo de privacidad de la empresa de Mountain View ha modificado el lenguaje de su política para ampliar lo que puede hacer con los datos de los consumidores, por ejemplo con información procedente de Google Docs.

También Meta ha chocado contra el muro del fin de los datos disponibles para entrenamiento y de acuerdo con el New York Times,  su equipo de IA debatió el uso no autorizado de obras protegidas por derechos de autor para seguir en la carrera de la IA en la que OpenAI cuenta con una posición privilegiada por el momento. Así, tras revisar libros, ensayos, poemas y artículos de noticias en inglés  disponibles en internet, consideró la medida de pagar por las licencias de libros o incluso comprar una gran editorial. Aunque Meta cuenta en su haber con un volumen enorme de datos de redes sociales como Facebook, los cambios centrados en la privacidad acaecidos tras el escándalo de Cambridge Analytica juegan en su contra.

La fiebre de los datos y su extinción. El objetivo está claro: cuantos más datos absorben los modelos, más mejoran. Pero a este ritmo, el Wall Street Journal estima que estas empresas pueden agotar el contenido para 2028. Por no hablar de las implicaciones legales y éticas. ¿Cómo lidiar con una eventual extinción de datos? Una posible solución pasa por usar datos sintéticos creados por los modelos o usar 'aprendizaje curricular', lo que implica alimentar a los modelos con datos de alta calidad de forma ordenada para que hagan 'conexiones más inteligentes entre conceptos' con menos información. De momento están utilizando todo lo que encuentran a su paso, tengan permiso o no. La lista de demandas por esta práctica es larga, pero basándose en el modus operandi actual, va a seguir creciendo.

Portada | Javier Marquez (DALL·E 2) para Xataka

En Genbeta | ChatGPT ahora se puede usar sin registro previo: una nueva forma de proteger la privacidad de tus conversaciones


Inicio