Un Premio Pulitzer acusa a ChatGPT y LLaMa de violar sus derechos de autor extrayendo contenidos de las "bibliotecas fantasma"

Un grupo de destacados escritores, encabezado por el guionista y novelista Michael Chabon (premio Pulitzer 2001) y por el dramaturgo David Henry Hwang, ha presentado sendas demandas en los juzgados de San Francisco contra dos gigantes de la tecnología, OpenAI y Meta.

¿El motivo? Que consideran que sus libros han sido usados —sin autorización, claro está— para entrenar los modelos de lenguaje desarrollados por ambas compañías (ChatGPT y LLaMa 2, respectivamente). Las demandas señalan a ambas compañías de enriquecimiento injusto, ya que se benefician económicamente del trabajo de los autores sin compensación.

Los escritores alegan que, dado que cuando se consulta una de estas IAs "se generan no sólo resúmenes, sino análisis en profundidad de los temas presentes en las obras protegidas por derechos de autor de los demandantes", los escritores creen que "el modelo [de IA] subyacente fue entrenado utilizando sus obras".

Hoy en día, el funcionamiento de los grandes modelos de lenguaje de IA requiere 'alimentarlos' con grandes cantidades de datos (frecuentemente extraídas de Internet) para mejorar su capacidad de predecir las palabras siguientes al construir una respuesta a las preguntas de los usuarios.

En Genbeta

Las inteligencias artificiales 'mienten' porque alucinan, y el ChatGPT de Bing alucina aún más. Los JPG ayudan a entender por qué

¿De dónde han salido estos libros?

Una de las partes más relevantes de la demanda gira en torno al método que los demandantes atribuyen a OpenAI para haber accedido al contenido de sus libros. Se hace referencia a dos datasets conformados íntegramente por libros, a los que OpenAI denominó sencillamente "Books1" y "Books2" cuando lanzó GPT-3 en 2020, atribuyéndoles nada menos que el 16% del contenido total usado en su entrenamiento.

La demanda de los escritores continúa alegando que sólo hay unos pocos lugares en la Internet pública que contengan tanto material: la demanda afirma, por tanto, que si bien "Books1" parece provenir del Proyecto Gutenberg (formado por obras de dominio público)…

…el corpus de contenidos de"Books2" sólo puede venir de las 'bibliotecas fantasma', sitios de referencia en materia de descarga de libros sin permiso de los titulares del copyright, como LibGen, Z-Library o Sci-Hub.

¿Uso justo?

Estas demandas se suman a una creciente serie de casos similares presentados por otros escritores, igualmente por presunta infracción de derechos de autor. La disputa plantea cuestiones importantes sobre los límites del uso de obras con derechos de autor en la IA y podría tener implicaciones significativas para la forma en que las empresas desarrollan y entrenan modelos de lenguaje en el futuro.

Los abogados de OpenAI han venido argumentando en los últimos meses que el uso que le han dado a los datasets no viola las leyes de derechos de autor, sino que están amparados por la doctrina estadounidense del "uso justo", que permite excepción como la creación de remezclas del original que sirve a un propósito o audiencia diferente.

Vía | Reuters

En Genbeta | Un ChatGPT que te pague cada vez que use tu contenido: OpenAI ya trabaja en modelos de lenguaje que respeten el copyright