"Dennos acceso a los datos y ya construiremos nosotros": este hacker responde a la IA que quiere el Gobierno

Gómez-Obregón, con varios proyectos pro-datos abiertos a sus espaldas, recuerda que es difícil entrenar modelos de IA hispanohablantes cuando las bases de datos públicos en español sólo son accesibles previo pago

Modelo IA Español
2 comentarios Facebook Twitter Flipboard E-mail

José Luis Escrivá, ministro para la Transformación Digital y de la Función Pública, publicaba el pasado lunes un tuit explicando el proyecto de su gobierno de promover la creación de "un modelo de lenguaje de IA en castellano y lenguas cooficiales" porque los "los modelos actuales, entrenados en inglés, tienen sesgos a la hora de ser usados para nuestra realidad más cercana".

A ese tuit le contestaba ayer jueves Jaime Gómez-Obregón, un 'hacker de la Administración Pública' cuyos proyectos hemos abordado en múltiples ocasiones en este medio, en algunos casos defendiendo la publicación abierta de contratos públicos por parte de la administración de Cantabria, de Euskadi o de la Hacienda central, en otros casos denunciando graves 'bugs' de las webs de la admón.

Gomez Obregon Gómez-Obregón, en el vídeo de respuesta al ministro.

La respuesta de Gómez-Obregón a Escrivá, publicada en formato vídeo, comenzaba así:

"Usted y todos sabemos que cualquier esfuerzo institucional por desarrollar un modelo de inteligencia artificial público va a ser, como siempre, flor de un día. Por eso, permítame compartirle cómo vivimos este asunto los técnicos, los desarrolladores".

A la hora de calificar como "flor de un día" a la eventual inversión en modelos de IA públicos quizá tenga en mente antecedentes como las fallidas inversiones de ayuntamientos y diputaciones en marketplaces públicos, versiones locales de Amazon que (sobre el papel) iban a impulsar el pequeño comercio y permitirle plantar cara a Amazon por el mero hecho de tener una web online. Y que, invariablemente, han terminado siendo todas un fracaso.

Pero los problemas de esas webs de comercio electrónico no pueden parecerse mucho a los de un eventual modelo de lenguaje... así que ¿qué 'pegas' le ve nuestro hacker al proyecto del gobierno?

"Verá, por una parte, estamos construyendo software con lemarios que están obsoletos, porque tienen más de 70 años. Este es el tiempo que tardan en caducar los derechos de autor del Diccionario de la Lengua Española y del resto de diccionarios académicos".
"Este modelo de licenciamiento actual nos está impidiendo reutilizar los contenidos de los diccionarios, y no sólo los lemarios, sino que, por supuesto, también las definiciones, las marcas lexicográficas y el resto de datos y de metadatos. Unos diccionarios, por cierto, que están recibiendo grandes cantidades de dinero público".

Si Escribá habla del sesgo pro-anglosajón de los modelos de IA vigentes en el mercado, Gómez-Obregón recuerda que por nuestro lado también nos estamos tirando piedras sobre nuestro propio tejado:

"Y esto no sólo es un asunto de soberanía nacional, como usted dice, y yo lo comparto, sino que es también, y sobre todo, una traba que la cultura en español se está autoimponiendo en un mundo cada vez más anglosajón"
Un vistazo a…
Cómo solicitar el CERTIFICADO DIGITAL de PERSONA FÍSICA de la FNMT

"Los datos! ¡Los datos! Los datos! No puedo hacer ladrillos sin arcilla!" (Sherlock Holmes)

Nuestro protagonista pide, además, que no nos limitemos a desarrollar 'modelos en español', sino también "modelos verticales, entrenados con conjuntos de datos específicos". Pero hay un problema, que los datos con que podríamos entrenarlos no están disponibles para los desarrolladores:

"Como usted dice, [estos modelos] requieren del acceso a grandes bases de datos y grandes conjuntos de datos documentales, pero ¿quién tiene estas bases de datos? Bien, pues las tienen ustedes mismos, las tiene sobre todo el Estado, pero no las comparten. Y por eso los desarrolladores no podemos utilizarlas ni construir herramientas con ellas".
"[...] Así que, por favor, denos acceso a los datos. Y ya construiremos nosotros los modelos y le aseguro que muchos van a ser libres".

La de Gómez-Obregón no es una queja en abstracto, hay ejemplos concretos de eso. Y los menciona en el vídeo:

"El Consejo General del Poder Judicial atesora 8 millones de sentencias de los tribunales.  Ya están digitalizadas, anonimizadas, no hay ninguna objeción desde el punto de vista de tratamiento de datos personales. Y, aunque la Constitución dice que las sentencias son públicas y la ley dice que están exentas de propiedad intelectual, el Consejo no permite su libre reutilización. ¿Por qué? Porque las están vendiendo".

Opina que el ministro de Transformación Digital debería hablar con su colega de Justicia en el próximo Consejo de Ministros sobre este tema... y sobre el Registro Mercantil:

"Los datos del Registro Mercantil son un tesoro que es público, pero que no se pueden descargar masivamente. Porque con él se están lucrando de nuevo un puñado de funcionarios del Estado. Si estos datos fueran libres, los técnicos, los desarrolladores, podríamos construir herramientas para dar más transparencia a la contratación pública, promover una mayor competencia en las licitaciones y detectar y arrasar con tramas de corrupción".

En resumen...

"Pero para eso necesitamos fuentes de datos abiertas con las que poder entrenar modelos de inteligencia artificial. Y la capacidad de desbloquear todo esto, el acceso a estas fuentes de datos, no depende de ningún ente distante y abstracto, depende de ustedes".

Imagen | Marcos Merino mediante IA

En Genbeta | Hablar con la Administración es tan difícil que este hacker lo ha intentado con carta manuscrita, lenguaje quijotesco y lacre

Inicio