La Hemeroteca Digital de la Biblioteca Nacional de España se puede descargar en formatos abiertos, libres y reutilizables

La Biblioteca Nacional de España anunció que el texto completo de las publicaciones de dominio público de la Hemeroteca Digital puede descargarse en formatos abiertos libres y reutilizables**. Gratis, por supuesto.

La institución cuenta con una página a su web en la que se recoge un listado de los título de dominio público cuyo texto al completo puede ser descargado. Estos textos se obtienen a partir de un proceso de reconocimiento óptico de caracteres u OCR. Lo que implica que su calidad pueda variar en función de la tipografía y condiciones del documento original.

Los textos pueden ser utilizados libremente para su análisis, procesamiento o reutilización

Más de 2.000 cabeceras de prensa en dominio público

La Hemeroteca Digital cuenta con miles de cabeceras de prensa, entre ellas más de 2.000 en dominio público, cuyos números se ofrecen ahora como ficheros descargables para que puedan ser utilizados libremente "para su análisis, procesamiento o reutilización", explican desde la BNE.

"Disponer de estos los textos permite aplicar sobre ellos tecnologías de procesamiento de lenguaje natural y otras nuevas herramientas propias de las llamadas humanidades digitales, cuyo uso está cada vez más generalizado".

La iniciativa llegó como parte de la estrategia general de la BNE para impulsar la investigación y reutilización de su patrimonio digital y en una parte específica de esta hoja de ruta que pretende analizar, abrir y publicar los datos que la institución genera. Haciéndolo en formatos abiertos y reutilizables, siguiendo políticas y estándares de reutilización de la información del sector público.

Entre los grandes conjuntos de datos generados y liberados por la Biblioteca Nacional de España, se han realizado adaptaciones a los formatos JSON, CSV, ODS, TXT o XML. "La iniciativa se plantea como una actividad abierta a la colaboración, un punto de partida para encontrar líneas de experimentación, trabajo y explotación de estos datos, como recurso de valor en campos como el procesamiento del lenguaje natural, la investigación académica o el desarrollo de software", afirman.

Una versión anterior de este artículo se publicó en 2020.

Ver todos los comentarios en https://www.genbeta.com

VER 0 Comentario

Portada de Genbeta