CSUC

La Biblioteca Nacional posa en obert el fons de l'Hemeroteca Digital

L'Hemeroteca Digital de la Biblioteca Nacional (BNE) conté milers de títols (capçaleres de premsa), entre els quals n'hi ha més de 2.000 en domini públic.

Aquests ara són accessibles de forma oberta, és a dir, com a fitxers descarregables perquè es puguin usar lliurement i sense cost (per a la seva anàlisi, processament o reutilització).

Així, la BNE ha incorporat un aparat al seu web on es recull un llistat dels títols de domini públic on el seu text complet es pot descarregar. Aquests textos s'obtenen a partir d'un procés de reconeixement òptic de caràcters o OCR, el que implica que la seva qualitat pugui variar en funció del tipus de lletra i les condicions del document original.

Aquesta iniciativa s'emmarca en l'estratègia general de la BNE per impulsar la recerca i reutilització del seu patrimoni digital (materialitzada a BNElab) i en una part específica d'aquest full de ruta que pretén analitzar, obrir i publicar les dades que BNE genera.

Fent-ho en formats oberts i reutilitzables, seguint polítiques i estàndards de reutilització de la informació del sector públic. Entre els grans conjunts de dades generades i alliberades per la BNE, s'han realitzat adaptacions als formats JSON, CSV, ODS, TXT o XML.

Per a la BNE aquesta iniciativa es planteja com a una activitat oberta a la col·laboració, un punt de partida per trobar línies d'experimentació, treball i explotació d'aquestes dades, i com a recurs de valor en camps com el processament del llenguatge natural, la recerca acadèmica o el desenvolupament de programari.

Font: Genbeta

  • Compartir:
  • #
  • #
  • #