La Biblioteca Nacional de España y varios centros de conservación de las Comunidades Autónomas ponen a disposición de sus usuarios un portal desde el que será posible acceder a la colección formada por los sitios web archivados (incluidos blogs, foros, cuentas de Twitter, imágenes, vídeos, etc.) que se recolectan con el fin de preservar el patrimonio documental español en Internet.
La Biblioteca comenzó a capturar páginas y sitios web españoles albergados en el dominio .es, así como en otros dominios y subdominios genéricos (.com, .edu, .gob, .org, .net, etc.), en 2009, con la ayuda de la organización sin ánimo de lucro Internet Archive. Desde 2011, los sitios web y las publicaciones en línea son considerados objeto de depósito legal (Ley 23/2011, de 29 de julio, de depósito legal), y como tal la BNE y los centros de conservación de las Comunidades Autónomas tienen la obligación de preservarlos como parte de sus colecciones patrimoniales.
En esta primera fase del portal, la consulta debe realizarse por URL pero se prevé que en el futuro esté disponible una nueva versión que permita una búsqueda por materias y por títulos, así como a texto completo.
Para poder acceder a la colección de sitios web archivados, los usuarios deben dirigirse a unos ordenadores especialmente habilitados en las salas de consulta de la Biblioteca Nacional de España y en los centros de conservación de las Comunidades Autónomas.
En la web de la BNE aparecen, además, los listados de sitios web incluidos en las recolecciones selectivas que se han realizado con motivo de eventos destacados, sobre materias específicas y las realizadas por los centros de conservación de las Comunidades Autónomas.
La recolección de páginas web se realiza con robots rastreadores que recorren las URL seleccionadas previamente y guardan todo lo que encuentran enlazado, con la frecuencia, profundidad y tamaño que se determine. El resultado de estas recolecciones web son los archivos web, donde se guarda y se puede consultar lo recolectado.
Las recolecciones buscan reproducir con detalle el aspecto del sitio y las funcionalidades del mismo disponibles durante la captura, de tal forma que la réplica del sitio web sea tan navegable como su versión “viva”. Una vez completado el rastreo, las webs archivadas son visualizadas en la aplicación que ofrece al usuario la posibilidad de seleccionar qué versión concreta de un sitio web desea consultar.
Debido al enorme tamaño de Internet y a los medios tecnológicos de los que disponemos actualmente, a día de hoy es imposible aspirar a la exhaustividad en el archivado web. Por eso, para intentar guardar la mayor cantidad posible de información web, se ha optado por un modelo mixto que combina recolecciones masivas y selectivas, como hacen otras bibliotecas nacionales del mundo.
Desde que el proyecto arrancó en 2009 hasta la actualidad se han llevado a cabo diez recolecciones masivas del dominio .es y 95 recolecciones selectivas, en las que la Biblioteca colabora con los centros de conservación de las Comunidades Autónomas.