Lo efímero del hipervínculo I: Introducción y principales archivos web actuales

En próximos artículos se analizarán: 2) Memento y más archivos web, 3) los archivos web pasados y futuros, 4) los de de tipo "favoritos, las "pasarelas", programas y extensiones, 5) iniciativas públicas y empresariales, 6) la automatización del archivado, 7) beneficios y 8) problemas.

La rotura de enlaces o descomposición de enlaces es el proceso por el cual los hipervínculos conducen a páginas que no se encuentran disponibles de manera temporal o permanente.

Esta situación puede suceder de muchas maneras. Desde un fallo en el servidor, una página que se traslada sin la adecuada redirección, contenido dinámico o no visible a terceros (por uso de burbujas de filtrado basadas en geolocalización o personalización o por requerir registro con contraseña), por la expiración del dominio o del certificado de seguridad, por bloqueo gubernamental, por ataque DDOS, por desaparición de una empresa, apagón, porque ese día una página web proteste y no deje acceso a su contenido a los usuarios, etc.

La memoria de Internet es corta y frágil tal y como se ha demostrado en varios estudios [1] [2] [3] con cifras escalofriantes. Que un enlace no esté localizable en unos años no sólo es molesto para un navegante cualquiera sino que provoca pérdida de información en ámbitos laborales, jurídicos y académicos.

En un estudio [2] se afirma: "tomando como referencia 160.000 URL (direcciones web) de repositorios científicos, el estudio más grande hasta ese momento, dio como resultado que un sorprendente 45% (66.096) de las URL referenciadas desde arXiv todavía existen pero no han sido preservadas para futuras generaciones y un 28% de los recursos referenciados por artículos de la University of North Texas (UNT) se han perdido".

Es lo que se denomina poéticamente en inglés como "link rot" ("descomposición de enlaces"). Además, el contenido de un enlace, aunque este esté disponible, puede haber variado tanto que ya no sirva como referencia ("content drift" o "deriva de contenido", lo que conduce al "reference rot" o "descomposición de referencias"), lo que a veces es difícil de detectar.

Por eso se han puesto en marcha varios proyectos de archivado (vídeo) de Internet y/o de datos/documentos; algunos realizados para salvar la historia de Internet en general y otros enfocados hacia el ámbito académico.

Hay tres diferentes tipos de archivado: desde el cliente ("client-side"), transaccional ("transaction-based") y desde el servidor ("server-side"). Los dos últimos requieren de la colaboración del propietario del servidor, por lo que no son tan importantes (al menos para nosotros) [4].

Los proyectos de archivado de páginas web más relevantes en general son en los que el usuario final puede realizar el proceso por sí mismo. [...] Aunque prometedores, los programas de escritorio o extensiones que realizan la misma tarea no son muy conocidos.

Los más conocidos son los que disponen de formularios para archivar el contenido mediante una URL proporcionada por el usuario ("client-side"). Sin embargo, el número de iniciativas estatales (generalmente archivos o bibliotecas nacionales), públicas y privadas es abrumadora, pero con escasa repercusión en la gran mayoría debido a que su acceso y consulta no están promocionados y su ampliación no depende del usuario.

Por el contrario, otros proyectos, aunque sean de mucho menor tamaño (Archive.is fue desarrollado por una sola persona) tienen una gran importancia para el usuario final. En la actualidad se están desarrollando aplicaciones de escritorio que pueden facilitar la tarea, pero con cada vez menos usuarios en el escritorio no parece que eso contribuya a un mayor uso. Existen extensiones que se agregan al navegador o "botones de acciones de favoritos" (bookmarklets) [A].

Hay proyectos de archivado web que también desaparecen (incluso de instituciones), lo que nos indica la necesidad de una alta calidad en los que usemos. Han aparecido como setas decenas de servicios similares que no reúnen las características para ser denominados "archivadores web". Seguramente muchos de estos servicios, asociados a gestores de favoritos, quebrarán o desaparecerán en un futuro cercano, además su enfoque no es de tipo público.

El orden en el que aparecen los sitios de archivo puede parecer aleatorio pero sigue mi criterio personal (un balance entre importancia, confiabilidad y facilidad de uso) que se ha ido formando a lo largo de años de los años. Se mencionan estos archivos:

1ª parte: Wayback Machine, Webrecorder.io, Perma.cc, Archive.is.

2ª parte: Memento, WebCite, Freezepage.com, Megalodon.jp, Archive.st.

Memento es un visor para muchos de ellos.

1 - Páginas web que archivan públicamente (presente)

Nombre: Wayback Machine (WM) (web.archive.org) supone el esfuerzo más grande para preservar las páginas web a lo largo de la historia de Internet y la WWW. Es el epítome de la "arqueología de Internet".

Fecha de lanzamiento: 1996. Acceso público: 2001. Posibilidad de guardar páginas: Otoño de 2012.

Descripción: Fue fundada por Brewster Kahle (que además fundó Alexa), con el propósito de salvar una "Internet en llamas" y convertir el IA en una "Biblioteca de Alejandría 2.0". Aparte de la propia sección de Internet Archive que cuenta con la posibilidad de subir música/archivos propios para su difusión y muchas otras características (secciones para documentar fechas concretas, canales de televisión, videojuegos, etc.), la página propiamente dicha de WM tiene dos enfoques primordiales: "web crawls" (esto es, rastreo masivo de "páginas conocidas") y posibilidad de adquirir páginas específicas por parte del usuario (lo que se conoce como "live crawl", "archivado bajo demanda"). En un principio hacían uso de los rastreos de Alexa, pero después empezaron ellos mismos a hacer los rastreos.

Wayback Machine de Internet Archive es el epítome de la "arqueología de Internet".

Cuentas: No es necesario crearse una (aunque con ella puedes llevar un registro de las páginas que has guardado). Dicha cuenta permite disfrutar de los otros servicios en Internet Archive ya mencionados y que ahora no nos interesan.

Velocidad de guardado / facilidad de uso: La velocidad es algo lenta, aunque adquirir de manera directa las imágenes es más rápido que en otros archivadores. La navegación es sencilla una vez conocidas ciertas particularidades. El esquema URL es así: web.archive.org/web/[FECHA]/[URI] (los signos "[]" marcan lugares donde se sustituye en la URL), por lo que es sencillo cambiar de URL o de fecha en la propia barra de direcciones. Veremos que es muy sencillo comprobar si una página está archivada o guardarla desde la propia barra de direcciones. Usando asteriscos podemos acceder a un directorio con todas las versiones de una misma URL: web.archive.org/web/*/[URI], (ejemplo) o incluso a todas las direcciones archivadas de un mismo directorio: web.archive.org/web/*/[URI]/*, (ejemplo). No había búsqueda por palabras y el filtrado una vez establecida una URL demandaba cantidades enormes de RAM. Afortunadamente, ha sido incorporada una búsqueda por palabras clave y el filtrado es más veloz.

Limitaciones / desventajas / problemas: No tiene limitaciones de IP, pero cuando se archivan una cantidad importante de enlaces seguidos (+100) las cookies pueden provocar un bucle de redireccionamiento. Una vez borradas se puede continuar con el archivado. No presenta una captura de imagen de cómo se ha cargado el sitio. Las guías disponibles por parte de WM son algo escuetas en cuanto a ejemplos, siendo mucho más detallada la versión de la Wikipedia.

En archivos antiguos que en el momento de la adquisición se veían bien pueden dejar de hacerlo si la página cambia el esquema de las URL de las imágenes (pese a que la dirección antigua redireccione a la actual). En mi opinión esto ha pasado porque WM no archiva todo el contenido de manera explícita sino que deja "enlaces/accesos directos" a lo que espera encontrar en la web (e intenta encontrar archivos capturados en otro momento). Al cambiar las URL de la versión en línea, las imágenes dejan de estar disponibles. Es debido a no se recogen todos los recursos que se intenta archivar. Esto no ocurre en todos los casos o si se guardan las direcciones de las imágenes explícitamente. A veces es necesario añadir un :80 para poder ver la página web, aunque la mayoría de las veces sí se muestra bien sin ello.

Otro de los problemas de WM es la divergencia temporal de algunos recursos, dando lugar a incoherencias temporales.

Para archivar vídeos de YouTube el proceso es algo tedioso, aunque se puede llegar a conseguir (he visto alguno archivado, aunque yo no lo haya conseguido).

Al ser un servicio mixto (mitad usuario, mitad robot), obedecía el criterio de exclusión de robots o archivo robots.txt, incluso cuando el archivado se producía a petición de un único usuario. Algunos archivos robots.txt son introducido por empresas que han comprado dominios que han expirado, lo que hacía que fuera inaccesible el contenido de miles y miles de páginas web a las que su dueño original no había introducido ningún criterio de exclusión. Internet Archive respondió a este problema diciendo que estudiarían eliminar el criterio de robots.txt. Google, por ejemplo, no recomienda usar el robots.txt para evitar que su rastreador web indexe un sitio y hay muchos rastreadores que no hacen caso a este criterio. Durante un tiempo, con mandar un correo e incluir el archivo robots.txt era suficiente para excluir el sitio. Sin embargo, ahora piden más datos (para evitar que terceros bloqueen contenidos del archivo).

Los dueños de páginas web (una vez demostrado que realmente lo son) pueden pedir que se elimine el contenido definitivamente de archive.org. Eso es perjudicial para la memoria de Internet (el resultado final es que páginas archivadas en un inicio quedan inaccesibles, algo que no pasa en otros como WebCite, al sólo buscar ese archivo en el momento de archivar la página), pero que WM admita estas peticiones la dota de un refuerzo legal. Otro motivo válido es cuando se tiene un servidor funcionando con un ancho de banda limitado. Obviamente hay personas que están en contra de que se haya abandonado el bloqueo mediante robots.txt aduciendo que hordas de webmasters cabreados iban a bloquear por IP a Internet Archive, lo que sería muy contraproducente. Habrá alguno, pero no es tan grave la cuestión como la quieren hacer parecer y tampoco conseguirán ser excluidos de todos los archivos digitales. Además, esas personas asumen como cierto que el archivo robots.txt es algún tipo de estándar con validez legal cuando esto es falso.

Otros problemas, como alojamiento de malware, phising, doxxing, copyright "vulnerado", etc., son consustanciales a la mayoría de archivos y se tratarán en el futuro.

Ventajas: Implementa el protocolo Memento. Debido a su enfoque global, es capaz de almacenar PDF (ejemplo), exe/archivos comprimidos (mspaint.zip), o vídeo: ejemplo: falsa alarma de llegada de misiles a Hawai / contexto), incluso de gran tamaño (en mis pruebas hasta 200 MiB, más allá puede dar errores 504 "gateway time out"). En general el esquema de la URL de añomesdíahoraminutossegundos (por ejemplo: 20190309131331), es imitado por otros sitios de archivado. Dispone de bookmarklets ("botones de acciones de favoritos") [A] y extensiones. Con el esquema "web.archive.org/web/[URI]" se puede comprobar si un sitio ya está archivado (si lo está, muestra la última versión archivada, si no está y no presenta ningún problema, te da la opción de archivar la página) y con el esquema "web.archive.org/save/[URI]" se puede archivar de manera directa. Puede ser rearchivado fácilmente. Tiene botones de compartir en redes sociales (Facebook y Twitter).

Confiabilidad: Es el archivo web por excelencia y si en algún momento falla de manera permanente (por falta de financiación u otro motivo, p.ej. censura) tendremos un grave problema. Ha tenido períodos de caída (como cualquier otro sitio web), debido a fallos de infraestructura, apagones, mantenimiento de la plataforma, que han durado horas. Hay archivos que han dejado de estar disponibles debido, a fallos de hardware. Hay países que han bloqueado a WM como la India.

Otros datos: Es el archivo más grande y otros archivos e instituciones. Como la CDL que ha traspasado el núcleo de su archivo al servicio de pago de WM, Archive-it, abandonado su propia solución. En un interesante artículo, Ed Summers advertía en 2015 sobre que haya mayor cooperación y más propuestas de archivado (para evitar un SPOF o "punto único de fallo").

Wayback Machine es el archivo web por excelencia y tendremos un grave problema si en algún momento falla de manera permanente.

WM es el archivo web más antiguo con archivado bajo demanda que continua en línea hasta hoy. Internet Archive es miembro fundador de la IIPC (International Internet Preservation Consortium) junto con otras 11 instituciones: Biblioteca Nazionale Centrale di Firenze, Real Biblioteca de Dinamarca, Biblioteca Nacional de Francia, de Finlandia, de Suecia, de Islandia, de Noruega, de Australia, Library and Archives de Canada, The British Library y The Library of Congress. La Biblioteca Nacional de España se incorporó en 2010.

Sus desarrolladores produjeron Heritrix, un rastreador muy conocido. Su formato, WARC, es un estándar ISO y es muy usado entre las iniciativas de archivado web de las grandes bibliotecas. Entorno a sus herramientas y formatos se ha desarrollado todo un grupo de herramientas que en ArchiveTeam llaman "ecosistema WARC". Volveré en un artículo futuro sobre estas herramientas.

Nombre: Webrecorder.io (WR) (webrecorder.io/) constituye una versión modernizada del propósito de Internet Archive Wayback Machine. Está enfocado explícitamente en adquirir contenido multimedia, generado en redes sociales o contenido que no se puede archivar sin la interacción del usuario.

Fecha de lanzamiento: Agosto 2016.

Descripción / cuentas: Surgió como un proyecto de Rhizome. Se enfoca exclusivamente en archivar contenido a petición del usuario. Es necesario crearse una cuenta (que proporciona 5 GiB) lo que otorga mayor privacidad al usuario que guarda las páginas. Los archivos se pueden hacer públicos (ejemplo) o dejar como privados (y exportarlos en formato WARC) y también se pueden eliminar. Permite adquirir páginas que no es posible guardarlas correctamente en ningún otro, como por ejemplo artstation, instagram (ejemplo) (sí, muchos ejemplos son de cosas mías) o páginas que tengan "complicados" sistemas anti-archivo (sí, Motherboard, es inevitable, todo se puede archivar —volveré en el futuro varias veces sobre este punto—) o con desplazamiento interminable . El archivado sigue un flujo "natural", cuando está en "modo grabación" cada acción realizada genera un registro en la web, por lo que desplegables, JavaScript, vídeos, etc., son capaces de funcionar en la versión "capturada". Las diferentes direcciones web visitadas se guardan en una sesión que puede ser visualizada a modo de lista.

Webrecorder.io es el modelo a seguir dentro de los archivadores web del futuro: descentralizados, personales, con respeto a la privacidad del usuario y "portables".

Velocidad de guardado / facilidad de uso: Archiva más rápido que Wayback Machine (presupongo que esto es debido a que guarda a la vez que carga el contenido para tener una mejor respuesta. WM primero guarda todos los componentes y luego carga la página adquirida). La búsqueda de webs ya archivadas es más engorrosa al ser archivos generados por particulares donde las direcciones cambian debido a los diferentes nombres de usuario y de sesión. Ejemplo: webrecorder.io/[nombre-de-usuario]/[nombre-de-sesión]/FECHA/[URI]. Los apartados en cursiva no es fácil conocerlos.

Quizás por ello no dispone de búsqueda integrada. Esto es probable que cambie en el futuro.

Limitaciones /desventajas / problemas: No tiene extensiones para usar con el navegador. Supongo que para automatizar el proceso (ver Automatización en un futuro artículo) se puede usar la versión de escritorio Webrecorder Player. Además, si queremos recuperar un enlace privado tendremos que ir a nuestra cuenta.

Ventajas: Implementa el protocolo Memento. Ignora el archivo robots.txt. Dispone de URL para archivado: webrecorder.io/record/ (aunque requiere estar ya logueado). Tiene "botón de acción de favoritos" [A].

Webrecorder.io es el modelo a seguir dentro de los archivadores web: descentralizados, personales, innovadores y privados. También portables, al poderse exportar en formato WARC. Al tener el usuario el control, es más difícil tener una visión general de un archivo, pero este también puede ser más resistente a ataques legales futuros. Al fin y al cabo, un archivo web personal y privado en casi nada se diferencia de guardar una página en un ordenador particular, más que en la capacidad técnica de que el resultado sea preciso y sea reproducible por terceros en línea.

Permite obtener archivos desde WM o desde cualquier archivo público (con la opción "patch this URL" —"parchea esta URL" obtener una "foto de pantalla" e incrustar en iframes. También tiene botones de compartir con redes sociales (twitter y facebook).

Una cuestión muy importante y de la que no me había dado cuenta, es que no sólo permite exportar WARC sino también importarlos haciendo posible leer WARC de Internet Archive (una de las críticas de Ed Summers).

Un nuevo añadido muy interesante es la nueva posibilidad (verano de 2018) de presentar las colecciones de manera pública y con una interfaz atractiva. Más recientemente aún (02-2019), ha sido mejorada y el resultado es espectacular demostrado por dos ejemplos: "Selling Dream Dance" y "Forgotten Websites". Esto viene a hacer de WR la mezcla ideal entre un gestor de favoritos y un archivador, con la importante distinción con respecto a los gestores de favoritos en línea (aunque también hacen funciones de archivado) que el diseño interno está en función de la capacidad de archivar sitios y no al revés; el punto más importante: permite la exportación en archivos WARC.

Además, las colecciones de este tipo (enfocadas a conservadores, "curators") son públicas, por lo que pueden ser archivadas a su vez en otros archivadores (aunque Archive.is y WM fallan en la tarea). PageDash, en cambio, sí puede archivarlo.

Confiabilidad: Está patrocinado por Rhizome, que tiene varios proyectos similares y ha desarrollado herramientas del mismo estilo (como Colloq u Oldweb). También hicieron otros proyectos que hoy son curiosidades sobre visualización de nodos web. Están financiados por la Andrew W. Mellon Foundation que también creo JSTOR, Archive Unleashed y ha financiado Memento.

Otros datos: Dispone una opción de elegir el tipo de navegador para archivar o para ver el archivado, por lo que tecnologías que se queden obsoletas como flash o applets java serán emuladas para poder disfrutar de todo el contenido, aunque a veces no funciona. Debido a que provee una manera de descargar las sesiones en el citado formato WARC, hay quienes hacen volcados sus archivos a Wayback Machine.

Nombre: Perma.cc (perma.cc).

Descripción: Es otro archivador web moderno fomentado por Harvard y otras grandes bibliotecas. Su enfoque es específicamente académico. También es muy usado en ámbitos legales. Está destinado a la preservación de larga duración (de verdad, no como otros ejemplos que veremos después).

Fecha de lanzamiento: Septiembre 2013.

Cuentas: Es necesario registrarse para efectuar un archivado de una página web. Se tiene acceso de manera gratuita a 10 archivados al mes.

Velocidad de guardado / facilidad de uso: No soy capaz de valorar su velocidad de guardado porque lo he usado muy poco. Al hacer el artículo he descubierto que se pueden buscar URL guardadas mediante: perma-archives.org/warc/*/[URL] (ejemplo).

Similar a webrecorder.io en uso y filosofía (aunque con un enfoque académico), perma.cc parece el archivador web en el que confiar cuando queramos que algo jamás abandone la web, pero [...] apenas permite adquirir diez páginas al mes a las cuentas gratuitas.

Limitaciones /desventajas / problemas: Haciendo este artículo he descubierto que es falso que no se pueda obtener una URL en formato largo. Sin embargo, no hay ninguna forma directa (desde perma.cc) de hallar dicho enlace. Las URL largas siguen este esquema: perma-archives.org/warc/[añomesdíahorasegundos]/[URI]. La manera más sencilla de optenerlas es a través de Memento, aunque se puede deducir la URL con el esquema dado: ejemplo URL corta / ejemplo de URL larga deducida. Las URL con este esquema no tienen la interfaz normal.

No he encontrado los esquemas explicados en la documentación.

Falla algo más que WR al archivar (normal, por otro lado). No puede guardar vídeos.

Ventajas: Dispone de un botón de acción de favoritos [A] y de una extensión. Las páginas web archivadas se pueden marcar como públicas o privadas y se pueden descargar en formato WARC. Permite asociar varias páginas web a un solo archivo (o carpetas). La cuenta dispone de una clave API, supongo que para poder usarse en terceras aplicaciones.

Ante un archivo robots.txt que bloquee su archivado anteriormente reaccionaba haciendo que la versión archivada no pudiera compartirse y se marcase de manera irrevocable como privada, actualmente sigue reaccionando así ante un robots.txt que tenga explícitamente excluido a la araña de perma.cc. Sin embargo, en el caso de ser un bloqueo genérico el archivo se hace automáticamente público.

Confiabilidad: Dicen que han tomado medidas de duplicación, preservación y financiación a largo plazo, estando apoyados por grandes universidades y con un "detallado plan de contingencia". Similar a webrecorder.io en uso y filosofía, perma.cc parece el archivador web en el que confiar cuando queramos que algo jamás abandone la web, pero su modelo freemium apenas permite diez páginas archivadas al mes para los usuarios gratuitos, lo que, aunque permite una mayor sostenibilidad (hay dinero que entra y menos que sale) hace que sea menos conocido. Los archivados públicos son subidos automáticamente a Internet Archive.

Otros datos: (Se pueden ver como ventajas o como desventajas): Una vez pasadas 24 horas los enlaces no se pueden eliminar. Se puede subir una foto de pantalla propia si las fotos de pantalla generadas no cargan. Al principio Perma.cc requería que un individuo asociado a una biblioteca, una revista o una corte penal "estableciera" ("vest") los enlaces para que pasaran a ser permanentes. Los archivados sin esta validación eran temporales y podían expirar si no se renovaban.

Nombre: Archive.is / archive.today. Archivador enfocado en permitir adquirir al usuario webs 2.0. Apareció antes que webrecorder.io. Busca almacenar el contenido de manera estática (eliminando Flash, vídeo, sonido, pdf, rss y xml y en general el contenido dinámico con JavaScript). Integra una captura de pantalla y una versión comprimida de todo el contenido.

Fecha de lanzamiento: 2012.

Descripción: Sistema alternativo a WM antes de que surgieran nuevas alternativas como WR o perma.cc y con mejoras substanciales con respecto a WebCite. El enfoque es diferente y fue el primero en permitir archivar páginas web que pedían explícitamente en su robots.txt que no fueran rastreadas. Sin embargo, esto parte de la concepción errónea de que Archive.is es un robot, cuando no lo es en absoluto, puesto que sólo se pueden archivar páginas a petición de un usuario. Esto parte de la concepción errónea de que el archivo robots.txt tiene algún tipo de validez legal, cuando ni siquiera es un estándar real (a pesar de que en muchos lugares se lo denomine incorrectamente como estándar).

Cuentas: No existen cuentas de ningún tipo.

Velocidad de guardado / facilidad de uso: El tiempo de guardado es bastante rápido en comparación con WM (Wayback Machine). Muy probablemente debido a eliminar ciertos elementos. En el caso de guardar imágenes explícitamente la velocidad es menor debido a que se tiene que generar un ZIP.

Limitaciones /desventajas / problemas

A veces es complicado encontrar algunas páginas web ya archivadas, debido a que el buscador diferencia entre HTTP y HTTPS y entre "dominio.com" y "www.dominio.com" (eso en ocasiones es positivo también, al poder guardar una página web de varias formas).

Hay algunas "pasarelas" (en un futuro artículo explicaré mi definición sobre lo que es una pasarela) que tampoco son detectadas por dicho buscador, haciendo que un archivo de una determinada página esté presente en dicha página pero no apareciendo en el listado completo. Esto es normal teniendo en cuenta la complejidad de las webs que pueden servir como pasarelas (aunque detecta cualquier redirección).

Hay algunas páginas web que siguen un protocolo SSL estricto y que sólo pueden ser archivadas mediante el uso de "pasarelas" —que puede que no sigan ese protocolo de manera tan estricta—. Esto afecta a sitios web como Deviantart o Fandom (especialmente en las imágenes).

Desde la versión adquirida no se puede averiguar la URL de los elementos originales. Las imágenes tienen URL alfanuméricas.

Tiene un "tiempo de expiración" ("timeout") de 5 minutos que a veces no es suficiente para adquirir algunas páginas. También tiene un límite de 50 MB por página. Efectúa bloqueos temporales por IP (rechazo de conexión, nada drástico), que se pueden solventar mediante el reinicio del router. Sin embargo, hay que tenerlo en cuenta si se quieren adquirir muchas webs consecutivamente. Algunas páginas web como LinkedIn y otras con toneladas de contenido dinámico no se archivan bien con Archive.is . Hay ciertos dominios TLD (no recuerdo cuales pero eran compuestos o no muy comunes) que no se archivan bien (tengo la teoría de que Archive.is piensa que son extensiones de archivo). Las páginas web de Google como Drive o Presentaciones no se muestran bien.

El esquema URL de archivo es "archive.is/?run=1&url=[URI]", muy compleja si la comparamos con la de WM.

La URL que se genera por defecto es una versión acortada alfanumérica. El enlace largo y corto que se proveen en el menú de compartir por defecto no son en HTTPS. Quizás tenga que ver con que la versión HTTPS está bloqueada en Rusia.

Ventajas: Implementa el protocolo Memento. No respeta el archivo robots.txt. Dispone de una interfaz en español (a la que he contribuido con algunas mejoras, así que no podía dejar de mencionarlo). Está en También tiene un menú para compartir los enlaces, con la versión larga de la URL, código markdown, código para enlazar a través de la imagen producida (en HTTPS) y un código wiki.

Desde las imágenes capturadas se puede volver a la dirección alfanumérica de archivado. Una misma imagen archivada desde dos fuentes diferentes no se duplica en el archivo sino que se enlaza. Esto es importante en términos de sostenibilidad.

Llega a archivar páginas que fallan estrepitosamente en otros archivadores (con excepción de webrecorder.io, pero también ocurre). Gasta menos memoria RAM que WM y es más segura.

Es un archivador excepcional para adquirir cachés de diversos buscadores (incluso permite archivar la caché de Google cuando se le proporciona una dirección de un PDF, siempre y cuando Google la tenga ya, claro) o búsquedas en sí mismas (aunque el resultado de la búsqueda variará con el que se muestra en tú ordenador, seguramente dependiendo de la configuración de idioma del navegador sin interfaz gráfica que utiliza para archivar las páginas web o puede que se trate de una "violación de cookies", posibles en WM). Esto tiene su repercusión en que no es necesario un navegador para su uso.

Las URL tienen este esquema año.día.mes-horaminutossegundos (ejemplo) pero también se pueden borrar los puntos y el guión para usar el mismo formato que en WM. Es decir "2019.02.20-202602" o "20190220202602". Eso hace que sea sencillo consultar versiones cercanas en el tiempo en ambos archivos.

Se puede agregar un ancla a una determinada selección de texto en una página. Es decir, que de toda una página que puede ser muy grande, en la versión archivada se puede incluir explícitamente el lugar de la cita. Muy, muy útil (ejemplo). También se puede utilizar un porcentaje de la longitud de la página (ejemplo). Estas anclas funcionan con cualquiera de las versiones de Archive.is (acortadas o no, o con diferentes dominios).

Aunque pensaba que Archive.is no era archivable por WM (y ese ha sido el caso siempre que lo he comprobado hasta el día de hoy), resulta que parece que se ha levantado dicha limitación y sí se puede conseguir —puede que tenga que ver con que archive.org ya no respeta el archivo robots.txt—, aunque hay que recurrir a ciertos trucos (como añadir id_ a la url para evitar una redirección —ver la guía de WM de Wikipedia—). También presenta algunos fallos con las imágenes (lo que es normal al ser un archivo de un archivo).

Webrecorder.io puede archivar sin problema Archive.is y Archive.is puede archivar a WM (ejemplo).

Utiliza ciertos webproxies para saltarse restricciones mediante IP como bigmama .

El contenido es indexado en google (en ocasiones), lo que permite encontrar páginas webs caídas. El buscador acepta comandos complejos como uso de *, ? o "insite". Además cuenta con un buscador integrado de Google y de Yandex (que se activa cuando el de Google no encuentra nada), además del buscador de URL.

Dispone de botón de acción de favoritos [A] y de extensiones. Dispone de una guía donde se explican muchos más datos (por ejemplo, para obtener archivos por año, por mes, el más antiguo o el más moderno. Soporta páginas web con caracteres especiales (ñ, kanjis). Hay un botón de reporte de abusos. Algunos usuarios se quejan de que no se retira contenido y otros de que sí se retira.

Dispone de un blog de preguntas y respuestas donde atiende a las preguntas de los usuarios y corrige errores, dando una retroalimentación mayor que otros proyectos.

Confiabilidad: En la Wikipedia inglesa ha habido discusiones muy acaloradas al respecto (debido a acusaciones sin pruebas por el uso de bots de edición). Es un sitio administrado privadamente por una única persona (y que emplea a otra) a diferencia de la mayoría de otros sitios web administrados por entes públicos.

Contestando a esas dudas su responsable dijo: "Está financiado de manera privada. No hay finanzas complejas detrás. Puede parecer más o menos confiable comparándolo con una financiación de tipo "startup" o un proyecto de universidad, dependiendo de los riesgos que se tomen en cuenta. Mi muerte puede causar la interrupción del servicio, pero algo así como las nuevas condiciones del mercado o el cambio de jefe o un departamento, no". [...] "Todos los datos se almacenan en HDFS, el contenido textual se duplica 3 veces entre los servidores en diferentes centros de datos y las imágenes se duplican 2 veces. Todos los centros de datos están en Europa".

Está financiado de manera privada. No hay complejas finanzas detrás. Puede parecer más o menos confiable comparándolo con una financiación de tipo "startup" o un proyecto de universidad, dependiendo de los riesgos que se tomen en cuenta.

El sitio ha recibido ataques por parte de terceros, algunos bastante surrealistas y varios dominios han estado suspendidos. Incluso llegó a decir que al dominio .is le quedaba poca tiempo (aunque ha sido desmentido). Tiene otros dominios que funcionan exactamente igual: archive.today, archive.li, archive.fo, archive.vn, archive.md, archive.ph e incluso un onion, para tor: archivecaslytosk.onion. Esto puede verse como una inestabilidad, pero creo que la cuestión primordial es que si uno de esos dominios (que no el contenido) cae, hay opciones para acceder a través de otro dominio. El problema más importante serían los enlaces pero las versiones acortadas seguirían funcionando con el TLD correcto.

Está censurado en Australia (en relación con los atentados de Christchurch, mismo motivo que adujo YouTube para eliminar la búsqueda por fecha), Rusia y China. El administrador bloqueó el acceso parcialmente a los usuarios de Finlandia para evitar que el archivo fuese vetado allí también.

Nombre: WebCite® (webcitation.org) es una página de archivado pionera en el archivado de páginas web bajo demanda (desde algún tiempo después de 1997 hasta 2012 fue uno de los pocos archivos que permitían este tipo de archivado), con un enfoque académico y legal. Perteneció al IIPC (International Internet Preservation Consortium).

Fecha de lanzamiento: 1997.

Descripción: Al principio estuvo apoyado por la Universidad de Toronto. Incluyo este sitio de archivado web por motivos históricos (a pesar de que sigue en funcionamiento) porque su valor en la actualidad como método de archivado generalista es relativo. Y digo esto porque WebCite tiene un enfoque muy claro. Su propósito es preservar citas científicas, de ahí el amplio formulario antes de adquirir una página con su servicio. Otro apunte interesante es que fue el primer servicio que disponía de la posibilidad de que fuese el usuario el que adquiriese las páginas, antes que WM. No he conseguido averiguar el momento cuando se puso al público toda la plataforma, puesto que al principio estaba restringida a adquisición de referencias de artículos antes de ser publicados en revistas científicas.

Archive Team: "Webcite es tan a prueba de balas que lo usamos en todas nuestras páginas [...]. Pero Archive Team no confía en ningún hombre o consorcio: afortunadamente WebCite provee el formulario conveniente donde solicitar hospedar un espejo".

Cuentas: No es necesario tener una cuenta pero se necesita un correo para un archivado exitoso. Yo uso uno creado ex profeso.

Velocidad de guardado / navegación: La velocidad de guardado depende de la cola de adquisiciones. Sin usar el botón de acción de favoritos [A] específico (que tiene que ser construido previamente), el formulario completo es enorme, aunque los datos obligatorios sólo son la URL y el correo electrónico. Solicita que se provea el lenguaje. La página está muy estructurada: inicio, preguntas frecuentes, noticias, solicitar (para unirse a la organización), miembros (las organizaciones que son miembros de WebCite), búsqueda, "comb" (para archivar varios enlaces de manera consecutiva), archivar y " botón de acción de favoritos".

No dispone de una manera directa (escribir en la barra de direcciones) de buscar una página, hay que hacer esto a través del formulario correspondiente. Quizás sea para limitar el número de visitas y la carga del servidor.

Limitaciones / desventajas / problemas: Yo tengo una opinión no muy positiva de este archivo. Esta opinión no es compartida por ArchiveTeam. La página contiene mucha información, quizás demasiada (sí, es gracioso que yo lo diga, aunque no deja de ser cierto), pero se echa de menos un menor número de formularios: varios se podrían combinar en la misma página, como en WM y en Archive.is donde búsqueda y archivado; en el caso de WebCite la de "comb" se podría incluir en una misma página.

Los resultados de WebCite con algunas páginas web son bastante pobres.

La desventaja más importante en mi opinión es que los resultados de algunas páginas web en WebCite son bastante pobres en comparación con el resto de servicios mencionados anteriormente: Wayback Machine, Archive.is, Webrecorder.io o Perma.cc. Y servicios que he posicionado en mi clasificación personal como de menor importancia como Freezepage, Archive.st (con su png completo) archivan la página más fielmente. Sólo fracasan en este caso Megalodon.jp y los servicios de caché (excepto sogou, que ignora la etiqueta meta no cache, aunque no es legible, excepto usándose como pasarela de Archive.is).

En cuanto al uso de enlaces cortos o largos, se utilizan diferentes formatos (largo, ID, corto (alfanumérico)). El formato largo, que otorga la mayor información (incluye la URL en codificación porciento —"percent-encoding"—) sólo se puede obtener de manera directa en la pantalla que aparece con los resultados del archivado (antes de acceder al archivo en sí). Cuando se acccede a las versiones de la URL "ID" o "corta", que son las que aparecen cuando se hace una búsqueda por URL, no aparece la versión larga aunque sea accesible de manera simple si se conoce la codificación. Tampoco aparece en el correo electrónico que mandan a la dirección indicada. El usuario no tiene por qué saber nada acerca de esa codificación, por lo que es un fallo de diseño. Sin embargo, Perma.cc, dirigido exactamente al mismo público objetivo que WebCite, tampoco da la opción de tener una URL en formato "largo" a través de su interfaz, sólo "alfanumérico".

Un punto muy a su favor es la inclusión de esta frase: "Por favor, nota que la forma corta ("opaca") de la URL de WebCite sólo debería usarse adicionalmente a la cita de la URL original en tu referencia bibliográfica". Es ahí cuando cobra sentido el no usar la URL larga.

Aunque se puede guardar directamente haciendo uso del esquema URL proporcionado en el botón de acción de favoritos [A]: webcitation.org/archive?url=[URI]&email=[EMILIO] , esta URL es un poco engorrosa de escribir en comparación con WM.

Ventajas: Implementa el protocolo Memento, aunque sólo en parte (no permite reconstruir, sólo encontrar) y tiene diversos fallos. Sólo comprueba el archivo robots.txt en el momento del archivo, no después. A pesar de todos los aspectos negativos mencionados (que se pueden resumir en que otros lo hacen mejor y no en que ellos lo hagan mal), la idea de WebCite es buena. Tiene un formulario integrado para guardar varios enlaces de manera consecutiva.

Confiabilidad: Para ArchiveTeam WebCite es a prueba de balas. Pero, aunque no lo fuera, existe un formulario donde solicitar el poder alojar un espejo propio. Pero WebCite ha tenido problemas de financiación y dejó de ser un miembro de la IIPC por ello (cuesta 4000 €/año la membresía). Hicieron una recogida de fondos en 2013 que creo entender que Wikimedia aportó algo (al menos sus usuarios). Se pueden producir nuevos archivos, sin embargo, no se ha producido la modernización del servicio por lo que no queda claro su futuro.

Otros datos: Por eso yo propongo no usar WebCite para nuestros enlaces que no sean realmente importantes. WebCite debería usarse para aquello para lo que se creó, que es mantener a salvo miles y miles de citas de artículos científicos.

Propongo no usar WebCite sin pensar si la página web que se va a adquirir es lo suficientemente valiosa como para estar incluida en su archivo. El objetivo real de WebCite es mantener a salvo miles y miles de citas de artículos científicos.

Bibliografía citada

[1]: Klein, M.; Van de Sompel, H.; Sanderson, R., Shankar, H.; Balakireva, L.; Zhou, K.; Tobin, R.; (2014). Scholarly Context Not Found: One in Five Articles Suffers from Reference Rot. Plos One.

[2]: Sanderon, R.; Phillips, M.; Van de Sompel, H. (2011): Analyzing the Persistence of Referenced Web Resources with Memento. arXiv.org

[3]: Denev, D.; Mazeika, A.; Spaniol, M.; Weikum, G; (2009): SHARC: Framework for QUality-Conscious Web Archiving. Max Planck Institue for Informatics.

[4]: Masanès, J. (ed), Web Archiving, Springer, 2006 via "The National Archives: Web Archiving Guidance".

[A]: "Botones de acción" para archivado web por Jakeukalane, a partir de diversas fuentes o construidos por mí.

116 meneos

5439 clics

publicado
____

17 comentarios

COMENTARIOS DESTACADOS

: «Se agradecen críticas, dudas y comentarios. Soy consciente de que a pesar de haberlo corregido varias veces subsisten algunas repeticiones, fallos de tecleo, etc.»

2019-03-27 14:30:42

: «Menudo curro que te has dado.»

2019-03-27 15:22:06

: «Debería haber incluido los enlaces de las extensiones también aquí aunque las describa en otro artículo, pero no cabía debido a limitación de caracteres. Si no se especifica, son para Chrome. Dejo algunas aquí: Wayback Machine Chrome WM Firefox safari-extensions.apple.com/details/?id=archive.org.waybackmachine-ZSF;»

2019-03-27 13:40:27

: «Joder, qué trabajazo! He empezado pero necesito una tarde libre para leérmelo completo. Muchas gracias por la aportación!»

2019-03-27 14:40:08

: «#9 Bueno, tengo claro que en algún momento de mi vida escribiré un libro aunque seguramente sea de ciencia-ficción/fantasía no de algún tema técnico. En este caso se juntan dos de mis aficiones; la Historia y la informática

Gracias #3 #4 #7 muchas gracias a todos»

2019-03-27 19:30:24

Click para ver los comentarios

menéame

condiciones legales / de uso / y de cookies
/ quiénes somos
/ licencias: código, gráficos, contenido
/ HTML5
/ codigo fuente