Retrouver un site ou un contenu qui n'existe plus

De Vulgum Techus
Aller à : Navigation, rechercher
Lien court vers cette page : https://vt.cx/Rscep
QR code vers cette page : https://vt.cx/Rscep.qr

Mots clé

Présentation

L'univers Internet est un monde vivant où des sites naissent, meurent et se transforment chaque jour. Certains sites disparus contenaient des informations précieuses et trouver un moyen de les retrouver est un rêve qui devient réalité grâce aux explications qui suivent. Les explications données ici valent aussi pour certains contenus ou pages qui auraient été supprimés d'un site et dont on souhaite retrouver le contenu exact à une date donnée.

Procédures

Ils existent plusieurs cas de disparitions listés ici :

  • Sites définitivement fermés pointant ou non sur un site parking. L'intégralité du contenu est désormais inaccessible.
  • Sites partiellement ou intégralement modifiés dont certaines contenus sont devenus introuvables
  • Sites dont les liens ont changé. Le site existe toujours mais les liens dont on dispose s'avèrent inutilisables.

Sites fermés ou modifiés

Le site Wayback Machine d'Amazon, indexe plusieurs centaines de milliards de pages de l'ensemble des sites de la webosphère et les archives avec l'arborescence complète des sites à des dates données. Plus les sites sont connus et remis à jour et plus nombreuses seront les dates d'archivage par Wayback Machine.

Recherche à partir d'un lien qui ne fonctionne plus

Dans ce cas précis, un lien gardé en réserve ne fonctionne plus exemple :

www.civil-aviation.com/more/index.htm
  • Celui-ci, noté aux alentours de 1999, ne fonctionne plus en 2014 et renvoi au 10/11/14 sur :
https://domainnamesales.com/domain/civil-aviation.com
  • Un site parking qui n'a aucun intérêt particulier autre que de chercher à vendre le nom de domaine
  • C'est ici que Wayback Machine intervient. On s'y connecte à :
https://web.archive.org
  • On entre l'adresse entière dans le champ ad hoc et on lance la recherche en cliquant sur BROWSE HISTORY


Wayback Machine 091114-1.jpg

  • Une timeline et un calendrier s'affichent avec les informations suivantes :
    • Timeline sur 16 années : indique les années pour lesquelles des archives du lien cherché ont été créés.
      • Celles-ci sont identifiés par des traits verticaux plus ou moins épais
      • Les années sans trait vertical n'ont aucune archive pour le lien ou le site cherché
    • Calendrier annuel : indique les dates d'archivage pour chaque année
      • Les dates d'archivage sont repérées par un point bleu sur le calendrier
      • Les dates sans point bleu n'ont pas d'archive pour le site ou le lien cherché


Wayback Machine 091114-2.jpg

  • En remontant dans les dates d'archivage, on cherche alors celle qui donne les informations les plus pertinentes. Pour le lien cherché plus haut, la plus pertinente (avant le passage du site en parking) est du 5 avril 2001 et son lien est
https://web.archive.org/web/20010405203736/http://civil-aviation.com/more/index.htm
  • Cette page affichée est navigable et l'on peut accéder au contenu des quatres liens coding decoding et ce, plus de 10 années après la disparition du site !

Recherche à partir d'un nom de domaine

La procédure est ici identique à la précédente à la différence que la recherche se fera sur le nom de domaine et non sur un lien particulier. Sachant que Wayback Machine permet la navigation dans un site archivé, il sera alors possible, en utilisant les menus et options d'origine, de trouver une page en particulier.


Sites introuvables

Il s'agit ici d'un autre cas de figure. On possède un lien qui ne fonctionne plus vers une page qui a changé d'adresse. Comment la retrouver ? Plusieurs méthodes sont envisageables :

Recherche sur contenu

Ici on présume que le contenu de la page dont on a le lien est partiellement ou totalement identique à celle dont on recherche le lien. On procède comme suit :

  • On retrouve la page archivée avec l'ancien lien comme expliqué dans Recherche à partir d'un lien qui ne fonctionne plus plus haut
  • On copie une partie très caractéristique de celle-ci et on l'utilise pour faire une recherche sur Google :
Lien cherché ne fonctionnant plus -> http://www.iserv.net/~alexx/glossary.htm
Trouvé sur  Wayback Machine -> https://web.archive.org/web/20050302092444/http://www.iserv.net/~alexx/glossary.htm
Recherche sur Google à partir d'un extrait contenu dans la page archivée (on peut d'ailleurs en tester plusieurs pour plus d'efficacité) -> "DATATAPE electronics and computer industry acronyms"
Page retrouvée à -> https://www2.hawaii.edu/~hongly/alexref.html

Recherche sur liens

Si toutes les méthodes précédentes ont échouées, il reste l'ultime manière qui consiste à chercher sur Google des parties de liens dont on dispose comme expliqué ici :

Lien cherché -> http://55.91.253.252/300mi/CLP/linguists/fbis/german/gera.htm
Recherche sur Google -> "german/gera.htm" (conserver les parenthèses !)
Résultat de la recherche -> http://www.proz.com/forum/translator_resources/6135-ger_english_political_dictionary.html
Forum qui indique un lien qui fonctionne -> http://www.ut.ngb.army.mil/clp/linguists/fbis/german/gera.htm
Google donne aussi cette page en 3e position de ses résultat de recherche

Avec cette méthode on a retrouvé :

  • Des sites qui mentionnent le nouveau lien
  • Le site lui-même

Preuve, s'il en fallait une, de l'efficacité de la méthode

Articles Vulgum Techus

Commentaires

blog comments powered by Disqus