Retrouver un site ou un contenu qui n'existe plus
Sommaire
Présentation
L'univers Internet est un monde vivant où des sites naissent, meurent et se transforment chaque jour. Certains sites disparus contenaient des informations précieuses et trouver un moyen de les retrouver est un rêve qui devient réalité grâce aux explications qui suivent.
Procédures
Ils existent plusieurs cas de disparitions listés ici :
- Sites définitivement fermés pointant ou non sur un site parking. L'intégralité du contenu est désormais inaccessible.
- Sites partiellement ou intégralement modifiés dont certaines contenus sont devenus introuvables
- Site dont les liens ont changé. Le site existe toujours mais les liens dont on dispose s'avèrent inutilisables.
Sites fermés ou modifiés
Le site Wayback Machine d'Amazon, indexe plusieurs centaines de milliards de pages de l'ensemble des sites de la webosphère et les archives avec l'arborescence complète des sites à des dates données. Plus les sites sont connus et remis à jour et plus nombreuses seront les dates d'archivage par Wayback Machine.
Recherche à partir d'un lien qui ne fonctionne plus
Dans ce cas précis, un lien gardé en réserve ne fonctionne plus exemple :
www.civil-aviation.com/more/index.htm
- Celui-ci, noté aux alentours de 1999, ne fonctionne plus en 2014 et renvoi au 10/11/14 sur :
http://domainnamesales.com/domain/civil-aviation.com
- Un site parking qui n'a aucun intérêt particulier autre que de chercher à vendre le nom de domaine
- C'est ici que Wayback Machine intervient. On s'y connecte à :
https://web.archive.org
- On entre l'adresse entière dans le champ ad hoc et on lance la recherche en cliquant sur BROWSE HISTORY
- Une timeline et un calendrier s'affichent avec les informations suivantes :
- Timeline sur 16 années : indique les années pour lesquelles des archives du lien cherché ont été créés.
- Celles-ci sont identifiés par des traits verticaux plus ou moins épais
- Les années sans trait vertical n'ont aucune archive pour le lien ou le site cherché
- Calendrier annuel : indique les dates d'archivage' pour chaque année
- Les dates d'archivage sont repérées par un point bleu sur le calendrier
- Les dates sans point bleu n'ont pas d'archive pour le site ou le lien cherché
- Timeline sur 16 années : indique les années pour lesquelles des archives du lien cherché ont été créés.
- En remontant dans les dates d'archivage, on cherche alors celle qui donne les informations les plus pertinentes. Pour le lien cherché plus haut, la plus pertinente (avant le passage du site en parking) est du 5 avril 2001 et son lien est
https://web.archive.org/web/20010405203736/http://civil-aviation.com/more/index.htm
- Cette page affichée est navigable et l'on peut accéder au contenu des quatres lien coding decoding et ce, plus de 10 années après la disparition du site !
Recherche à partir d'un nom de domaine
La procédure est ici identique à la précédente à la différence que la recherche se fera sur le nom de domaine et non sur un lien particulier. Sachant que Wayback Machine permet la navigation dans un site archivé, il sera alors possible, en utilisant les menus et options d'origine, de trouver une page en particulier.
Sites introuvables
Là il s'agit d'un autre cas de figure. On possède un lien qui ne fonctionne plus vers une page qui a changé d'adresse. Comment la retrouver ? Plusieurs méthodes sont envisageables :
Recherche sur contenu
Ici on présume que le contenu de la page dont on a le lien est partiellement ou totalement identique à celle dont on recherche le lien. On procède comme suit :
- On retrouve la page archivée avec l'ancien lien comme expliqué dans Recherche à partir d'un lien qui ne fonctionne plus plus haut
- On copie une partie très caractéristique de celle-ci et on l'utilise pour faire une recherche sur Google :
Lien cherché ne fonctionnant plus -> http://www.iserv.net/~alexx/glossary.htm Trouvé sur Wayback Machine -> https://web.archive.org/web/20050302092444/http://www.iserv.net/~alexx/glossary.htm Recherche sur Google à partir d'un extrait contenu dans la page archivée (on peut d'ailleurs en tester plusieurs pour plus d'efficacité) -> "DATATAPE electronics and computer industry acronyms" Page retrouvée à -> http://www2.hawaii.edu/~hongly/alexref.html
Recherche sur adresse
Si toutes les méthodes précédentes ont échouées, il reste l'ultime manière de recourir à Google en faisant des recherches sur des parties de liens dont on dispose comme expliqué ici :
Lien cherché -> http://55.91.253.252/300mi/CLP/linguists/fbis/german/gera.htm Recherche sur Google -> "german/gera.htm" (conserver les parenthèses !) Résultat de la recherche -> http://www.proz.com/forum/translator_resources/6135-ger_english_political_dictionary.html Forum qui indique un lien qui fonctionne -> http://www.ut.ngb.army.mil/clp/linguists/fbis/german/gera.htm Google donne aussi cette page en 3e position de ses résultat de recherche
Avec cette méthode on a retrouvé :
- Des sites qui mentionnent le nouveau lien
- Le site lui-même
Preuve, s'il en fallait une, de l'efficacité de la méthode