Retrouver un site ou un contenu qui n'existe plus

De Vulgum Techus
Version du 9 novembre 2014 à 12:40 par Admin2 (discuter | contributions)

(diff) ← Version précédente | Voir la version courante (diff) | Version suivante → (diff)
Aller à : Navigation, rechercher

Procédures générales

Présentation

L'univers Internet est un monde vivant où des sites naissent, meurent et se transforment chaque jour. Certains sites disparus contenaient des informations précieuses et trouver un moyen de les retrouver est un rêve qui devient réalité grâce aux explications qui suivent.

Procédures

Ils existent plusieurs cas de disparitions listés ici :

  • Sites définitivement fermés pointant ou non sur un site parking. L'intégralité du contenu est désormais inaccessible.
  • Sites partiellement ou intégralement modifiés dont certaines contenus sont devenus introuvables
  • Site dont les liens ont changé. Le site existe toujours mais les liens dont on dispose s'avèrent inutilisables.

Sites fermés ou modifiés

Le site WaybackMachine d'Amazon, indexe plusieurs centaines de milliards de pages de l'ensemble des sites de la webosphère et les archives avec l'arborescence complète des sites à des dates données. Plus les sites sont connus et remis à jour et plus nombreuses seront les dates d'archivage par WaybackMachine.

Recherche à partir d'un lien qui ne fonctionne plus

Dans ce cas précis, un lien gardé en réserve ne fonctionne plus exemple :

www.civil-aviation.com/more/index.htm
  • Celui-ci, noté aux alentours de 1999, ne fonctionne plus en 2014 et renvoi au 10/11/14 sur :
http://domainnamesales.com/domain/civil-aviation.com
  • Un site parking qui n'a aucun intérêt particulier autre que de chercher à vendre le nom de domaine
  • C'est ici que WaybackMachine intervient. On s'y connecte à :
https://web.archive.org
  • On entre l'adresse entière dans le champ ad hoc et on lance la recherche en cliquant sur BROWSE HISTORY
  • Une timeline et un calendrier s'affichent avec les informations suivantes :
    • Timeline sur 16 années : indique les années pour lesquelles des archives du lien cherché ont été créés.
      • Celles-ci sont identifiés par des traits verticaux plus ou moins épais
      • Les années sans trait vertical n'ont aucune archive pour le lien ou le site cherché
    • Calendrier annuel : indique les dates d'archivage' pour chaque année
      • Les dates d'archivage sont repérées par un point bleu sur le calendrier
      • Les dates sans point bleu n'ont pas d'archive pour le site ou le lien cherché
  • En remontant dans les dates d'archivage, on cherche alors celle qui donne les informations les plus pertinentes. Pour le lien cherché plus haut, la plus pertinente (avant le passage du site en parking) est du 5 avril 2001 et son lien est
https://web.archive.org/web/20010405203736/http://civil-aviation.com/more/index.htm
  • Cette page affichée est navigable et l'on peut accéder au contenu des quatres lien coding decoding et ce, plus de 10 années après la disparition du site !

Recherche à partir d'un nom de domaine

La procédure est ici identique à la précédente à la différence que la recherche se fera sur le nom de domaine et non sur un lien particulier. Sachant que WaybackMachine permet la navigation dans un site archivé, il sera alors possible, en utilisant les menus et options d'origine, de trouver une page en particulier.

Sites introuvables

Là il s'agit d'un autre cas de figure. On possède un lien qui ne fonctionne plus vers une page qui a changé d'adresse. Comment la retrouver ? Plusieurs méthodes sont envisageables :

Recherche sur contenu

Ici on présume que le contenu de la page dont on a le lien est partiellement ou totalement identique à celle dont on recherche le lien. On procède comme suit :

  • On retrouve la page archivée avec l'ancien lien comme expliqué dans Recherche à partir d'un lien qui ne fonctionne plus plus haut
  • On copie une partie très caractéristique de celle-ci et on l'utilise pour faire une recherche sur Google :
Lien cherché ne fonctionnant plus -> http://www.iserv.net/~alexx/glossary.htm
Trouvé sur  WaybackMachine -> https://web.archive.org/web/20050302092444/http://www.iserv.net/~alexx/glossary.htm
Recherche sur Google à partir d'un extrait contenu dans la page archivée (on peut d'ailleurs en tester plusieurs pour plus d'efficacité) -> "DATATAPE electronics and computer industry acronyms"
Page retrouvée à -> http://www2.hawaii.edu/~hongly/alexref.html

Recherche sur adresse

Si toutes les méthodes précédentes ont échouées, il reste l'ultime manière de recourir à Google en faisant des recherches sur des parties de liens dont on dispose comme expliqué ici :

Lien cherché -> http://55.91.253.252/300mi/CLP/linguists/fbis/german/gera.htm
Recherche sur Google -> "german/gera.htm" (conserver les parenthèses !)
Résultat de la recherche -> http://www.proz.com/forum/translator_resources/6135-ger_english_political_dictionary.html
Forum qui indique un lien qui fonctionne -> http://www.ut.ngb.army.mil/clp/linguists/fbis/german/gera.htm
Google donne aussi cette page en 3e position de ses résultat de recherche

Avec cette méthode on a retrouvé :

  • Des sites qui mentionnent le nouveau lien
  • Le site lui-même

Preuve, s'il en fallait une, de l'efficacité de la méthode