Suivez-nous sur X
|
|
|
0,
A,
B,
C,
D,
E,
F,
G,
H,
I,
J,
K,
L,
M,
N,
O,
P,
Q,
R,
S,
T,
U,
V,
W,
X,
Y,
Z,
ALL
|
|
0,
A,
B,
C,
D,
E,
F,
G,
H,
I,
J,
K,
L,
M,
N,
O,
P,
Q,
R,
S,
T,
U,
V,
W,
X,
Y,
Z
|
|
0,
A,
B,
C,
D,
E,
F,
G,
H,
I,
J,
K,
L,
M,
N,
O,
P,
Q,
R,
S,
T,
U,
V,
W,
X,
Y,
Z
|
|
A propos d'Obligement
|
|
David Brunet
|
|
|
|
En pratique : Retrouver une page Web non disponible
(Article écrit par David Brunet - septembre 2007)
|
|
Cela est arrivé à tout le monde, au moment où vous voulez accéder à une page Web, votre navigateur favori
vous signale que cette page n'est plus accessible. Les causes en sont multiples : le serveur qui héberge la
page est en maintenance, en surcharge ou a planté, il se peut que l'auteur de la page ait carrément
supprimé tout le contenu, etc.
Que ce soit temporaire ou définitif, nous allons voir dans cet article plusieurs manières de retrouver une page ou
un site Web non accessible.
Google
Google, le plus gros moteur de recherche du monde dispose d'une copie de presque toutes les pages qu'il indexe.
Il est donc possible de revoir une page ou un site qui a disparu. C'est très facile à mettre en place puisqu'à la base,
chaque page de résultats dans Google possède un lien "En cache" comme le montre l'image suivante
(rectangle rouge) :
On clique ensuite sur ce lien et on trouve une ancienne version de la page voulue. Cette solution a le mérite
d'être assez rapide d'accès et d'être possible sur un grand nombre de pages.
Mais l'inconvénient de Google est qu'une fois votre page trouvée, les liens relatifs de cette page ne fonctionnent
pas : Google n'adapte pas les liens de ses pages en cache. On regrettera aussi le fait que certains sites refusent
d'être mis en cache et, plus grave, le cache n'est disponible que pendant un certain moment (quelques mois
tout au plus).
Une méthode alternative est possible pour retrouver une page non disponible à partir de Google
(et elle arrive au même résultat que précédemment). Il suffit d'entrer l'adresse à rechercher
dans Google précédée de "cache:". Par exemple, pour retrouver le site Web d'Amiga Inc.
on tapera "cache:http://www.amiga.com".
Coral Cache
Coral Cache ou Coral Content Distributed Network
est une autre solution pour retrouver une page Web. Là encore, c'est simple d'emploi puisqu'il
faut simplement ajouter ".nyud.net" au nom de domaine. Par exemple, si "http://www.amiga.com"
n'est plus accessible, Coral Cache pourra le retrouver dans son archive avec
"http://www.amiga.com.nyud.net".
Le cache de Coral Cache est souvent mis à jour, cela va de cinq minutes à douze heures. Et il peut aussi
retrouver une page datant de plus d'un an. Les liens relatifs dans les pages sont adaptés pour fonctionner depuis
Coral Cache (mais cela ne semble pas être le cas des liens absolus).
Du côté des points faibles, on peut noter que la consultation est plutôt lente et que le nombre de pages en
cache est moins important qu'avec Google. Ce service est également incompétent pour retrouver des
fichiers volumineux.
Enfin, si Coral cache ne fonctionne pas chez vous, cela peut venir (entre autres choses) du fait que
vous êtes derrière un pare-feu qui bloque le port 8080 utilisé par Coral Cache.
l8tr
L8tr (prononcer "lèteur") est un site qui vous préviendra lorsque la page que vous recherchez sera à nouveau accessible.
Pour cela, il faut entrer l'adresse de la page à surveiller ainsi que votre adresse électronique.
Évidemment, si la page n'est définitivement plus accessible, vous risquez d'attendre longtemps le message de chez
l8tr... De plus, il faut toujours se méfier de ce genre de service qui nécessite une adresse électronique
(entrez une adresse jetable pour éviter le risque d'être spammé).
DotCache
Avec DotCache, on peut également accéder à des pages temporairement
non disponibles.
Entrez l'adresse de la page ou du site en question et cliquez sur "GO". Le résultat arrive rapidement,
mais comme avec Google Cache par exemple, les liens de la page voulue ne sont pas adaptés. DotCache
offre une copie (HTML, textes, parfois les images) de nombreux sites/pages, même de petits sites sans
prétention. Par contre, il ne met pas en cache les sites bannis.
WebArchive / Wayback Machine
Le projet Wayback Machine réunit plusieurs caractéristiques
qui en font un excellent outil de recherche d'anciennes pages : la rapidité, la possibilité de retrouver
tous types de données (Lha, Zip, PDF...) et surtout l'archivage de non pas une mais plusieurs versions des
pages. Commencé en 1996, le projet Wayback Machine compte actuellement (en 2007) plus de 85 milliards
de pages indexées !
Entrez l'adresse du site ou de la page dans le champ "Search". Vous verrez alors une liste des versions de
ce site ou de cette page. Les dates marquées avec un astérisque (*) montrent quand le site (ou la page)
a été mis à jour.
Sélectionnez alors une date et la version de la page à cette date s'affichera. Des options de recherche supplémentaires
sont disponibles en cliquant sur
web.archive.org/collections/web/advanced.html.
Vous pouvez notamment restreindre l'intervalle des dates ou afficher les doublons.
Wayback Machine ne fonctionne pas pour les périodes récentes. Il archive les contenus seulement au bout de deux
mois en général, ce n'est donc pas l'idéal pour retrouver une page disparue du jour au lendemain. De plus, les résultats
diffèrent beaucoup d'un site à l'autre : certaines versions seront quasi complètes alors que d'autres
présenteront des lacunes sur de nombreux éléments du site (pages manquantes, images pas affichées...). Par contre, il
faut souligner que tous les liens relatifs et absolus des sites mis en cache par Wayback Machine sont adaptés.
Conclusion
Le Web évolue en permanence et de nombreuses pages, potentiellement intéressantes, sont parfois
effacées. Il est donc utile d'avoir des outils, comme ceux cités précédemment, permettant de les retrouver.
La recherche de pages ou de sites non disponibles n'est, néanmoins, pas fiable à 100%. Cela est surtout vrai quand vous
recherchez un site complet (il manquera souvent les images par exemple), un contenu dynamique ou des fichiers
volumineux.
Soutenez le travail de l'auteur
|
|
|