Caché

En France, nous appelons « web invisible » ou « web caché » ce que les grands bretons et assimilés appellent « deep web » ou « hidden web ».

Cela désigne la partie du web qui est non accessible aux moteurs de recherche classiques et à Google en particulier puisque que c’est le moteur préféré des internautes.

Qu’est-ce qu’on nous cache ?

Il y a encore peu de temps, tout ce que Google ne savait pas indexé était quasi automatiquement caché. Le web invisible comprend par exemple des bases de données, des banques de données et des bibliothèques en ligne gratuites ou payante…

Typologie du cryptoweb

Les chercheurs Chris Sherman et Gary Price ont établi 4 types de web caché. C’est assez éclairant (si je peux m’exprimer ainsi !)

1 – Le Web opaque

Il comprend les pages qui pourraient être indexées par les moteurs mais qui ne le sont pas (limitation d’indexation du nombre de pages d’un site, fréquence d’indexation, liens absents vers des pages ne permettant donc pas un crawling)

2 – Le Web privé

Toutes les pages disponibles mais volontairement exclues (mot de passe, metatags ou fichiers dans la page pour que le robot du moteur ne l’indexe pas) font partie de cette portion de web.

3 – Le Web propriétaire

On trouve là les pages seulement accessibles pour les personnes qui s’identifient (pas d’accès pour robot).

4 – Le web vraiment invisible

Son contenu est non indexé pour des raisons tout simplement techniques. Par exemple, le format est inconnu par le moteur, les pages sont générées dynamiquement …

La profondeur du puits

Selon des estimations, la taille du web caché varie beaucoup et il est donc difficile de faire un chiffrage. Les meilleurs moteurs n’indexeraient que 3 à 10% du web. Mais comment vérifier cela ?