Reprenons nos investigations … à la recherche du web caché. Je ne connais guère que 3 façons d’aller à un endroit précis. Je connais l’adresse, je trouve l’adresse ou je découvre une nouvelle adresse.

Les pages du web 0.0 sont indubitablement de celles qu’on découvre. Si elles sont cachées, je ne les connaissais pas et les moteurs ne me donnaient pas le moyen de les trouver. En reformulant ma question, j’en arrive à ceci. Peut-on s’organiser pour que cette découverte soit possible, puis fructueuse ? Il est clair que tout cela doit se faire dans le respect des sites et des lois. Il s’agira donc de découvrir ce qui est licite d’accès ou d’accès licite.

Pour ne pas aller au hasard, à la crétin.fr, il est naturel de se demander s’il n’existe pas une manière d’utiliser les moteurs de recherche pour trouver ce qu’ils ne nous donnent pas habituellement comme réponse. Notons tout de suite que cette approche repose entièrement sur ce que les moteurs ont décidé d’indexer. Je le dis autrement : il s’agit d’accéder au plus caché de se qui n’est pas caché. Et nous mettrons de côté l’authentiquement caché, celui n’est pas indexé et est déconnecté (sans lien) de ce qui est indexé.

Pour cela, il faut utiliser la recherche expressive des requêtes offertes. Prenons Google comme bac à sable pour quelques expériences à la recherche de pages « normalement » impossibles à trouver.

Si je cherche les pages avec cheval et vapeur, je demanderai :

  • cheval vapeur
  • +cheval +vapeur
  • (+ cheval +vapeur)

Si je ne veux pas voiture :

  • cheval vapeur -voiture
  • (+cheval +vapeur) -voiture
  • etc.

L’utilisation de la négation ne peut pas se faire seule. Pas possible de trouver toutes les pages où il n’est pas question de voiture. L’opérateur de Google n’est pas une négation mais un sauf.

  • -voiture

Cette requête n’est donc pas possible.

En revanche, comme Google ne travaille pas au niveau d’ensemble mais évalue d’abord la requête selon une logique formelle qui lui est propre et lance une seule requête, il est possible d’écrire des requêtes que le bon sens jugera impossibles et d’obtenir tout de même des réponses … Exemple :

  • cheval -cheval vapeur -vapeur

Essayez, vous serez étonné ! Cela donne une réponse … Ca ne marche à tous les coups. « moteur voiture -moteur -voiture » est sans réponse mais « moteur voitures -moteur -voitures » a une réponse. Pour ceux qui regarderont le code source de la page, ils comprendront meiux ce qui se passe dans les coulisses de Google. A vous de jouer !

Effet de bord : En préparant ce post, je suis tombé sur un bug de Google. Si vous cherchez « a b -a -b » et que vous cliquez sur « Rechercher » puis dans la page de réponses sur « Recherche avancée », vous verrez que la requête a été modifiée en « ab -a -b ». Ce qui ne donne bien évidemment pas les mêmes réponses.