web 0

La loi de Godwin : Débat et discrédit

En 1990, Mike Godwin fait la constatation suivante « Plus une discussion en ligne dure longtemps, plus la probabilité d’y trouver une comparaison impliquant les nazis ou Hitler s’approche de 1. » (« As an online discussion grows longer, the probability of a comparison involving Nazis or Hitler approaches 1. »)

Depuis plusieurs années, cette remarque empirique a été appliquée à Internet et plus particulièrement aux forums. On y lit que certains s’interrogent pour savoir « à quel moment ce forum atteindra-t-il le point Godwin ? » Il est ainsi du devoir de tout modérateur de guetter les signes avant-coureurs de la survenue de ce point …

Qui est Godwin ?

Mike Godwin est un avocat américain qui a été chercheur à l’Université de Yale et est aujourd’hui le directeur juridique et le coordinateur juridique de la fondation Wikimedia.


Web 0.0, ce web qu’on nous cache !

Reprenons nos investigations … à la recherche du web caché. Je ne connais guère que 3 façons d’aller à un endroit précis. Je connais l’adresse, je trouve l’adresse ou je découvre une nouvelle adresse.

Les pages du web 0.0 sont indubitablement de celles qu’on découvre. Si elles sont cachées, je ne les connaissais pas et les moteurs ne me donnaient pas le moyen de les trouver. En reformulant ma question, j’en arrive à ceci. Peut-on s’organiser pour que cette découverte soit possible, puis fructueuse ? Il est clair que tout cela doit se faire dans le respect des sites et des lois. Il s’agira donc de découvrir ce qui est licite d’accès ou d’accès licite.

Pour ne pas aller au hasard, à la crétin.fr, il est naturel de se demander s’il n’existe pas une manière d’utiliser les moteurs de recherche pour trouver ce qu’ils ne nous donnent pas habituellement comme réponse. Notons tout de suite que cette approche repose entièrement sur ce que les moteurs ont décidé d’indexer. Je le dis autrement : il s’agit d’accéder au plus caché de se qui n’est pas caché. Et nous mettrons de côté l’authentiquement caché, celui n’est pas indexé et est déconnecté (sans lien) de ce qui est indexé.

Pour cela, il faut utiliser la recherche expressive des requêtes offertes. Prenons Google comme bac à sable pour quelques expériences à la recherche de pages « normalement » impossibles à trouver.

Si je cherche les pages avec cheval et vapeur, je demanderai :

  • cheval vapeur
  • +cheval +vapeur
  • (+ cheval +vapeur)

Si je ne veux pas voiture :

  • cheval vapeur -voiture
  • (+cheval +vapeur) -voiture
  • etc.

L’utilisation de la négation ne peut pas se faire seule. Pas possible de trouver toutes les pages où il n’est pas question de voiture. L’opérateur de Google n’est pas une négation mais un sauf.

  • -voiture

Cette requête n’est donc pas possible.

En revanche, comme Google ne travaille pas au niveau d’ensemble mais évalue d’abord la requête selon une logique formelle qui lui est propre et lance une seule requête, il est possible d’écrire des requêtes que le bon sens jugera impossibles et d’obtenir tout de même des réponses … Exemple :

  • cheval -cheval vapeur -vapeur

Essayez, vous serez étonné ! Cela donne une réponse … Ca ne marche à tous les coups. « moteur voiture -moteur -voiture » est sans réponse mais « moteur voitures -moteur -voitures » a une réponse. Pour ceux qui regarderont le code source de la page, ils comprendront meiux ce qui se passe dans les coulisses de Google. A vous de jouer !

Effet de bord : En préparant ce post, je suis tombé sur un bug de Google. Si vous cherchez « a b -a -b » et que vous cliquez sur « Rechercher » puis dans la page de réponses sur « Recherche avancée », vous verrez que la requête a été modifiée en « ab -a -b ». Ce qui ne donne bien évidemment pas les mêmes réponses.


Et si on parlait du Web 0.0

Quel est le problème ?

Bon, je vois que vous pensez que je bourdonne (NDLR : buzz = bourbonnement) avec un Web de plus ! En plus, ce serait un proto Web, ou peut-être un vétéro Web … Non, vous n’y êtes pas. Ce Web là ne veut pas qu’on le débusque. C’est le Web qui veut rester caché.

La semaine dernière, je vous avais parlé du Web caché, mais c’était du Web naturellement caché. Ici, il en va tout autrement. Car pour se cacher du Web quand on y est exposé, il faut certainement déployer encore plus d’énergie que pour un bon référencement. Retourner ou rester dans le Web 0.0 peut être bien plus compliqué que d’émerger dans le Web 2.0 ;-)

Ce que n’est pas le Web 0.0

On peut certainement gloser autour de ce Web là. Certains blogueurs entendent par Web 0.0 :

  • l’internet de la fracture numérique, celui des absents du Web pour raison de manque de moyen
  • ou celui des technophobes

Cela ne semble pas être la bonne approche. Certes, il y a là de la réalité humaine et sociale. Mais, je crois que le syntagme Web 0.0 doit dénommer un « non Web » volontaire.

Quel est le besoin auquel répond le Web 0.0 ?

Alors que tout le monde publie et se rend visible dans la Blogosphère, ou plus largement dans la logosphère, il y a des sociétés, des personnes, des communautés, des officines, des agences qui paient très cher leur absence du Web. Vous demandez à tous les moteurs de recherche … et rien, rien de rien.

Quelques astuces pour se cacher

– le déréférencement

Vous avez parfois observé que certains moteurs gardaient des liens vers des pages qui n’existent plus mais dont le moteur garde pendant longtemps, trop longtemps un reflet en cache. Les moteurs proposent normalement des solutions. Par exemple, Google peut abandonner l’indexation de pages de site lorsque la demande est faite par le webmestre (règle nécessaire pour garantir que les pages ne sont pas supprimées par erreur ou selon des critères arbitraires).

Pour faire « disparaître » un site, il faut placer un fichier robots.txt au niveau racine/root du serveur. En plaçant la bonne commande dans ce fichier, le tour sera joué :

User-Agent: *
Disallow: /

Ce fichier destiné aux robots permet plein d’autre chose. Mais, il faut ajouter qu’une disparition, ça prend du temps. Chez Google, il faut compter 6 à 8 semaines, d’après ce qu’il affiche dans la doc.

– l’anonymat

Tout ce qui précèdent ne vaut que pour déréfencer un site dont on est le responsable. Mais les affaires se corsent quand on s’attaque à ceux qui parlent de vous et que vous voudrez faire taire. Alors comment passer dans la clandestinité ?

Vous ne souhaitez pas que l’on parle de vous. En France, avec la CNIL, vous avez vos chances. Oui mais une fois de l’autre côté des frontières ?


Web caché … la profondeur du puits

Caché

En France, nous appelons « web invisible » ou « web caché » ce que les grands bretons et assimilés appellent « deep web » ou « hidden web ».

Cela désigne la partie du web qui est non accessible aux moteurs de recherche classiques et à Google en particulier puisque que c’est le moteur préféré des internautes.

Qu’est-ce qu’on nous cache ?

Il y a encore peu de temps, tout ce que Google ne savait pas indexé était quasi automatiquement caché. Le web invisible comprend par exemple des bases de données, des banques de données et des bibliothèques en ligne gratuites ou payante…

Typologie du cryptoweb

Les chercheurs Chris Sherman et Gary Price ont établi 4 types de web caché. C’est assez éclairant (si je peux m’exprimer ainsi !)

1 – Le Web opaque

Il comprend les pages qui pourraient être indexées par les moteurs mais qui ne le sont pas (limitation d’indexation du nombre de pages d’un site, fréquence d’indexation, liens absents vers des pages ne permettant donc pas un crawling)

2 – Le Web privé

Toutes les pages disponibles mais volontairement exclues (mot de passe, metatags ou fichiers dans la page pour que le robot du moteur ne l’indexe pas) font partie de cette portion de web.

3 – Le Web propriétaire

On trouve là les pages seulement accessibles pour les personnes qui s’identifient (pas d’accès pour robot).

4 – Le web vraiment invisible

Son contenu est non indexé pour des raisons tout simplement techniques. Par exemple, le format est inconnu par le moteur, les pages sont générées dynamiquement …

La profondeur du puits

Selon des estimations, la taille du web caché varie beaucoup et il est donc difficile de faire un chiffrage. Les meilleurs moteurs n’indexeraient que 3 à 10% du web. Mais comment vérifier cela ?


  • Catégories

  • Calendrier

    juillet 2017
    L M M J V S D
    « Avr    
     12
    3456789
    10111213141516
    17181920212223
    24252627282930
    31  
  • Archives

  • Copyright © 1996-2010 Blogabriel. All rights reserved.
    iDream theme by Templates Next | Powered by WordPress