moteur de recherche

De l’information trouvée à la vérité : nécessité d’un apprentissage humaniste

Dans les débuts d’Internet, nos visites étaient motivées par le besoin de trouver de l’information et une bonne dose de curiosité, ne sachant si nous allions justement trouver ce que nous cherchions. Assez rapidement, nos recherches se sont faites plus pertinentes essentiellement pour quatre raisons :

• les outils sont plus adaptés à la recherche,
• le référencement des informations publiées s’est amélioré,
• la quantité d’informations croissant, la qualité globale de l’ensemble y a gagné,
• les utilisateurs ont aussi acquis de nouveaux usages et les ont perfectionnés.

Peu à peu, alors que nous allions chercher de l’information, nous avons attendu d’Internet qu’il nous donne l’information, toujours plus absolue. Notre sens critique a perdu en acuité. Le déplacement du « c’est écrit » de son support matériel qu’était le livre vers l’immatériel numérique se traduit par la recherche de la vérité dans Internet.

Maintenant que l’Internet est accédé par plus de 50% de la population des pays développés, son enseignement devient indispensable. Et ce n’est pas d’apprendre à manier une souris qu’il s’agit ! C’est un enseignement qui doit prendre place dans ce que l’on appelait les humanités. Quand les rapports entre les personnes qui se connaissent ou pas, s’expriment de plus en plus au travers des réseaux sociaux, il est urgent de prendre conscience de la dérive des usages, pour ne pas dire des usages en dérive.


Convergence search et réseau social, qui gagnera ?

Les réseaux sociaux (rs) se partagent l’audience mondiale avec les moteurs de recherche (mr). Au top 10 des sites les plus visités[1] se trouvent par ordre décroissant : Google (mr), Facebook (rs), Youtube (rs), Yahoo ! (mr), Windows live (mr), Baidu (mr), Wikipedia (rs), Blogger (rs), MSN (mr) et Twitter (rs). Soit 5 de chaque catégorie.

La bipartition au sommet de la popularité Internet entre moteurs de recherche et réseaux sociaux motive l’apparition de nouveaux sites aux usages ajustés. Citons en deux : l’immédiateté et la proximité.

Immédiateté. Puisque les internautes et les mobinautes ont un rapport de plus en plus immédiat avec le Web grâce aux réseaux sociaux où publier se fait à la vitesse du clic, leur besoin de recherche suit la même tendance. Ils veulent trouver jusqu’aux informations publiées et diffusées les plus récentes. Des moteurs d’un nouveau type apparaissent pour répondre à cette demande, ce sont les moteurs en temps réels[2] dont les nouvelles exigences sont la vitesse d’actualisation et la segmentation des sources sociales (réseaux, blogs, sites d’information etc.).

Proximité. Avec les progrès de la géolocalisation, les moteurs ont acquis une autre dimension sociale : ils ont appris à répondre au plus près de l’utilisateur ou de ses contacts.

Nous assistons à des tentatives répétées pour faire converger les moteurs de recherche et les réseaux sociaux. Qu’est-ce que cela va donner ? Google essaie de pénétrer de force le monde des réseaux sociaux. Mais le géant a jeté l’éponge pour Wave. L’outil de communication collaboratif n’a pas eu le succès attendu : « Wave n’a pas eu autant d’utilisateurs que nous l’aurions souhaité. » C’est la phrase que toute la presse a retenue de l’explication donnée par un responsable de la société. Google s’est aussi fait rappeler à l’ordre pour Buzz par un collège international d’autorités de type CNIL. Les réseaux qui marchent sont des succès inattendus. En 2004, un étudiant de 20 ans crée thefacebook.com dans sa chambre à Harvard. Et deux semaines plus tard, les 2/3 de l’école s’inscrivent. Six ans plus tard, plus d’un demi-milliard de comptes ont été ouverts sur le site. Google a la mémoire courte, son moteur est lui aussi un succès inattendu.

Je ne crois pas le vainqueur du rapprochement search et réseau social soit un acteur significatif de ces deux mondes. Je vote pour un nouvel entrant qui émergera à la suite d’un succès inattendu.


[1] En se référant à l’analyse de www.alexa.com pour le mois de juillet 2010.
[2] http://www.netpublic.fr/2010/08/8-moteurs-de-recherche-en-temps-reel-efficaces-et-novateurs/


Traduction automatique loufoque

Alors que je recherchais des informations complémentaires sur Nobert Wiener, le père de la Cybernétique, je suis tombé sur un article où il est question de Saucisse. Comme je ne comprenais pas le rapport, j’ai continué ma lecture … lisez plutôt :

« La saucisse était le premier enfant de la saucisse de Lion, un polonais (…) » un peu plus loin « En 1914, la saucisse a voyagé à l’Europe (…) » etc.

Cette page à lire et relire est le résultat d’une traduction automatique livrée à elle-même sans aucune intelligence. Le site qui la publie s’appelle pourtant encyclopediefrancaise.com. On pourrait pourtant s’imaginer que son contenu soit travaillé, surveillé … Au contraire, chacune des pages que j’ai pu y lire est désolante … Que fait la police ;-) Quand on publie un site aussi ridicule, je ne vois pas où cela peut bien conduire.

Heureusement qu’il existe par ailleurs de vraies merveilles en matière de traduction sur Internet. Mais si vous en avez vu des traductions aussi loufoques, alors racontez-nous pour notre plaisir à tous !


Arménien ancien : la visualisation Grokker

Parmi les moteurs de recherche, certains sont devenus de grands classiques comme Google. Ils se ressemblent beaucoup : la recherche produit une liste de résultats. D’autres cherchent à se distinguer, à offrir une nouvelle expérience de la recherche, de la présentation des résultats en liste, de la présentation d’une fiche par résultat, etc.

Grokker est un moteur qui met en oeuvre un dispositif de visualisation qui organisent les résultats en cluster. J’ai recherché « arménien ancien ». Il est remarquable de noter qu’un seul cluster porte le nom d’Antoine Meillet, le plus fameux linguiste de la fin du XIXe et de la première moitié du XXe siècle.

Pour connaitre un peu mieux Antoine Meillet, on peut lire en ligne un article paru en 1905 « Comment les mots changent de sens » et un autre paru en 1915 « Les langues et les nationalités » (Scientia, N° 18, 1915, pp. 192-201).


Web 0.0, ce web qu’on nous cache !

Reprenons nos investigations … à la recherche du web caché. Je ne connais guère que 3 façons d’aller à un endroit précis. Je connais l’adresse, je trouve l’adresse ou je découvre une nouvelle adresse.

Les pages du web 0.0 sont indubitablement de celles qu’on découvre. Si elles sont cachées, je ne les connaissais pas et les moteurs ne me donnaient pas le moyen de les trouver. En reformulant ma question, j’en arrive à ceci. Peut-on s’organiser pour que cette découverte soit possible, puis fructueuse ? Il est clair que tout cela doit se faire dans le respect des sites et des lois. Il s’agira donc de découvrir ce qui est licite d’accès ou d’accès licite.

Pour ne pas aller au hasard, à la crétin.fr, il est naturel de se demander s’il n’existe pas une manière d’utiliser les moteurs de recherche pour trouver ce qu’ils ne nous donnent pas habituellement comme réponse. Notons tout de suite que cette approche repose entièrement sur ce que les moteurs ont décidé d’indexer. Je le dis autrement : il s’agit d’accéder au plus caché de se qui n’est pas caché. Et nous mettrons de côté l’authentiquement caché, celui n’est pas indexé et est déconnecté (sans lien) de ce qui est indexé.

Pour cela, il faut utiliser la recherche expressive des requêtes offertes. Prenons Google comme bac à sable pour quelques expériences à la recherche de pages « normalement » impossibles à trouver.

Si je cherche les pages avec cheval et vapeur, je demanderai :

  • cheval vapeur
  • +cheval +vapeur
  • (+ cheval +vapeur)

Si je ne veux pas voiture :

  • cheval vapeur -voiture
  • (+cheval +vapeur) -voiture
  • etc.

L’utilisation de la négation ne peut pas se faire seule. Pas possible de trouver toutes les pages où il n’est pas question de voiture. L’opérateur de Google n’est pas une négation mais un sauf.

  • -voiture

Cette requête n’est donc pas possible.

En revanche, comme Google ne travaille pas au niveau d’ensemble mais évalue d’abord la requête selon une logique formelle qui lui est propre et lance une seule requête, il est possible d’écrire des requêtes que le bon sens jugera impossibles et d’obtenir tout de même des réponses … Exemple :

  • cheval -cheval vapeur -vapeur

Essayez, vous serez étonné ! Cela donne une réponse … Ca ne marche à tous les coups. « moteur voiture -moteur -voiture » est sans réponse mais « moteur voitures -moteur -voitures » a une réponse. Pour ceux qui regarderont le code source de la page, ils comprendront meiux ce qui se passe dans les coulisses de Google. A vous de jouer !

Effet de bord : En préparant ce post, je suis tombé sur un bug de Google. Si vous cherchez « a b -a -b » et que vous cliquez sur « Rechercher » puis dans la page de réponses sur « Recherche avancée », vous verrez que la requête a été modifiée en « ab -a -b ». Ce qui ne donne bien évidemment pas les mêmes réponses.


Le bruit du Web 2.0 : les nouveaux usages pour une recherche pertinente …

Comme je l’écrivais hier, on peut pratiquement définir le web caché comme étant celui qui échappe aux moteurs de recherche. En effet, même s’ils sont très efficaces, ils n’indexent qu’une petite partie du Web.

En plus, ils ne sont pas à jour immédiatement et il faut parfois attendre très longtemps (plusieurs jours) avant que les précieuses pages recherchées émergent. Et nous savons bien que cette apparition n’a rien de miraculeux … ce serait plutôt un business.

La pertinence selon les moteurs de recherche actuels

Elle dépend de :

  • Critères statistiques mais ne sont pas porteurs de sens
  • Des mots clés rencontrés, pas de la phrase
    • on ne tient pas compte des mots « creux »
    • on s’attache à toutes les occurences différentes des mots (non au groupe flexion)
    • on ne tient pas compte de l’ordre des mots
  • Position relative du mot dans la page, pas dans le texte
    • c’est un titre
    • il est dans le premier quart
  • Indice de popularité
    • c’est le « PageRank » de Google (voir la note en bas)
  • Méta-données
  • et bien sûr du facteur économique
    • Positionnement et référencement payant

Avec l’avénement du Web 2.0, on l’a bien vu, les outils de création de contenu se sont multipliés, ils sont devenus tellement plus faciles d’emploi … que le nombre de rédacteurs augmente plus vite que celui des lecteurs, déjà élevés par ailleurs. Bref, lorsqu’on cherche une information avec un moteur de recherche, on a de plus en plus de réponses. Globalement, l’ensemble des réponses est de plus en plus bruité … de moins en moins pertinent. Et si la loi de Cole était vraie !

Par exemple, considérons le bloging ce phénomène de société (même moi je m’y suis mis) dont les moteurs tiennent déjà le plus grand compte. Comme une forte tendance des blogs est de relayé les petits potins entre copins, une autre d’être plus des chambres d’écho des buzz du moment que des lieux d’une réelle création éditoriale, on sent bien que plus il y aura de Web 2.0 plus il y aura du bruit sur la toile ;-)

Tant que les moteurs de recherche seront sensibles aux statistiques, les agiteurs de la blogosphère qui n’ont rien à dire continueront de causer dans le poste ! et les moteurs seront dans le brouillard.

Emergence de nouvelles stratégies de recherche

Alors il faudra bien en sortir. Déjà des usages mutent. La prise de conscience du Web caché avait déjà eu pour incidence pour pousser les bonnes pratiques suivantes :

D’autres usages se développent. Par exemple, le social-bookmarking est une de ces pratiques. del.icio.us est le site paradigmatique de cette voie du favori pertinent. En offrant la possibilité de créer des réseaux de personnes, il augmente encore le caractère social de son dispositif. J’ai choisi de motoriser mon blog avec WordPress en lisant del.icio.us !

Un autre usage : la folksonomy. C’est un mot-valise issu de la contraction des mots folks ( »les gens » en français) et taxonomy ( »taxinomie » en français, la science du classement ou le système de classification hiérarchisés). Il s’agit d’une méthode de classification collaborative de contenus Web à l’aide de tags. Réalisée par une communauté d’internautes, son but est de proposer une alternative subjective et sensible aux moteurs automatiques pour faciliter la recherche et l’identification des contenus. Quelques exemples : Technorati pour classer les billets publiés sur les blogs, Flickr pour les photos et del.icio.us pour les favoris …

Et dans la vraie vie ?

Au bureau, je vois progressivement des collègues changer de page Internet par défaut. Ils avaient massivement opté pour Google … maintenant, on trouve del.icio.uc ou netvibes ou …

Et vous ?

Note : PageRank

Le PageRank est un terme anglais qui peut se traduire par « rang de page ». Cet indice de popularité, conçu par Larry Page, est calculé pour toute page Web et est utilisé par le moteur de recherche Google classer les résultats.

Note : Qui sont Larry Page et Sergey Brin ?

Larry Page (né en 1973) et Sergey Mikhaïlovitch Brin (né aussi en 1973) sont les fondateurs du site et du moteur de recherche Google. Le premier est américain, le second est d’origine russe.


  • Catégories

  • Calendrier

    mars 2024
    L M M J V S D
    « Mai    
     123
    45678910
    11121314151617
    18192021222324
    25262728293031
  • Archives

  • Copyright © 1996-2010 Blogabriel. All rights reserved.
    iDream theme by Templates Next | Powered by WordPress