Accueil > Articles> > Net recherche

Article publié le mardi 10 janvier 2023

Recherche d’information

Net recherche

Traque sur l’internet : sur 156 millions de blogs actifs, près de 2 milliards de site pour 30 billions * (30.000 milliards) de pages web, comment retrouver l’information pertinente ?

Les moteurs de recherche sont des « robots » logiciels programmés pour accomplir 3 tâches essentielles : visiter chaque site Web, Newsgroup ou autres ressources de l’Internet (le robot fouineur), indexer leur contenus en vue de constituer une gigantesque base de données planétaire (l’indexeur) et présenter à l’internaute des liste de réponses à leurs requêtes (le retrouveur).

Google monopolistique ?

En 2005, la polémique lancée par Jean-Noël Jeanneney, Président de la BNF, au sujet du projet de Google de numériser près de 15 millions d’ouvrages des grandes bibliothèques étasuniennes et anglaises met en relief les enjeux culturels de l’information électronique. "A partir du moment où on numérise ces 14 millions de livres, il y a un sentiment de puissance, mais forcément un choix dans un esprit américain", a déclaré M. Jeanneney. Exception culturelle française, gauloiserie anti-américaine ? Ou simplement une campagne médiatique pour sensibiliser les pouvoirs publics et les sponsors ?

Aujourd’hui, le raz-de-marée Google a fait oublié les autres moteurs de recherche. La majorité des internautes l’utilisent exclusivement et les référenceurs ne s’intéressent qu’à lui. Cette popularité s’est bâtie au détriment, semble-t-il, de l’empathie. La petite start-up géniale va-t-elle devenir l’Étoile Noire de la guerre des étoiles ? A voir.

Google Page Rank (PR)

Le PageRank ou PR est l’algorithme d’analyse des liens concourant au système de classement des pages Web utilisé par le moteur de recherche Google.

Le moteur le plus célèbre du moment à introduit dans le monde des ’recherchistes’ le principe de l’indice de popularité ou Page « Rank » qui donne un indice à chaque page en fonction du nombre de liens qui pointent vers elles et de l’importance des pages qui comportent ces liens.

Depuis 2012, le PR ne fait plus courir les référenceurs ou Search Engine « Optimizer » car ses défauts techniques ont fini par le rendre moins pertinent qu’un indice comme le Trust « Rank », mais il reste un prinicpe important du monde de la recherche d’information en ligne.

Un petit historique du PageRank

Le classement par popularité évoqué précédemment a été baptisé le « PageRank », littéralement le « rang de la page » – mais c’est aussi un clin d’œil au nom de l’un des fondateurs de Google, Larry « Page » ! Concrètement, le « PageRank » ou « PR » est un nombre de 1 à 10 qui note la popularité de chaque page web. Plus la note est élevée, plus la page est populaire. Mais l’algorithme est basé sur un calcul logarithmique : il est beaucoup plus facile d’accroître son coefficient de 2 à 3 que de 4 à 5 et successivement. Un site peu connu atteindra 3, au maximum 4, les plus connus 5 ou 6, et seule l’élite atteint 8 ou 9. Et Google ? 10 !

Ce coefficient PR de 1 à 10 dissimule en fait une fonction qui illustre une augmentation exponentielle. Le tableau de correspondance ci-dessous affiche les valeurs réelles du taux de popularité calculé pour une page et sa traduction en coefficient sur l’échelle de 1 à 10.

Le coefficient PR d’une page était une petite jauge verte, amenée par une extension au navigateur, qui affichait le PR de 0 à 10 sous cette forme :

Plus des pages à haut indice pointent un lien vers une page, plus cette dernière page cible voit son propre indice augmenter. Et plus son indice (de 1 à 10) est important, plus le site sera visible dans les premières réponses d’une SERP (Search Engine Page Results). Et inversement... Le petit schéma suivant, très répandu sur le Web, donne une bonne illustration du principe du PR :

Le tableau suivant montrait de manière flagrante le côté exponentiel de l’indice PR et donc de l’effort à fournir pour gagner des points de PR :

Graphique Pagerank
Source : © 2007 Elliance, Chris Anderson of Wired Magazine

Le PR est dessiné ici sous la forme d’une montagne à gravir, où la distance entre chaque drapeau ou valeur du PR est proportionnelle à l’effort de référencement à faire pour gagner en PR. Comme on le voit, le pied de la montagne comprend les valeurs de 0 à 7 et ne représente que le huitième de la hauteur totale.

PageRank de 0 à 2Sous la moyenne des sites
PageRank de 3 à 5Dans la moyenne des sites
PageRank de 6 à 7Au-dessus de la moyenne des sites
PageRank de 8 à 10Page « élite »

La conclusion est que toute page au PR inférieur à 7, c’est-à-dire hors de la catégorie « élite », est tout en bas du podium de la visibilité internet et que seuls les webmestres des sites les plus célèbres peuvent espérer parvenir à un PR supérieur à 7.

Si l’idée est simple, l’application informatique est colossale. Car au calcul des liens entrants d’une page (« back links » en anglais comme en jargon de référenceur), s’ajoute le calcul des PR des pages qui pointent la page. Il s’agit donc d’un calcul itératif sur des milliards de pages qui se résume à ceci : pour calculer le PR d’une page, il faut commencer par calculer le PR des pages qui la pointent, et ainsi de suite.

Les milliers de serveurs de Google fournissent la puissance de calcul pour cette vertigineuse computation. Des milliards de calculs pour des milliards de pages, ce n’est plus seulement de l’informatique, c’est presque de la poésie !

Nous avions évoqué rapidement l’existence des annuaires du Web 1.0. Yahoo ! a commencé sa carrière comme répertoire avant de jeter l’éponge pour se transformer en moteur et tenter de concurrencer l’étoile montante du monde de la recherche. Mais il reste sur le Web 2.0 des milliers de répertoires et d’annuaires comme le répertoire des artisans53 ou les pages Pro54, qui n’ont pas pour but premier d’être utilisés par les internautes : la majorité d’entre-eux ne sert plus qu’à créer des liens vers des pages de sites pour essayer d’en améliorer le PR. En un mot, ils sont là pour vous faire un « nom » auprès de Google, ce que ce dernier essaie de contrôler.

Il faut savoir enfin qu’en décembre 2013, Matt CUTTS, le porte-parole de Google à l’attention du monde des référenceurs, a déclaré qu’il n’y avait plus eu de mises à jour des algorithmes du PR depuis février 2013 et qu’il n’y en aurait plus avant 2014.

Depuis quelques années le brouhaha autour du PageRank s’est considérablement amenuisé. D’autres sujets plus à la mode l’ont fait oublier même s’il est encore utilisé.

Mais Google a-t-il pu renoncer à utiliser ce principe mathématique et statistique pour établir ses listes de résultats ? Nous pouvons en douter et estimer qu’il l’utilise toujours même s’il a été amélioré pour éviter les fraudes et compléter par d’autres algorithmes. Mais nous en sommes désormais limités aux spéculations.

Il est de bon ton et coutumier aujourd’hui de proclamer que le meilleur moyen d’être bien positionné est de « créer un contenu de qualité ». Mais aucun algorithme ne peut définir de manière ferme et définitive un contenu de qualité. Un site de qualité sera-t-il toujours populaire ? Telle est la question...

Première conclusion

Je laisserai le mot de la fin (provisoire) à une spécialiste des outils et méthode de recherche :

« La recherche d’information sur Internet est loin d’être une science exacte. Il ne faut pas se laisser abuser par l’illusion de facilité que peuvent créer les outils de recherche traditionnels : un processus efficace de recherche d’information pourra se révéler difficile et parfois long. A quoi tiennent ces obstacles ? En premier lieu, à la nature même d’Internet, élaboré au départ davantage comme un outil de communication que comme un véritable outil documentaire. »

Véronique MESGUICH, in « Net recherche », 2006.

Puisque nous parlons de grands nombre, un point sur la question ci-dessous.

Grands Nombres

Les grands nombres comme 1.000.000, 1.000.000.000, ... ou en général 10n portent des noms particuliers comme million, milliard, billion, trillion, quadrillion, billiard, trilliard, quadrilliard, etc...

https://www.noslangues-ourlanguages.gc.ca/fr/cles-de-la-redaction/mille-million-milliard

Lien : Lisez "Comprendre et maîtrisez les moteurs de recherche"


Écrire à l'auteur

Moteur de recherche

  

Mot-clef de l'article


Autres Articles

 

Contact

Ce site est mis à disposition sous un contrat Creative Commons : http://creativecommons.org

Plan du site | Se connecter