PageRank 2.0 : Voici comment Google pourrait classer les résultats Internet

Le score PageRank de Google a longtemps été la mesure ultime de la qualité et pertinence d’un site, du moins dans une optique SEO. Dans un point de vue on-site, le PageRank (PR) aide le stratège à quantifier l’appréciation d’un site et de ses pages aux yeux de Google, donc un feedback appréciable. Au niveau off-site, le PR d’un site est un outil utile pour le développement des liens entrants, principalement lorsque l’on recherche des partenaires avec qui échanger des contenus et/ou des liens. Mais voilà, le fameux PageRank a perdu en fiabilité, principalement puisque Google ne partage plus cette donnée publiquement. Alors que les mises à jour du “Toolbar PageRank” deviennent de plus en plus rares, Google a finalement mis le dernier clou dans le cercueil, en annonçant il y a quelques mois que le PR ne serait jamais plus mis à jour publiquement. On comprend donc que le PageRank demeure possiblement une mesure encore utilisée à l’interne chez Google, mais comme toute méthodologie datant de plusieurs années, celle-ci est probablement déjà en cours de révision majeure. Justement sur ce sujet, le blogueur émérite Bill Slawski de SEOByTheSea.com a mis la main sur un récent brevet de Google, qui sans le mentionner explicitement, semble proposer une refonte du modèle du PageRank. On se souvient que l’objectif du Pagerank est d’évaluer l’importance d’une page principalement en fonction des facteurs off-site, soit les liens vers cette même page en provenance de sites externes. Dans ce brevet, Google présente une nouvelle façon de classer les objets internet suite à une requête, en prenant en compte à la fois les critères de qualité on-site et off-site. Ceux qui lisent le blogue de Bill savent fort bien que le contenu n’est pas toujours très facile à déchiffrer, et est généralement de nature très technique. De plus, puisqu’il s’agit d’une lecture ultra-intéressante, j’ai décidé de prendre quelques-uns des points forts de l’article et de la critique du brevet, afin d’être en mesure de proprement pouvoir songer à ceux-ci à l’aube de 2015.

Un score pour chaque objet internet

Le brevet en question est intitulé Onsite and offsite search ranking results et date du 23 septembre 2014. Les inventeurs/auteurs sont Sundeep Tirumalareddy et Trystan G. Upstill ont réalisé leur travail pour le compte de Google. Dans le document, on y présente une méthode qui serait potentiellement utilisée par Google pour classer les objets internet (page web, vidéo, actualité, etc.), suivant une requête sur le moteur de recherche. La méthode prend principalement en compte deux scores : le “global score” d’un site, ainsi que le “On-site ranking score” d’une page et/ou d’un objet. Cette méthode, lorsqu’exécutée, a donc comme résultat de déterminer l’ordre des résultats de recherche, en ordonnant les objets internet selon leur pertinence et qualité en lien avec la requête demandée. Voici une présentation visuelle du fonctionnement du score global : on-site-off-site-google Le diagramme est relativement simple à comprendre, puisque cela ressemble au fonctionnement du PageRank, comme les spécialistes SEO se l’imaginent. En détail, la méthode de classification proposée se résume aux éléments suivants : 1. Lancement d’une requête (202) : Tel des milliards de fois tous les jours, un utilisateur lance une requête sur Google pour un mot-clé et/ou une phrase. 2. Calcul du “Global ranking score” (204) : Suivant une requête, les objets internet tels que les pages, images et autres, sont triés et ordonnés selon leur “global score”, qui est possiblement déjà prédéfini dans une autre opération, par exemple l’indexation d’un site, sans que l’on puisse en être certain puisque cela n’est pas précisément mentionné, le “global score” semble être une mesure principalement au niveau du domaine global. 3. Calcul du “On-site ranking score” (206) : Les objets internet d’un même site web, par exemple ceux déjà trié dans la phase précédente, sont ensuite analysés selon leur “on-site ranking score”, soit une analyse de leurs critères de qualité selon leur contenu. Une classification de ces pages sera effectuée en prenant en compte les deux calculs précédents, soient le score global du site, ainsi que le score on-site de la page. 4. Identification de la page “représentante” (208) : Suivant la combinaison du score global et du on-site ranking score, une page du site sera identifiée parmi les pages internes du même site, laquelle devient la page “représentante” du site dans les résultats de recherche, qui sera susceptible d’être affichée pour un résultat de recherche. 5 et 6. Évaluation de la qualité de la page versus le site global (210) : Fait très intéressant, le score on-site de la page représentante sera comparée à la moyenne du score on-site de l’ensemble des pages du même site. Ainsi, si le score on-site de la page représentante est supérieure à la moyenne globale du site, et bien, la page pourrait voir son score diminué (212), ce qui affectera sa visibilité au sein de l’algorithme de recherche. En d’autres mots, si la page représentante est plus forte que les autres pages du site, et de beaucoup, cela pourrait être vu comme un signe que le domaine ne possède pas une qualité égale au niveau de ses pages internes. Cette dernière partie rappelle évidemment sans aucun doute la mise à jour du Panda, qui vise justement à récompenser les sites dont les pages internes possèdent un contenu de qualité. Pour espérer donc avoir une bonne visibilité dans ce PageRank 2.0, il faut assurer non seulement que les pages internes d’un site sont suffisamment pertinentes pour recevoir un score on-site élevé suivant une requête, mais également, que le site possède lui aussi une qualité élevée à l’ensemble du site, soit un score global. Dans tous les cas, cela devrait fortement nous inciter à assurer que les pages internes d’un site possèdent un niveau de qualité optimal ainsi qu’une autorité fortement démontrée.

L’importance des facteurs externes

Les étapes de classification ici haut ne font pas état directement des facteurs externes tels les liens entrants, mais ceux-ci sont toujours importants. En effet, le brevet mentionne que le score global d’un site prend déjà en compte les facteurs externes suivants :
  • Nombre de liens pointant vers la page/site, en provenance de sites externes.
  • L’autorité du site web.
Au niveau du dernier point, soit l’autorité du site Internet, celle-ci est déterminée de plusieurs façons :
  • Suite à une comparaison avec d’autres sites de la même thématique.
  • Selon la qualité et quantité des liens en provenance des sites de la même thématique
  • Si les liens proviennent d’un site avec une autorité perçue plus grande que le site qui reçoit le lien, celui-ci pourrait voir son score augmenter.
Ces points rappellent évidemment très clairement le fonctionnement du PageRank, donc à ce niveau peu de nouveautés pour les stratèges plus expérimentés. Par contre, il s’agit d’un bon rappel que la crédibilité d’un site au sein de son industrie est un facteur de premier plan dans l’algorithme de Google.

En conclusion

Je tiens à le rappeler : cet article analyse un brevet déposé par Google, donc il est impossible de savoir si la méthode décrite dans ce brevet est présentement appliquée au niveau de l’algorithme de Google, ou si elle le sera un jour. Pour autant que je sache, j’aurais possiblement perdu 2-3 heures de ma vie à prendre connaissance de ce brevet, et de composer ce billet par la suite. Cependant, l’intégration des facteurs de qualité à la Panda me fait croire qu’il s’agit d’une méthodologie fortement plausible au niveau de son fonctionnement, que celui-ci serait tout à fait pertinent dans le cadre de ce que l’on sait de Google, de ce qu’il recherche comme critères de qualité. L’arrêt du PageRank public laisse également croire que Google travaille probablement à une mise à jour importance de ce concept à la base de son algorithme. J’espère que cet article aura stimulé votre réflexion, et qu’elle vous aidera à identifier des aspects de votre stratégie à améliorer, que cela soit au niveau off-site ou on-site.

Vous avez apprécié cet article ?

Inscrivez­-vous à l’infolettre DCHQ afin de recevoir en primeur les derniers articles de ce blogue.

7 Comments

  1. Bonjour David,

    Superbe article. J’ai également lu le brevet mais je dois dire que ton résumé des choses m’à bien aider pour comprendre l’idée générale. Tu as du y passer un sacré bout de temps. J’ai hâte de lire plus sur ton blog quand je vois la qualité d’article que tu proposes.

    Bonnes fêtes
    Amaury

    Répondre
  2. Salut David,

    Juste pour préciser tes interrogations du début d’article, le PageRank est toujours utilisé en interne chez Google. C’est même la couche fondamentale, l’algorithme de base. D’ailleurs, le calcul du PageRank est le plus consommateur en ressources.
    Il avait déjà été complètement revu en 2001 par Amit Singhal et n’oublions pas aussi le Topic Sensitive PageRank (base de mon système du cocon sémantique ou du Topical Trust Flow de Majestic), qui est implanté depuis 2003.

    Quand à ce nouveau calcul, comme tu le suggères, on ne sait pas s’il reste au stade de brevet (comme beaucoup de brevets Google) ou s’il va/est implanté.
    Toute la difficulté chez Google est de déployer à l’échelle industrielle. Un concept peut paraître intéressant au stade de l’expérience, mais c’est une autre affaire quand il s’agit de l’activer dans le bouzin grandeur nature.

    Répondre
    • Salut Laurent, merci de ton passage sur DCHQ et d’avoir pris le temps de commenter. Oui – je suis d’accord avec toi sur le fait que le PageRank est toujours utilisé en interne, et à la base de l’algorithme. Tu as parfaitement raison quand tu dis que le challenge pour Google est de déployer à l’échelle industrielle, voilà pourquoi je pense que le RankBrain n’est pas là pour ajouter une complexité à l’algorithme, mais pour en simplifier le processus, plus vite, plus puissant et moins cher :-)

      Répondre

Laissez un commentaire