Afficher Masquer le sommaire
La fuite de la documentation interne de l’API Content Warehouse de Google Search révèle des informations précieuses sur le fonctionnement de l’algorithme. Bien que cette version soit obsolète (la date la plus récente étant août 2023), elle offre encore un aperçu précieux et révèle quelques secrets du moteur de recherche Google.
J’ai examiné les documents de référence de l’API, les contextualisant avec d’autres fuites antérieures et des témoignages antitrust. Bien que la documentation ne détaille pas toutes les fonctions de scoring de Google, elle permet de valider certaines informations.
2500 documents internes de Google dévoilés
Les documents divulgués révèlent l’existence de milliers de modules dans la documentation de l’API (14 000 ), avec leurs attributs associés. Chaque module est détaillé avec des résumés, des types, des fonctions et des attributs. Cependant, de nombreux résumés renvoient à des liens internes sur l’intranet de Google.
Une fuite de 2 500 documents internes que Google, après avoir fait la sourde oreille, a finalement confirmé ce 30 mai 2024. « Nous mettons en garde contre des suppositions inexactes sur la recherche basées sur des informations hors contexte, obsolètes ou incomplètes« , a ainsi déclaré Davis Thompson, porte-parole de Google. « Nous avons partagé des informations détaillées sur le fonctionnement de la recherche et les types de facteurs que nos systèmes prennent en compte, tout en protégeant l’intégrité de nos résultats contre les manipulations » s’est-il encore justifié.
Fuite massive de documents internes : Google dans la tourmente
Cette fuite pourrait provoquer des remous dans l’industrie du référencement naturel. Les documents suggèrent que Google collecte et utilise potentiellement des données qui n’étaient pas censées contribuer au classement des pages web, comme les clics, les données des utilisateurs Chrome, etc.
Bien que ces milliers de pages agissent comme un référentiel pour les employés de Google, il n’est pas clair quelles données détaillées sont réellement utilisées pour classer le contenu de recherche. Ces informations pourraient être obsolètes, utilisées à des fins de formation ou collectées, mais non exploitées pour la recherche. Cependant, la pondération exacte n’étant pas dévoilée, l’impact pourrait rester limité. Un doute persiste toutefois sur l’utilisation controversée des données issues de Google Chrome.
Bien que le contenu de ces documents soit assez technique et peu compréhensible pour le grand public, les experts en référencement ne manqueront pas de les analyser en profondeur dans les semaines à venir.
Difficile de prédire si cette fuite aura un impact positif en permettant d’améliorer la pertinence des résultats de recherche Google, ou si au contraire, elle ouvrira la voie à une recrudescence massive de contenus de faible qualité spécifiquement conçus pour coller aux critères désormais connus.
Petit point sur l’indexation
Nous avons rencontré des problèmes pour indexer nos pages dernièrement. Heureusement, la documentation contient des informations à ce sujet. En bref, un site puissant, avec des impressions, des clics et des visites, sera priorisé.
- pagerankScore : Score de PageRank, utilisé pour évaluer l’autorité et la pertinence d’un document.
- patternScore : Score basé sur les modèles d’URL pour évaluer la qualité et la pertinence d’un document.
- priorSignal : Liste de signaux antérieurs utilisés dans le scoring.
- targetSite : Ciblage au niveau du site.
Spam et YMYL
Cette section décrit les attributs utilisés pour évaluer et classer les documents en fonction des scores YMYL (Your Money or Your Life) et des données de SpamBrain. Google attribue une note de 0 à 127 pour le spam et une note YMYL de -2147483648 à +2147483647.
- spamrank : Indique le score de spam attribué au document.
- spamscore1 et spamscore2 : Mesurent le score de spam sur une échelle de 0 à 127.
- spambrainData : Contient des scores de SpamBrain pour détecter et évaluer le spam.
- ymylHealthScore et ymylNewsScore : Évaluent la pertinence et la fiabilité des contenus liés à la santé et aux actualités.
Nouveauté : thématisation & whitelist
Boost SEO pour un site thématisé
La thématisation pourrait être un point fort. Par exemple, un site avec un siteFocusScore élevé est considéré comme spécialisé et pertinent pour un sujet spécifique.
- browsyTopic : Utilisé par Discover pour classer le contenu dans des catégories spécifiques.
- siteFocusScore : Indique la spécialisation d’un site dans un domaine particulier.
- smallPersonalSite : Valorise les petits blogs, ajoutant diversité et perspectives personnelles aux SERP.
- gobiSite distingue les sites importants pour des requêtes spécifiques, tout en isolant le site sur d’autres thématiques (même si les sous-répertoires des gros médias semblent contredire ce point )
Système de whitelist
Utilisé pendant la crise du COVID-19 la liste blanche distingue les sites importants pour des requêtes spécifiques, mais en isolant le site sur d’autres thématiques les élections, ce système permet à certains sites d’être mis en avant.
- isCovidLocalAuthority : Indique si le site possède le signal d’autorité locale Covid.
- isElectionAuthority : Indique si le site possède le signal d’autorité électorale.
Informations validées
Google utilise les données récupérées par Chrome, les probabilités d’usage et la popularité. On retrouve donc les informations de Navboost, du PageRank et l’usage utilisateurs.
Usage utilisateur
Divers attributs évaluent les interactions des utilisateurs pour classer les documents dans le moteur de recherche.
- chromeWeight : Poids attribué par Chrome.
- navboostScore : Score de boost de navigation.
- impressions et clicks : Enregistrent combien de fois le document a été affiché et cliqué.
- goodClicks et badClicks : Nombre de clics jugés pertinents ou non.
- chromeInTotal : Vues Chrome au niveau du site.
Autorité
Google évalue l’autorité des sites à travers plusieurs attributs.
- siteAuthority : Mesure l’autorité globale d’un site.
- authorityPromotion : Promotion de l’autorité, renforçant le positionnement du site.
Historique du nom de domaine
Google surveille l’âge d’un domaine pour repérer du spam via un domaine expiré.
- hostAge : Date de première vue de toutes les pages de ce domaine.
- createdDate : Nombre de jours depuis le 1er janvier 1995 que ce domaine a été créé.
Popularité
Les liens et les ancres répertoriées dans un document jouent un rôle clé pour Google.
- pagerank : PageRank du document.
- anchor : Liste des ancres dans le document.
- numIncomingAnchors : Nombre pondéré de liens entrants.
Informations classiques
Il faut fuir le nofollow
N’utilisez pas de liens en nofollow, car s’il y a plusieurs liens vers la même URL sur une page, Google ajouterait le même attribut à tous.
Transfert de popularité
- forwardingTypes : Comment l’ancre est transférée au canonique.
Termes saillants
- salientTerms : Mots ou phrases clés qui caractérisent le contenu principal du document.
Titre du document
- title : Le titre du document, utilisé pour catégoriser et comprendre le contenu.
Du crawl au classement des pages
Google utilise divers systèmes pour le crawl, l’indexation et le rendu des pages web. Voici quelques-uns des principaux systèmes :
- Trawler : Gère le crawl avec des files d’attente et des taux de crawl optimisés.
- Alexandria : Assure l’indexation des documents.
- HtmlrenderWebkitHeadless : Se charge du rendu des pages JavaScript.
- Mustang : Ordonne les pages avec Ascorer pour le classement initial et NavBoost pour le re-classement basé sur les clics.
À retenir
Les bases du SEO restent inchangées, mais on voit une augmentation de l’importance des données utilisateurs. Cette documentation laisse penser que le domaine a un poids bien au-delà de la simple popularité. Google semble également intervenir manuellement malgré ses déclarations contraires.
En fin de compte, la qualité du site et sa capacité à répondre aux besoins des utilisateurs surpassent toutes les optimisations techniques. Pour se positionner, il faut offrir un contenu de haute qualité et pertinent pour les utilisateurs.
Alors, qu’attendez-vous ? Il est temps de passer à l’action et d’optimiser votre contenu pour répondre aux nouvelles attentes de Google et de vos utilisateurs. Bonne optimisation à tous
Source : Tout sur les fuites de l’API de Google Search : une mine d’informations pour les SEO
Les secrets de l’algo 😱 La doc technique interne de Google Search a fuité
Secrets from the Algorithm: Google Search’s Internal Engineering Documentation Has Leaked
