🔥Google Leaks : Le guide ULTIME des secrets de Google

Publié le 29/11/2024

Conception de site web → SEO → Google → Google Leaks

Une fuite massive de documents Google révélée.

Le 28 mai 2024, les experts SEO Rand Fishkin et Mike King ont dévoilé plus de 2 500 documents confidentiels de Google, accompagnés de 14 000 attributs techniques.

Cette révélation a débuté lorsqu’Erfan Azimi a partagé des documents de l’API Google avec Rand Fishkin (SparkToro), qui s’est ensuite associé à Michael King (iPullRank).

Les fichiers proviennent d’une documentation API nommée “yoshi-code-bot/elixer-google-api”.

Vous pouvez trouver tous les fichiers ici.

J’ai décortiqué ce document et inscrit ici les choses les plus intéréssantes que j’ai trouvé et ainsi révéler les secrets du géant de Mountain View.

Ce que vous ne faisiez probablement pas avant, et que vous devez faire

  • Focus sur les entités
  • Avoir des auteurs
  • Avoir un site qui focus sur une thématique
  • Possibilité de créer des liens thématiques entre plusieurs thématiques mais commencer par devenir expert sur une thématique de base
  • Placer le contenu le plus important en début d’article
  • Google favorise les contenus qui demande des efforts (images, vidéos, complexités,..)
  • Optimiser pour Navboost : un contenu qui plait aux internautes, engager un community manager, relayer vos articles, …
  • Ne pas oublier de plaire à Google (faire les deux donc)
  • Mettre du gras sur les liens et les mots
  • Pour les backlinks, faire de la relation presse et comprendre le PageRank de semence
  • Tous les facteurs locaux sont à prendre dans cet article, nous avons l’habitude d’optimiser tout sauf cela (même si nous le savions déjà)

Formule simplifié pour le classement de Google

Pour résumer, Google vous classe avec :

Scores d’interaction utilisateur

  • UgcScore : engagement du contenu généré par utilisateurs
  • TitleMatchScore : pertinence titre/requête
  • ChromeInTotal : total interactions Chrome
  • SiteImpressions : impressions totales du site
  • TopicImpressions : impressions pages thématiques
  • SiteClicks : taux de clics site
  • TopicClicks : taux de clics thématiques

Scores de qualité du contenu

  • ImageQualityClickSignals : qualité via clics images
  • VideoScore : qualité/engagement vidéo
  • ShoppingScore : score contenu shopping
  • PageEmbedding : sémantique page
  • SiteEmbedding : sémantique site
  • SiteRadius : écart sémantique
  • SiteFocus : thème principal
  • TextConfidence : pertinence/qualité texte
  • EffortScore : effort création contenu

Scores de liens

  • TrustedAnchors : qualité backlinks
  • SiteLinkIn : valeur liens entrants
  • PageRank : score autorité (0-2, ToolBar, NR)

Boost de pertinence

  • TopicEmbedding : pertinence temporelle
  • QnA : qualité base
  • STS : compréhension texte/entités

Boost de qualité

  • SAS : confiance/autorité liens
  • EFTS : effort page (texte/média/commentaires)
  • FS : fraîcheur contenu

Ajustements spécifiques

  • CDS : score données Chrome
  • SDS : ajustements SERP
  • EQSS : variables expérimentales

Le fonctionnement de Google au travers du Google Leaks

Crawling :

  • Trawler – Système de crawling web. Gère la file d’attente, les taux de crawl et la fréquence de changement des pages.

Indexation :

  • Alexandria – Système principal d’indexation.
  • SegIndexer – Système qui classe les documents par niveaux dans l’index.
  • TeraGoogle – Système d’indexation secondaire pour les documents stockés sur disque à long terme.

Rendu :

  • HtmlrenderWebkitHeadless – Système de rendu pour pages JavaScript. Le nom fait référence à Webkit plutôt que Chromium. Les docs mentionnent Chromium, suggérant que Google utilisait WebKit avant de passer à Headless Chrome.

Traitement :

  • LinkExtractor – Extrait les liens des pages.
  • WebMirror – Gère la canonicalisation et la duplication.

Classement :

  • Mustang – Système principal de scoring, classement et diffusion
  • Ascorer – Algorithme principal de classement avant ajustements
  • NavBoost – Système de reclassement basé sur les logs de clics utilisateurs.
  • FreshnessTwiddler – Système de reclassement basé sur la fraîcheur des documents.
  • WebChooserScorer – Définit les caractéristiques utilisées pour le scoring des extraits.

Diffusion :

  • Google Web Server – Interface avec le frontend Google. Reçoit les données à afficher.
  • SuperRoot – Cerveau de Google Search qui communique avec les serveurs et gère le post-traitement pour le reclassement et la présentation.
  • SnippetBrain – Système de génération des extraits de résultats.
  • Glue – Système d’unification des résultats selon le comportement utilisateur.
  • Cookbook – Système de génération de signaux, apparemment créés à l’exécution.

 

On-Page Facteurs:

  • titlematchScore: Score de correspondance des titres à l’échelle du site, indiquant dans quelle mesure les titres correspondent aux requêtes des utilisateurs.
  • fontsize: Taille de la police des liens; utilisée par Google pour évaluer l’importance du lien.
  • OriginalContentScore: Score représentant l’originalité du contenu, surtout pour les pages avec peu de contenu.
  • Avg. Term Weight: Renforcement des termes via l’utilisation de texte en gras ou de termes stratégiques.
  • keywordStuffingScore: Score de spam pour le bourrage de mots-clés.
  • spamWordScore: Score associé aux mots identifiés comme spam.
  • textConfidence: Confiance dans la pertinence et la qualité du texte.
  • effortScore: Effort et qualité dans la création de contenu.
  • Penguin Algorithm: Cible les liens spammy, y compris les liens internes sur-optimisés.
  • Document Length: Limite sur le nombre de mots et de ponctuations; le contenu important doit être placé en début de texte.
  • Content Length: Google traite un nombre limité de caractères; le contenu important doit être placé tôt sur la page.
  • Page Titles: Doivent être optimisés et correspondre étroitement aux mots-clés de la requête.
  • FreshnessTwiddler: Reclassement basé sur la fraîcheur du contenu.

Off-Page Facteurs

  • Fresh Docs: Multiplicateur de fraîcheur pour les liens; les liens provenant de pages récentes sont mieux classés.
  • homePageInfo: Indique si la page source est une page d’accueil et son niveau de confiance.
  • SiteAuthority: Indique la crédibilité ou l’autorité globale d’un site.
  • sourceType: Qualité de la page source d’un lien, corrélée à son niveau d’indexation.
  • CreationDate: Date de première découverte d’un lien et dernière date connue où ce lien a été trouvé.
  • TrustedAnchors: Qualité et fiabilité des liens entrants.
  • SiteLinkIn: Valeur moyenne des liens entrants.
  • PriorSignal: Informations sur l’historique de l’URL; une mauvaise qualité antérieure peut affecter le classement.
  • anchorDiversityScore: Diversité des textes d’ancrage pour les liens pointant vers un site.
  • trustTarget: Indique si une URL se trouve sur une source fiable; les sites dignes de confiance ont plus de latitude.

PageRank :

  • PageRank: Score PageRank prenant en compte divers facteurs.
  • homepagePagerankNs: PageRank de la page d’accueil du site.
  • PagerankNS: Pagerank-NearestSeeds est un score de pagerank pour le document, calculé à l’aide de la méthode NearestSeeds. Il s’agit de la valeur de production PageRank que les équipes devraient utiliser. –> PageRank de 2018 – site de graine, cf mon article sur le PageRank.
  • pagerank: Valeur de classement d’une URL [0-65535]. DÉPRÉCIÉ. Configuration dans NearestSeeds.
  • pagerank2: Score pagerank expérimental. DÉPRÉCIÉ au profit de MustangBasicInfo.
  • crawlPagerank: Usage interne docjoiner pour transférer les scores des canoniques sources vers les canoniques finales. –> faire une canonique permet de transférer le PageRank.
  • toolbarPagerank: Score [0-10] . Si non défini, utilise EstimatePreDemotion via MustangBasicInfo. –> le fameuxPageRank avec la toolbar.
  • FirstCoveragePagerankNs: Score pagerank initial lors de la première indexation.
  • feedPagerank: Score normalisé [0-1] spécifique aux flux RSS. Distinct du pagerank de la page d’accueil.
  • topPrOnsiteAnchorCount: Qualité des ancres – optimale >51000, standard <47000
  • bookPagerank: Score pagerank spécifique aux pages de livres.
  • anchorPhraseCount: Le nombre de phrases d’ancrage uniques. Limité par la constante kMaxAnchorPhraseCountInStats (=5000)

Spam

  • Link Velocity: L’acquisition rapide de nombreux liens peut être signalée comme du spam.
  • spamRank: Mesure la probabilité qu’un document renvoie à des spammeurs connus.
  • phraseAnchorSpamCount: Nombre de phrases de spam trouvées dans les ancres.
  • phraseAnchorSpamDays: Nombre de jours sur lesquels 80% de ces phrases de spam ont été découvertes.
  • phraseAnchorSpamDemoted: Nombre total d’ancres déclassées en raison du spam.
  • phraseAnchorSpamEnd: Temps auquel le pic de spam d’ancre a pris fin.
  • phraseAnchorSpamFraq: Fraction de phrases de spam parmi toutes les ancres du document.
  • spamBrainTotalDocSpamScore: Score de spam identifié par SpamBrain (de 0 à 1).
  • trendSpam: Indicateur de manipulation du CTR; nombre de requêtes de spam tendance correspondantes.

Technique:

  • URLHistory: Google conserve les 20 derniers changements d’une URL.
  • mobileFriendlinessScore: Indique si un site est optimisé pour les appareils mobiles.
  • pageLoadTimeScore: Score basé sur le temps de chargement de la page; impacte l’expérience utilisateur.
  • bylineDate: Date explicitement définie sur la page, utilisée dans les résultats de recherche, syntacticDate: Date extraite de l’URL ou du titre du document, semanticDate: Date estimée à partir du contenu du document –> La cohérence des dates (bylineDate, syntacticDate, semanticDate) sur la page est importante.
  • Ranking Degradation Factors: Facteurs comme les liens incohérents, une mauvaise UX, un faible CTR et un contenu de mauvaise qualité pouvant dégrader les classements.
  • NSR Data (chardVariance, chardScoreVariance, nsrdataFromFallbackPatternKey): Mesures de variance pour les scores NSR appliqués au site; prédisent la qualité du site ou de la page.
  • hostAge: Date à laquelle Google a découvert pour la première fois du contenu sur le domaine.
  • YMYL Scores (ymylHealthScore, ymylNewsScore, encodedChardXlqYmylPrediction): Scores pour le contenu YMYL.

Sémantique:

  • author: Auteur(s) du document stockés en texte.
  • isAuthor: Indique si une entité sur la page est également l’auteur du document.
  • Authors and Entities: Google considère si les auteurs sont des entités reconnues dans le Knowledge Graph.
  • TopicEmbedding: Valeur de la pertinence dans le temps.
  • siteEmbedding: Représentation vectorielle compressée du site pour l’analyse thématique.
  • pageEmbedding: Représentation vectorielle compressée de la page pour l’analyse thématique.
  • siteFocusScore: Mesure à quel point un site est spécialisé dans un domaine spécifique.
  • siteRadius: Mesure l’écart d’une page par rapport au sujet principal du site.
  • Semantic Text Scores (STS): Score global basé sur la compréhension du texte, la saillance et les entités.
  • Short Content Originality: Accent mis sur l’originalité du contenu court.
  • AI-Generated Content: Google peut détecter et traiter différemment le contenu généré par l’IA.

Facteurs Locaux :

  • clickRadius50Percent: Le rayon (en miles) autour de l’emplacement attribué auquel le document reçoit 50 % de ses clics.
  • localBusinessCompletenessScore: Complétude des informations sur l’entreprise locale.
  • businessReviewCount: Nombre de critiques et avis pour une entreprise locale.
  • NAPConsistencyScore: Cohérence des informations Nom, Adresse et Téléphone.
  • contentRelevanceScore: Pertinence du contenu pour les recherches locales.
  • localMentionCount: Nombre de mentions locales en ligne.
  • geoDistanceScore: Distance entre l’utilisateur et l’emplacement cible.
  • bestLocaleMatch: Pertinence de la langue et des métadonnées locales.

Engagement des utilisateurs

  • UgcScore: Score lié à l’engagement du contenu généré par les utilisateurs.
  • clic écrasé, clic court, clic long: Types de clics indiquant le niveau de satisfaction de l’utilisateur.
  • ChromeInTotal: Nombre total de vues via Chrome sur l’ensemble du site.
  • SiteImpressions, TopicImpressions, SiteClicks, TopicClicks: Indicateurs d’engagement et de pertinence.
  • Modulators (Tweeters): Ajustent les classements en fonction de la fraîcheur du contenu et des signaux d’engagement des utilisateurs.
  • Navboost: Reclassement basé sur les logs de clics des utilisateurs.
  • Mustang Algorithm: Algorithme de classement principal avec des boosts pour des facteurs comme le CTR et la fraîcheur du contenu.
  • dailyClicks – Les clics quotidiens
  • dailyGoodClicks – Les bons clics quotidiens

    Algorithmes de déclassement

    • Devaluation of Small Blogs: Les petits blogs peuvent être dévalués par rapport aux sites faisant autorité.
    • exact_match_domain_demotion: Déclassement appliqué aux domaines à correspondance exacte (EMD).
    • Anchor Mismatch: Le texte du lien ne correspond pas au site cible; le lien est déclassé.
    • SERP Demotion: Déclassement basé sur des facteurs observés dans les pages de résultats, indiquant une insatisfaction de l’utilisateur.
    • Nav Demotion: Déclassement pour les pages avec une mauvaise navigation ou des problèmes d’expérience utilisateur.
    • Product Review Demotion: Déclassement lié à la qualité des avis de produits.
    • Location Demotions: Les pages globales peuvent être déclassées en faveur de résultats plus localisés.
    • Panda Demotion: Quality_Coati.

    Auteur

    Stan De Jesus Oliveira
    Propriétaire et fondateur de createur2site

    Stan De Jesus Oliveira est le propriétaire de createur2site, il accompagne les entreprises dans leur création de site web, le Web Design et le référencement naturel SEO.

    0 commentaires