Une fuite massive de documents Google révélée.
Le 28 mai 2024, les experts SEO Rand Fishkin et Mike King ont dévoilé plus de 2 500 documents confidentiels de Google, accompagnés de 14 000 attributs techniques.
Cette rĂ©vĂ©lation a dĂ©butĂ© lorsqu’Erfan Azimi a partagĂ© des documents de l’API Google avec Rand Fishkin (SparkToro), qui s’est ensuite associĂ© Ă Michael King (iPullRank).
Les fichiers proviennent d’une documentation API nommĂ©e “yoshi-code-bot/elixer-google-api”.
Vous pouvez trouver tous les fichiers ici.
J’ai dĂ©cortiquĂ© ce document et inscrit ici les choses les plus intĂ©rĂ©ssantes que j’ai trouvĂ© et ainsi rĂ©vĂ©ler les secrets du gĂ©ant de Mountain View.
Ce que vous ne faisiez probablement pas avant, et que vous devez faire
- Focus sur les entités
- Avoir des auteurs
- Avoir un site qui focus sur une thématique
- Possibilité de créer des liens thématiques entre plusieurs thématiques mais commencer par devenir expert sur une thématique de base
- Placer le contenu le plus important en dĂ©but d’article
- Google favorise les contenus qui demande des efforts (images, vidéos, complexités,..)
- Optimiser pour Navboost : un contenu qui plait aux internautes, engager un community manager, relayer vos articles, …
- Ne pas oublier de plaire Ă Google (faire les deux donc)
- Mettre du gras sur les liens et les mots
- Pour les backlinks, faire de la relation presse et comprendre le PageRank de semence
- Tous les facteurs locaux sont Ă prendre dans cet article, nous avons l’habitude d’optimiser tout sauf cela (mĂŞme si nous le savions dĂ©jĂ )
Formule simplifié pour le classement de Google
Pour résumer, Google vous classe avec :
Scores d’interaction utilisateur
- UgcScore : engagement du contenu généré par utilisateurs
- TitleMatchScore : pertinence titre/requĂŞte
- ChromeInTotal : total interactions Chrome
- SiteImpressions : impressions totales du site
- TopicImpressions : impressions pages thématiques
- SiteClicks : taux de clics site
- TopicClicks : taux de clics thématiques
Scores de qualité du contenu
- ImageQualityClickSignals : qualité via clics images
- VideoScore : qualité/engagement vidéo
- ShoppingScore : score contenu shopping
- PageEmbedding : sémantique page
- SiteEmbedding : sémantique site
- SiteRadius : écart sémantique
- SiteFocus : thème principal
- TextConfidence : pertinence/qualité texte
- EffortScore : effort création contenu
Scores de liens
- TrustedAnchors : qualité backlinks
- SiteLinkIn : valeur liens entrants
- PageRank : score autorité (0-2, ToolBar, NR)
Boost de pertinence
- TopicEmbedding : pertinence temporelle
- QnA : qualité base
- STS : compréhension texte/entités
Boost de qualité
- SAS : confiance/autorité liens
- EFTS : effort page (texte/média/commentaires)
- FS : fraîcheur contenu
Ajustements spécifiques
- CDS : score données Chrome
- SDS : ajustements SERP
- EQSS : variables expérimentales
Le fonctionnement de Google au travers du Google Leaks
Crawling :
- Trawler – Système de crawling web. Gère la file d’attente, les taux de crawl et la frĂ©quence de changement des pages.
Indexation :
- Alexandria – Système principal d’indexation.
- SegIndexer – Système qui classe les documents par niveaux dans l’index.
- TeraGoogle – Système d’indexation secondaire pour les documents stockĂ©s sur disque Ă long terme.
Rendu :
- HtmlrenderWebkitHeadless – Système de rendu pour pages JavaScript. Le nom fait référence à Webkit plutôt que Chromium. Les docs mentionnent Chromium, suggérant que Google utilisait WebKit avant de passer à Headless Chrome.
Traitement :
- LinkExtractor – Extrait les liens des pages.
- WebMirror – Gère la canonicalisation et la duplication.
Classement :
- Mustang – Système principal de scoring, classement et diffusion
- Ascorer – Algorithme principal de classement avant ajustements
- NavBoost – Système de reclassement basé sur les logs de clics utilisateurs.
- FreshnessTwiddler – Système de reclassement basé sur la fraîcheur des documents.
- WebChooserScorer – Définit les caractéristiques utilisées pour le scoring des extraits.
Diffusion :
- Google Web Server – Interface avec le frontend Google. Reçoit les données à afficher.
- SuperRoot – Cerveau de Google Search qui communique avec les serveurs et gère le post-traitement pour le reclassement et la présentation.
- SnippetBrain – Système de génération des extraits de résultats.
- Glue – Système d’unification des rĂ©sultats selon le comportement utilisateur.
- Cookbook – Système de gĂ©nĂ©ration de signaux, apparemment créés Ă l’exĂ©cution.
On-Page Facteurs:
- titlematchScore: Score de correspondance des titres Ă l’Ă©chelle du site, indiquant dans quelle mesure les titres correspondent aux requĂŞtes des utilisateurs.
- fontsize: Taille de la police des liens; utilisĂ©e par Google pour Ă©valuer l’importance du lien.
- OriginalContentScore: Score reprĂ©sentant l’originalitĂ© du contenu, surtout pour les pages avec peu de contenu.
- Avg. Term Weight: Renforcement des termes via l’utilisation de texte en gras ou de termes stratĂ©giques.
- keywordStuffingScore: Score de spam pour le bourrage de mots-clés.
- spamWordScore: Score associé aux mots identifiés comme spam.
- textConfidence: Confiance dans la pertinence et la qualité du texte.
- effortScore: Effort et qualité dans la création de contenu.
- Penguin Algorithm: Cible les liens spammy, y compris les liens internes sur-optimisés.
- Document Length: Limite sur le nombre de mots et de ponctuations; le contenu important doit être placé en début de texte.
- Content Length: Google traite un nombre limité de caractères; le contenu important doit être placé tôt sur la page.
- Page Titles: Doivent être optimisés et correspondre étroitement aux mots-clés de la requête.
- FreshnessTwiddler: Reclassement basé sur la fraîcheur du contenu.
Off-Page Facteurs
- Fresh Docs: Multiplicateur de fraîcheur pour les liens; les liens provenant de pages récentes sont mieux classés.
- homePageInfo: Indique si la page source est une page d’accueil et son niveau de confiance.
- SiteAuthority: Indique la crĂ©dibilitĂ© ou l’autoritĂ© globale d’un site.
- sourceType: QualitĂ© de la page source d’un lien, corrĂ©lĂ©e Ă son niveau d’indexation.
- CreationDate: Date de première dĂ©couverte d’un lien et dernière date connue oĂą ce lien a Ă©tĂ© trouvĂ©.
- TrustedAnchors: Qualité et fiabilité des liens entrants.
- SiteLinkIn: Valeur moyenne des liens entrants.
- PriorSignal: Informations sur l’historique de l’URL; une mauvaise qualitĂ© antĂ©rieure peut affecter le classement.
- anchorDiversityScore: DiversitĂ© des textes d’ancrage pour les liens pointant vers un site.
- trustTarget: Indique si une URL se trouve sur une source fiable; les sites dignes de confiance ont plus de latitude.
PageRank :
- PageRank: Score PageRank prenant en compte divers facteurs.
- homepagePagerankNs: PageRank de la page d’accueil du site.
- PagerankNS: Pagerank-NearestSeeds est un score de pagerank pour le document, calculĂ© Ă l’aide de la mĂ©thode NearestSeeds. Il s’agit de la valeur de production PageRank que les Ă©quipes devraient utiliser. –> PageRank de 2018 – site de graine, cf mon article sur le PageRank.
- pagerank: Valeur de classement d’une URL [0-65535]. DÉPRÉCIÉ. Configuration dans NearestSeeds.
- pagerank2: Score pagerank expérimental. DÉPRÉCIÉ au profit de MustangBasicInfo.
- crawlPagerank: Usage interne docjoiner pour transfĂ©rer les scores des canoniques sources vers les canoniques finales. –> faire une canonique permet de transfĂ©rer le PageRank.
- toolbarPagerank: Score [0-10] . Si non dĂ©fini, utilise EstimatePreDemotion via MustangBasicInfo. –> le fameuxPageRank avec la toolbar.
- FirstCoveragePagerankNs: Score pagerank initial lors de la première indexation.
- feedPagerank: Score normalisĂ© [0-1] spĂ©cifique aux flux RSS. Distinct du pagerank de la page d’accueil.
- topPrOnsiteAnchorCount: QualitĂ© des ancres – optimale >51000, standard <47000
- bookPagerank: Score pagerank spécifique aux pages de livres.
-
Spam
- Link Velocity: L’acquisition rapide de nombreux liens peut ĂŞtre signalĂ©e comme du spam.
- spamRank: Mesure la probabilitĂ© qu’un document renvoie Ă des spammeurs connus.
- phraseAnchorSpamCount: Nombre de phrases de spam trouvées dans les ancres.
- phraseAnchorSpamDays: Nombre de jours sur lesquels 80% de ces phrases de spam ont été découvertes.
- phraseAnchorSpamDemoted: Nombre total d’ancres dĂ©classĂ©es en raison du spam.
- phraseAnchorSpamEnd: Temps auquel le pic de spam d’ancre a pris fin.
- phraseAnchorSpamFraq: Fraction de phrases de spam parmi toutes les ancres du document.
- spamBrainTotalDocSpamScore: Score de spam identifié par SpamBrain (de 0 à 1).
- trendSpam: Indicateur de manipulation du CTR; nombre de requĂŞtes de spam tendance correspondantes.
Technique:
- URLHistory: Google conserve les 20 derniers changements d’une URL.
- mobileFriendlinessScore: Indique si un site est optimisé pour les appareils mobiles.
- pageLoadTimeScore: Score basĂ© sur le temps de chargement de la page; impacte l’expĂ©rience utilisateur.
- bylineDate: Date explicitement dĂ©finie sur la page, utilisĂ©e dans les rĂ©sultats de recherche, syntacticDate: Date extraite de l’URL ou du titre du document, semanticDate: Date estimĂ©e Ă partir du contenu du document –> La cohĂ©rence des dates (bylineDate, syntacticDate, semanticDate) sur la page est importante.
- Ranking Degradation Factors: Facteurs comme les liens incohérents, une mauvaise UX, un faible CTR et un contenu de mauvaise qualité pouvant dégrader les classements.
- NSR Data (chardVariance, chardScoreVariance, nsrdataFromFallbackPatternKey): Mesures de variance pour les scores NSR appliqués au site; prédisent la qualité du site ou de la page.
- hostAge: Date à laquelle Google a découvert pour la première fois du contenu sur le domaine.
- YMYL Scores (ymylHealthScore, ymylNewsScore, encodedChardXlqYmylPrediction): Scores pour le contenu YMYL.
Sémantique:
- author: Auteur(s) du document stockés en texte.
- isAuthor: Indique si une entitĂ© sur la page est Ă©galement l’auteur du document.
- Authors and Entities: Google considère si les auteurs sont des entités reconnues dans le Knowledge Graph.
- TopicEmbedding: Valeur de la pertinence dans le temps.
- siteEmbedding: ReprĂ©sentation vectorielle compressĂ©e du site pour l’analyse thĂ©matique.
- pageEmbedding: ReprĂ©sentation vectorielle compressĂ©e de la page pour l’analyse thĂ©matique.
- siteFocusScore: Mesure à quel point un site est spécialisé dans un domaine spécifique.
- siteRadius: Mesure l’Ă©cart d’une page par rapport au sujet principal du site.
- Semantic Text Scores (STS): Score global basé sur la compréhension du texte, la saillance et les entités.
- Short Content Originality: Accent mis sur l’originalitĂ© du contenu court.
- AI-Generated Content: Google peut dĂ©tecter et traiter diffĂ©remment le contenu gĂ©nĂ©rĂ© par l’IA.
Facteurs Locaux :
- clickRadius50Percent: Le rayon (en miles) autour de l’emplacement attribuĂ© auquel le document reçoit 50 % de ses clics.
- localBusinessCompletenessScore: ComplĂ©tude des informations sur l’entreprise locale.
- businessReviewCount: Nombre de critiques et avis pour une entreprise locale.
- NAPConsistencyScore: Cohérence des informations Nom, Adresse et Téléphone.
- contentRelevanceScore: Pertinence du contenu pour les recherches locales.
- localMentionCount: Nombre de mentions locales en ligne.
- geoDistanceScore: Distance entre l’utilisateur et l’emplacement cible.
- bestLocaleMatch: Pertinence de la langue et des métadonnées locales.
Engagement des utilisateurs
- UgcScore: Score liĂ© Ă l’engagement du contenu gĂ©nĂ©rĂ© par les utilisateurs.
- clic Ă©crasĂ©, clic court, clic long: Types de clics indiquant le niveau de satisfaction de l’utilisateur.
- ChromeInTotal: Nombre total de vues via Chrome sur l’ensemble du site.
- SiteImpressions, TopicImpressions, SiteClicks, TopicClicks: Indicateurs d’engagement et de pertinence.
- Modulators (Tweeters): Ajustent les classements en fonction de la fraĂ®cheur du contenu et des signaux d’engagement des utilisateurs.
- Navboost: Reclassement basé sur les logs de clics des utilisateurs.
- Mustang Algorithm: Algorithme de classement principal avec des boosts pour des facteurs comme le CTR et la fraîcheur du contenu.
- dailyClicks – Les clics quotidiens
- dailyGoodClicks – Les bons clics quotidiens
Algorithmes de déclassement
- Devaluation of Small Blogs: Les petits blogs peuvent être dévalués par rapport aux sites faisant autorité.
- exact_match_domain_demotion: Déclassement appliqué aux domaines à correspondance exacte (EMD).
- Anchor Mismatch: Le texte du lien ne correspond pas au site cible; le lien est déclassé.
- SERP Demotion: DĂ©classement basĂ© sur des facteurs observĂ©s dans les pages de rĂ©sultats, indiquant une insatisfaction de l’utilisateur.
- Nav Demotion: DĂ©classement pour les pages avec une mauvaise navigation ou des problèmes d’expĂ©rience utilisateur.
- Product Review Demotion: Déclassement lié à la qualité des avis de produits.
- Location Demotions: Les pages globales peuvent être déclassées en faveur de résultats plus localisés.
- Panda Demotion: Quality_Coati.