fonctionnement Google

🔥Google Leaks : Le guide ULTIME des secrets de Google

Une fuite massive de documents Google rĂ©vĂ©lĂ©e. Le 28 mai 2024, les experts SEO Rand Fishkin et Mike King ont dĂ©voilĂ© plus de 2 500 documents confidentiels de Google, accompagnĂ©s de 14 000 attributs techniques. Cette rĂ©vĂ©lation a dĂ©butĂ© lorsqu’Erfan Azimi a partagĂ© des documents de l’API Google avec Rand Fishkin (SparkToro), qui s’est ensuite […]

Définition de 🔥Google Leaks : Le guide ULTIME des secrets de Google

Une fuite massive de documents Google révélée.

Le 28 mai 2024, les experts SEO Rand Fishkin et Mike King ont dévoilé plus de 2 500 documents confidentiels de Google, accompagnés de 14 000 attributs techniques.

Cette rĂ©vĂ©lation a dĂ©butĂ© lorsqu’Erfan Azimi a partagĂ© des documents de l’API Google avec Rand Fishkin (SparkToro), qui s’est ensuite associĂ© Ă  Michael King (iPullRank).

Les fichiers proviennent d’une documentation API nommĂ©e “yoshi-code-bot/elixer-google-api”.

Vous pouvez trouver tous les fichiers ici.

J’ai dĂ©cortiquĂ© ce document et inscrit ici les choses les plus intĂ©rĂ©ssantes que j’ai trouvĂ© et ainsi rĂ©vĂ©ler les secrets du gĂ©ant de Mountain View.

Ce que vous ne faisiez probablement pas avant, et que vous devez faire

  • Focus sur les entitĂ©s
  • Avoir des auteurs
  • Avoir un site qui focus sur une thĂ©matique
  • PossibilitĂ© de crĂ©er des liens thĂ©matiques entre plusieurs thĂ©matiques mais commencer par devenir expert sur une thĂ©matique de base
  • Placer le contenu le plus important en dĂ©but d’article
  • Google favorise les contenus qui demande des efforts (images, vidĂ©os, complexitĂ©s,..)
  • Optimiser pour Navboost : un contenu qui plait aux internautes, engager un community manager, relayer vos articles, …
  • Ne pas oublier de plaire Ă  Google (faire les deux donc)
  • Mettre du gras sur les liens et les mots
  • Pour les backlinks, faire de la relation presse et comprendre le PageRank de semence
  • Tous les facteurs locaux sont Ă  prendre dans cet article, nous avons l’habitude d’optimiser tout sauf cela (mĂŞme si nous le savions dĂ©jĂ )

Formule simplifié pour le classement de Google

Pour résumer, Google vous classe avec :

Scores d’interaction utilisateur

  • UgcScore : engagement du contenu gĂ©nĂ©rĂ© par utilisateurs
  • TitleMatchScore : pertinence titre/requĂŞte
  • ChromeInTotal : total interactions Chrome
  • SiteImpressions : impressions totales du site
  • TopicImpressions : impressions pages thĂ©matiques
  • SiteClicks : taux de clics site
  • TopicClicks : taux de clics thĂ©matiques

Scores de qualité du contenu

  • ImageQualityClickSignals : qualitĂ© via clics images
  • VideoScore : qualitĂ©/engagement vidĂ©o
  • ShoppingScore : score contenu shopping
  • PageEmbedding : sĂ©mantique page
  • SiteEmbedding : sĂ©mantique site
  • SiteRadius : Ă©cart sĂ©mantique
  • SiteFocus : thème principal
  • TextConfidence : pertinence/qualitĂ© texte
  • EffortScore : effort crĂ©ation contenu

Scores de liens

  • TrustedAnchors : qualitĂ© backlinks
  • SiteLinkIn : valeur liens entrants
  • PageRank : score autoritĂ© (0-2, ToolBar, NR)

Boost de pertinence

  • TopicEmbedding : pertinence temporelle
  • QnA : qualitĂ© base
  • STS : comprĂ©hension texte/entitĂ©s

Boost de qualité

  • SAS : confiance/autoritĂ© liens
  • EFTS : effort page (texte/mĂ©dia/commentaires)
  • FS : fraĂ®cheur contenu

Ajustements spécifiques

  • CDS : score donnĂ©es Chrome
  • SDS : ajustements SERP
  • EQSS : variables expĂ©rimentales

Le fonctionnement de Google au travers du Google Leaks

Crawling :

  • Trawler – Système de crawling web. Gère la file d’attente, les taux de crawl et la frĂ©quence de changement des pages.

Indexation :

  • Alexandria – Système principal d’indexation.
  • SegIndexer – Système qui classe les documents par niveaux dans l’index.
  • TeraGoogle – Système d’indexation secondaire pour les documents stockĂ©s sur disque Ă  long terme.

Rendu :

  • HtmlrenderWebkitHeadless – Système de rendu pour pages JavaScript. Le nom fait rĂ©fĂ©rence Ă  Webkit plutĂ´t que Chromium. Les docs mentionnent Chromium, suggĂ©rant que Google utilisait WebKit avant de passer Ă  Headless Chrome.

Traitement :

  • LinkExtractor – Extrait les liens des pages.
  • WebMirror – Gère la canonicalisation et la duplication.

Classement :

  • Mustang – Système principal de scoring, classement et diffusion
  • Ascorer – Algorithme principal de classement avant ajustements
  • NavBoost – Système de reclassement basĂ© sur les logs de clics utilisateurs.
  • FreshnessTwiddler – Système de reclassement basĂ© sur la fraĂ®cheur des documents.
  • WebChooserScorer – DĂ©finit les caractĂ©ristiques utilisĂ©es pour le scoring des extraits.

Diffusion :

  • Google Web Server – Interface avec le frontend Google. Reçoit les donnĂ©es Ă  afficher.
  • SuperRoot – Cerveau de Google Search qui communique avec les serveurs et gère le post-traitement pour le reclassement et la prĂ©sentation.
  • SnippetBrain – Système de gĂ©nĂ©ration des extraits de rĂ©sultats.
  • Glue – Système d’unification des rĂ©sultats selon le comportement utilisateur.
  • Cookbook – Système de gĂ©nĂ©ration de signaux, apparemment créés Ă  l’exĂ©cution.

 

On-Page Facteurs:

  • titlematchScore: Score de correspondance des titres Ă  l’Ă©chelle du site, indiquant dans quelle mesure les titres correspondent aux requĂŞtes des utilisateurs.
  • fontsize: Taille de la police des liens; utilisĂ©e par Google pour Ă©valuer l’importance du lien.
  • OriginalContentScore: Score reprĂ©sentant l’originalitĂ© du contenu, surtout pour les pages avec peu de contenu.
  • Avg. Term Weight: Renforcement des termes via l’utilisation de texte en gras ou de termes stratĂ©giques.
  • keywordStuffingScore: Score de spam pour le bourrage de mots-clĂ©s.
  • spamWordScore: Score associĂ© aux mots identifiĂ©s comme spam.
  • textConfidence: Confiance dans la pertinence et la qualitĂ© du texte.
  • effortScore: Effort et qualitĂ© dans la crĂ©ation de contenu.
  • Penguin Algorithm: Cible les liens spammy, y compris les liens internes sur-optimisĂ©s.
  • Document Length: Limite sur le nombre de mots et de ponctuations; le contenu important doit ĂŞtre placĂ© en dĂ©but de texte.
  • Content Length: Google traite un nombre limitĂ© de caractères; le contenu important doit ĂŞtre placĂ© tĂ´t sur la page.
  • Page Titles: Doivent ĂŞtre optimisĂ©s et correspondre Ă©troitement aux mots-clĂ©s de la requĂŞte.
  • FreshnessTwiddler: Reclassement basĂ© sur la fraĂ®cheur du contenu.

Off-Page Facteurs

  • Fresh Docs: Multiplicateur de fraĂ®cheur pour les liens; les liens provenant de pages rĂ©centes sont mieux classĂ©s.
  • homePageInfo: Indique si la page source est une page d’accueil et son niveau de confiance.
  • SiteAuthority: Indique la crĂ©dibilitĂ© ou l’autoritĂ© globale d’un site.
  • sourceType: QualitĂ© de la page source d’un lien, corrĂ©lĂ©e Ă  son niveau d’indexation.
  • CreationDate: Date de première dĂ©couverte d’un lien et dernière date connue oĂą ce lien a Ă©tĂ© trouvĂ©.
  • TrustedAnchors: QualitĂ© et fiabilitĂ© des liens entrants.
  • SiteLinkIn: Valeur moyenne des liens entrants.
  • PriorSignal: Informations sur l’historique de l’URL; une mauvaise qualitĂ© antĂ©rieure peut affecter le classement.
  • anchorDiversityScore: DiversitĂ© des textes d’ancrage pour les liens pointant vers un site.
  • trustTarget: Indique si une URL se trouve sur une source fiable; les sites dignes de confiance ont plus de latitude.

PageRank :

  • PageRank: Score PageRank prenant en compte divers facteurs.
  • homepagePagerankNs: PageRank de la page d’accueil du site.
  • PagerankNS: Pagerank-NearestSeeds est un score de pagerank pour le document, calculĂ© Ă  l’aide de la mĂ©thode NearestSeeds. Il s’agit de la valeur de production PageRank que les Ă©quipes devraient utiliser. –> PageRank de 2018 – site de graine, cf mon article sur le PageRank.
  • pagerank: Valeur de classement d’une URL [0-65535]. DÉPRÉCIÉ. Configuration dans NearestSeeds.
  • pagerank2: Score pagerank expĂ©rimental. DÉPRÉCIÉ au profit de MustangBasicInfo.
  • crawlPagerank: Usage interne docjoiner pour transfĂ©rer les scores des canoniques sources vers les canoniques finales. –> faire une canonique permet de transfĂ©rer le PageRank.
  • toolbarPagerank: Score [0-10] . Si non dĂ©fini, utilise EstimatePreDemotion via MustangBasicInfo. –> le fameuxPageRank avec la toolbar.
  • FirstCoveragePagerankNs: Score pagerank initial lors de la première indexation.
  • feedPagerank: Score normalisĂ© [0-1] spĂ©cifique aux flux RSS. Distinct du pagerank de la page d’accueil.
  • topPrOnsiteAnchorCount: QualitĂ© des ancres – optimale >51000, standard <47000
  • bookPagerank: Score pagerank spĂ©cifique aux pages de livres.
  • anchorPhraseCount: Le nombre de phrases d’ancrage uniques. LimitĂ© par la constante kMaxAnchorPhraseCountInStats (=5000)

Spam

  • Link Velocity: L’acquisition rapide de nombreux liens peut ĂŞtre signalĂ©e comme du spam.
  • spamRank: Mesure la probabilitĂ© qu’un document renvoie Ă  des spammeurs connus.
  • phraseAnchorSpamCount: Nombre de phrases de spam trouvĂ©es dans les ancres.
  • phraseAnchorSpamDays: Nombre de jours sur lesquels 80% de ces phrases de spam ont Ă©tĂ© dĂ©couvertes.
  • phraseAnchorSpamDemoted: Nombre total d’ancres dĂ©classĂ©es en raison du spam.
  • phraseAnchorSpamEnd: Temps auquel le pic de spam d’ancre a pris fin.
  • phraseAnchorSpamFraq: Fraction de phrases de spam parmi toutes les ancres du document.
  • spamBrainTotalDocSpamScore: Score de spam identifiĂ© par SpamBrain (de 0 Ă  1).
  • trendSpam: Indicateur de manipulation du CTR; nombre de requĂŞtes de spam tendance correspondantes.

Technique:

  • URLHistory: Google conserve les 20 derniers changements d’une URL.
  • mobileFriendlinessScore: Indique si un site est optimisĂ© pour les appareils mobiles.
  • pageLoadTimeScore: Score basĂ© sur le temps de chargement de la page; impacte l’expĂ©rience utilisateur.
  • bylineDate: Date explicitement dĂ©finie sur la page, utilisĂ©e dans les rĂ©sultats de recherche, syntacticDate: Date extraite de l’URL ou du titre du document, semanticDate: Date estimĂ©e Ă  partir du contenu du document –> La cohĂ©rence des dates (bylineDate, syntacticDate, semanticDate) sur la page est importante.
  • Ranking Degradation Factors: Facteurs comme les liens incohĂ©rents, une mauvaise UX, un faible CTR et un contenu de mauvaise qualitĂ© pouvant dĂ©grader les classements.
  • NSR Data (chardVariance, chardScoreVariance, nsrdataFromFallbackPatternKey): Mesures de variance pour les scores NSR appliquĂ©s au site; prĂ©disent la qualitĂ© du site ou de la page.
  • hostAge: Date Ă  laquelle Google a dĂ©couvert pour la première fois du contenu sur le domaine.
  • YMYL Scores (ymylHealthScore, ymylNewsScore, encodedChardXlqYmylPrediction): Scores pour le contenu YMYL.

Sémantique:

  • author: Auteur(s) du document stockĂ©s en texte.
  • isAuthor: Indique si une entitĂ© sur la page est Ă©galement l’auteur du document.
  • Authors and Entities: Google considère si les auteurs sont des entitĂ©s reconnues dans le Knowledge Graph.
  • TopicEmbedding: Valeur de la pertinence dans le temps.
  • siteEmbedding: ReprĂ©sentation vectorielle compressĂ©e du site pour l’analyse thĂ©matique.
  • pageEmbedding: ReprĂ©sentation vectorielle compressĂ©e de la page pour l’analyse thĂ©matique.
  • siteFocusScore: Mesure Ă  quel point un site est spĂ©cialisĂ© dans un domaine spĂ©cifique.
  • siteRadius: Mesure l’Ă©cart d’une page par rapport au sujet principal du site.
  • Semantic Text Scores (STS): Score global basĂ© sur la comprĂ©hension du texte, la saillance et les entitĂ©s.
  • Short Content Originality: Accent mis sur l’originalitĂ© du contenu court.
  • AI-Generated Content: Google peut dĂ©tecter et traiter diffĂ©remment le contenu gĂ©nĂ©rĂ© par l’IA.

Facteurs Locaux :

  • clickRadius50Percent: Le rayon (en miles) autour de l’emplacement attribuĂ© auquel le document reçoit 50 % de ses clics.
  • localBusinessCompletenessScore: ComplĂ©tude des informations sur l’entreprise locale.
  • businessReviewCount: Nombre de critiques et avis pour une entreprise locale.
  • NAPConsistencyScore: CohĂ©rence des informations Nom, Adresse et TĂ©lĂ©phone.
  • contentRelevanceScore: Pertinence du contenu pour les recherches locales.
  • localMentionCount: Nombre de mentions locales en ligne.
  • geoDistanceScore: Distance entre l’utilisateur et l’emplacement cible.
  • bestLocaleMatch: Pertinence de la langue et des mĂ©tadonnĂ©es locales.

Engagement des utilisateurs

  • UgcScore: Score liĂ© Ă  l’engagement du contenu gĂ©nĂ©rĂ© par les utilisateurs.
  • clic Ă©crasĂ©, clic court, clic long: Types de clics indiquant le niveau de satisfaction de l’utilisateur.
  • ChromeInTotal: Nombre total de vues via Chrome sur l’ensemble du site.
  • SiteImpressions, TopicImpressions, SiteClicks, TopicClicks: Indicateurs d’engagement et de pertinence.
  • Modulators (Tweeters): Ajustent les classements en fonction de la fraĂ®cheur du contenu et des signaux d’engagement des utilisateurs.
  • Navboost: Reclassement basĂ© sur les logs de clics des utilisateurs.
  • Mustang Algorithm: Algorithme de classement principal avec des boosts pour des facteurs comme le CTR et la fraĂ®cheur du contenu.
  • dailyClicks – Les clics quotidiens
  • dailyGoodClicks – Les bons clics quotidiens

Algorithmes de déclassement

  • Devaluation of Small Blogs: Les petits blogs peuvent ĂŞtre dĂ©valuĂ©s par rapport aux sites faisant autoritĂ©.
  • exact_match_domain_demotion: DĂ©classement appliquĂ© aux domaines Ă  correspondance exacte (EMD).
  • Anchor Mismatch: Le texte du lien ne correspond pas au site cible; le lien est dĂ©classĂ©.
  • SERP Demotion: DĂ©classement basĂ© sur des facteurs observĂ©s dans les pages de rĂ©sultats, indiquant une insatisfaction de l’utilisateur.
  • Nav Demotion: DĂ©classement pour les pages avec une mauvaise navigation ou des problèmes d’expĂ©rience utilisateur.
  • Product Review Demotion: DĂ©classement liĂ© Ă  la qualitĂ© des avis de produits.
  • Location Demotions: Les pages globales peuvent ĂŞtre dĂ©classĂ©es en faveur de rĂ©sultats plus localisĂ©s.
  • Panda Demotion: Quality_Coati.