Google Panda - Tout savoir sur l'algorithme anti-spam

Mis à jour le 18/08/2022 | Publié le 14/06/2022 | 0 commentaires

Définition Google Panda

Google Panda à été déployé le 24 février 2011 dans le but essentiellement de déclasser les fermes de contenus. Google Panda est donc avant tout un algorithme Google de filtre anti-spam permettant de détecter et de supprimer les contenus dupliqué, insuffisant ou de piètre qualité des 1ères page des résultats de recherche.

Ce filtre fait aujourd’hui partie intégrante de l'algorithme et donc constamment opérationnel. Son, ses algorithmes qui le composent seraient donc logiquement utilisés a chaque itération du processus de crawl.

Google Panda d'où ça vient ?

On parle généralement de Google Panda pour parler du premier filtre anti-spam du nom de Panda. Ce filtre permet de détecter des contenus spammy et plus généralement de contenu peu qualitatif, tout en se focalisant particulièrement sur des sites de thématique médical..

Mais, l’équipe, du nom de “Panda” de chez Google ne s’est pas arrêtée là et à continué de publier de nouveaux brevets sur la détection de bon contenu.

Il est évidemment intéressant de connaître le filtre Google Panda, mais il est aussi important de rappeler que Google met en place chaque année de nouveaux algorithmes, et notamment sur la détection et la compréhension du langage humain afin de détecter des bon contenus.

L’inventeur de Google Panda

Comme dit précédemment, les inventeurs derrière ce filtre sont des équipes. Mais tout de même, précisons que son nom provient d’un ingénieur.

Le développeur de Google Panda Algorithm est réalisé entre autres par un ingénieur dont le nom de famille est Panda. Le nom du filtre à donc été appelé Google Panda. Son nom complet est "Navneet Panda".

Selon Amit Singhal : Eh bien, nous l'avons nommé en interne d'après un ingénieur, et son nom est Panda. Donc, en interne, nous avons appelé cela Panda. Il était l'un des gars clés. Il a essentiellement proposé la percée il y a quelques mois qui a rendu cela possible.

Il est une personne importante dans le monde du référencement - ouais, un vrai être humain avec un nom plutôt cool. Et, la mise à jour était basée sur sa percée. Donc, si Panda est une personne dont la récente percée a entraîné un changement massif dans la façon dont les sites Web sont évalués aux yeux de Google, ce que nous pouvons savoir sur lui pourrait aider le monde largement confus concernant Panda ou Farmer ou toute autre mise à jour.

Que fait Google Panda exactement ?

Revenons au prémisse de la détection de bon contenu, le filtre anti spam Google Panda. Il est très connu, et tout le monde sait en une seule phrase à quoi il sert : Détecter s' il s’agit d'un site qui ne se conforme pas au guidelines de Google en regardant son contenu.

C’est effectivement la définition besogneuse.

Mais voici déjà quelque chose de plus intéressant, Amit Singhal, ingénieur chez Google, avait publié 23 questions directrices dont se focalisaient le filtre anti-spam :

  • Les informations présentées dans cet article sont-elles fiables ?
  • Cet article a-t-il été écrit par un expert ou une personne connaissant bien le sujet, ou bien ne donne-t-il que des informations superficielles ?
  • Le site contient-il des articles en double, qui se chevauchent ou se répètent sur un ou plusieurs sujets similaires, avec de légères variantes au niveau des mots clés ?
  • Auriez-vous suffisamment confiance en ce site pour lui communiquer les informations relatives à votre carte de paiement ?
  • Cet article contient-il des fautes d'orthographe, de style ou des faits inexacts ?
  • Le contenu proposé correspond-il aux centres d'intérêts réels des lecteurs ou bien n'est-il généré que dans le seul but d'améliorer le classement du site dans les résultats de recherche ?
  • L'article fournit-il des contenus, des informations, des recherches, des analyses ou des rapports originaux ?
  • La page offre-t-elle quelque chose en plus par rapport aux autres ?
  • Dans quelle mesure la qualité du contenu proposé est-elle contrôlée ?
  • L'article offre-t-il plusieurs points de vue sur ce qui s'est passé ?
  • Le site a-t-il une autorité reconnue dans le domaine abordé ?
  • Le contenu est-il produit par un grand nombre de créateurs, sous-traité en grande partie, ou encore diffusé sur un vaste réseau de sites, ce qui fait que chaque page ou site ne fait pas l'objet d'un contrôle très poussé ?
  • L'article est-il soigné ou semble-t-il avoir été rédigé à la va-vite ?
  • Si vous aviez une question relative à un problème médical, feriez-vous confiance aux informations contenues sur ce site ?
  • Le nom de ce site vous évoque-t-il une autorité compétente ?
  • Cet article propose-t-il une description complète du sujet ?
  • Cet article propose-t-il une analyse poussée ou des informations ayant demandé un certain travail de réflexion ?
  • Est-ce le genre de page que vous aimeriez ajouter à vos favoris, partager avec un ami ou recommander ?
  • Cet article contient-il un nombre excessif d'annonces qui distraient le lecteur ou l'empêchent d'accéder au contenu principal ?
  • Pourriez-vous trouver cet article dans un magazine, une encyclopédie ou un livre en version papier ?
  • Les articles sont-ils inutiles, car trop courts, trop superficiels ou trop vagues ?
  • Les pages ont-elles ou non été produites avec beaucoup de soin et de rigueur ?
  • Les internautes qui accèdent à ce genre de pages ont-ils des raisons de se plaindre ?

Pour résumer cette liste, dont j'espère que vous avez lu avec attention, Singhal fait référence à l’utilisation de mots répétés c'est-à-dire d’optimisation sémantique au niveau du contenu et plus largement du content spinning. A la duplication de contenu, de l’autorité d’un auteur, du bon sens des webmasters et même des backlinks.

Ce que dit Google pour améliorer votre classement

Voici un extrait de Google Search Central, vous expliquant comment optimiser votre contenu pour le filtre Panda.

Vous avez été nombreux à nous demander comment améliorer votre classement sur Google, notamment si vous pensez être concerné par la mise à jour de l'algorithme Panda. Nous vous conseillons de garder dans un coin de votre esprit les questions ci-dessus et de faire de votre mieux pour proposer un contenu de qualité, plutôt que d'essayer de l'optimiser dans le seul souci de répondre aux exigences des algorithmes de Google.
Notez également que si certaines pages d'un site Web sont de mauvaise qualité, cela peut affecter le classement de l'ensemble du site. Par conséquent, vous pouvez supprimer ces pages afin d'optimiser le classement de celles qui sont de meilleure qualité ou encore améliorer leur contenu, les intégrer à des pages plus utiles ou les transférer vers un autre domaine.

Évidemment ils n’ont pas tort. Contentez vous de créer un bon contenu. Mais quand on voit que dans les questions ils font référence à la présence d’un “auteur qualifié”, cela peut quand même vous donner des idées pour optimiser votre référencement.

Ce que je dis pour optimiser votre contenu

Il est très facile de résumer tout cela par “faites un bon contenu”. Mais la question se pose en réalité, c’est quoi un bon contenu ?

Pour résumer et sans viser trop large, voici spécifiquement ce que vous devriez faire bon veiller à écrire de bon contenu :

  1. Citer vos sources & mentionnez des entitées
  2. Ayez une section “auteur”
  3. Ne faites pas de “blabla”
  4. Ne copiez pas des phrases d’un autre contenu (interne ou externe à votre site)
  5. Ajoutez des informations supplémentaires par rapport à vos concurrents
  6. Faites correspondre votre contenu à l’intention de recherche,
  7. Pensez à l'expérience utilisateur au niveau de la page d’un point de vue visuel et plus spécifiquement éviter les pop-ups..
  8. Votre contenu est-il assez long pour étayer le sujet dans sa globalité ?
  9. La page possède des liens internes permettant d’approfondir les sujets évoqués
  10. (Créer un “bon contenu” - ne faites pas de page d’article superficiels, vagues, trop court. Faites un contenu qui est partageable)

Tour d’horizon sur quelques brevets de l'équipe Panda

Nous ne pouvons pas dire avec précisions si tel ou tel brevet concerne la 1ere version de l’algorithme principal de Panda. Mais voici un tour d’horizon sur les brevets déposés par l’ingénieur Navneet Panda pour améliorer les classements du moteur de recherche.

L’algorithme Navneet panda.

Voici, un exemple de brevet de l’équipe Panda portant sur l’anti-spam mais également sur l’analyse d’un bon contenu plus largement :
L'algorithme Navneet Panda, brevet de Google par l’équipe Panda

Nom : Navneet panda algorithm.
Accordé le 12 mai 2015
Dépôt : le 27 juin 2012

Ce brevet délivré offrait un moyen de mesurer la qualité d'un site Web, et cette mesure pouvait influencer le classement d'un site dans les résultats de recherche pour une requête particulière.

Le brevet nous indique explicitement quelles fonctionnalités il recherchait dans un site qui pourrait sembler indiquer que le site était un site de qualité.

Le score est déterminé à partir de quantités indiquant des actions d'utilisateur consistant à rechercher et à préférer des sites particuliers et les ressources trouvées dans des sites particuliers. Un score de qualité de site pour un site particulier peut être déterminé en calculant un rapport entre un numérateur qui représente l'intérêt de l'utilisateur pour le site tel qu'il est reflété dans les requêtes de l'utilisateur dirigées vers le site et un dénominateur qui représente l'intérêt de l'utilisateur pour les ressources trouvées sur le site en tant que réponses. aux requêtes de toutes sortes Le score de qualité d'un site peut être utilisé comme un signal pour classer les ressources ou pour classer les résultats de recherche qui identifient les ressources trouvées sur un site par rapport aux ressources trouvées sur un autre site.

Une requête peut être classée comme faisant référence à un site particulier lorsqu'il a été déterminé que la requête est une requête de navigation vers le site particulier.

Dit autrement, le brevet décrit comme attribuer un score de qualité pour une intention navigationnelle, comme par exemple si vous tapez sur Google “panda Google createur2site”. C'est-à-dire en mentionnant le nom du site web, par exemple.

Il peut également traiter un site qui est une « collection de ressources » comme un site, selon cette approche de score de qualité de site. Ces collections peuvent inclure plusieurs domaines qui existent sur le même domaine ou un site divisé en sous-domaines ou sous-répertoires.

Le brevet “charabia” de l’équipe Panda

Le brevet “Identification du contenu charabia dans les ressources” permet de calculer un score de charabia pour la ressource en utilisant le score de modèle de langage et le score de remplissage de requête ; et utiliser le score de charabia calculé pour déterminer s'il faut modifier un score de classement de la ressource.

Ce brevet utilise entre autres les n-grams pour calculer le “taux de charabia”.

Que sont les phrases Ngram?

Une phrase ngram peut être une phrase de 2 gram, 3 gram, 4 gram ou 5 gram, où les pages sont divisées en phrases de deux mots, phrases de trois mots, phrases de quatre mots ou 5 expressions de mots. Si un corps de pages est décomposé en ngram, ils peuvent créer des modèles de langage ou des modèles de phrase à comparer à d'autres pages.

Les n-grams permettent de décomposer les phrases pour voir si un contenu fais du charabia et ou duplique un contenu.
Le fonctionnement de n-gram

Je n’expliquerais pas les n-grams mathématiquement.
Comprenez plutôt ceci.

En décomposant les phrases avec ce modèle, si quelqu’un copie une phrase et change quelques mots, ou leurs ordres, Google est à même de comprendre que vous avez dupliqué le contenu. Car il pourra retrouver des “ensembles de shingles” identiques.

Et donc, la proportion de shingles communs est égale au taux de duplication.

En tant que SEO, comment correspondre à cela ?

Si vous êtes maîtres de votre site, vous savez si vous avez dupliqué des choses. Si vous travaillez pour un client, il est bon de faire ces choses la :

  1. Crawler un site et vérifier son taux de duplication interne (ScreamingFrog par exemple)
  2. Crawler un site et vérifier son taux de duplication externe (Kill Duplicate par exemple).

Utilisation de modèles de phrases Ngram pour générer des scores de qualité de site

Utilisation de modèles de phrases Ngram pour générer des scores de qualité de site

Nous avons vu juste avant que les shingles permettent de détecter si un contenu est dupliqué ou non.

Mais aussi que cela peut calculer le taux de charabia d’un contenu.

Mais le modèle de phrases Ngram permet également d’attribuer un score de pertinence à un contenu, comme on peut le voir sur ce brevet de 2017.

En fait, ce récent brevet de Google génère des scores de qualité de site basés sur des modèles linguistiques à partir des statistiques d'ngram à comparer avec des sites connus de haute qualité.
En plus de générer des n-gram à partir de texte sur des sites, certaines versions de la mise en œuvre de ce brevet comprendront la génération de n-gram à partir d'un texte d'ancrage de liens pointant vers des pages des sites. Construire un modèle de phrase implique de calculer la fréquence des n-gram sur un site "sur la base du nombre de pages divisé par le nombre de pages du site".

Google Panda, mise en place algorithmique

Wired.com : Mais comment implémentez-vous cela de manière algorithmique ?

Cutts : Je pense que vous recherchez des signaux qui recréent cette même intuition, cette même expérience que vous avez en tant qu'ingénieur et que les utilisateurs ont. Chaque fois que nous examinons les sites les plus bloqués, cela correspondait à notre intuition et à notre expérience, mais la clé est que vous avez également votre expérience des types de sites qui vont ajouter de la valeur aux utilisateurs plutôt que de ne pas en ajouter. Et nous avons en fait proposé un classificateur pour dire, d'accord, IRS ou Wikipedia ou New York Times est de ce côté, et les sites de mauvaise qualité sont de ce côté. Et vous pouvez vraiment voir des raisons mathématiques ...

Singhal : Vous pouvez imaginer dans un hyperespace un tas de points, certains points sont rouges, certains points sont verts, et dans d'autres il y a un mélange. Votre travail consiste à trouver un avion qui dit que la plupart des choses de ce côté de la place sont rouges, et la plupart des choses de ce côté de l'avion sont à l'opposé du rouge.

Résultats de recherche fusionnésPrédire la qualité d'un site Web algorithmiquement

Le brevet est :
Génération sélective de requêtes alternatives
Inventeurs : Navneet Panda, April R. Lehman, Trystan G. Upstill

Le brevet nous indique que le moteur de recherche peut utiliser une liste blanche de sites de haute qualité et une liste noire de sites de mauvaise qualité préparée manuellement ou par une méthode algorithmique.

On nous dit également que si un certain nombre de pages les mieux classées pour la requête initiale se trouvent sur des sites de faible qualité, une deuxième requête basée sur cette première requête peut être utilisée. Le brevet nous dit qu'une façon de procéder consiste à utiliser une base de données qui "inclut des termes de requête de remplacement et peut générer une requête alternative en substituant un terme de requête de remplacement à l'un des termes de requête dans la première requête".

Cela rappelle certains brevets de Google couvrant des termes de requête de substitution, comme les brevets probables de hummingbird ou de RankBrain, BERT, et tous les algorithmes influant sur le référencement sémantique.

Comme alternative, le brevet nous dit que le moteur de recherche pourrait construire "un graphe conceptuel de requêtes et parcourir le graphe pour obtenir une ou plusieurs requêtes alternatives". Que chaque nœud du graphique est défini par une requête et un ensemble de résultats de recherche les mieux classés obtenus pour la requête. Les liens entre les nœuds du graphique peuvent indiquer que les requêtes sont liées ou qu'une requête est une requête alternative pour une autre requête.

Ce serait très différent des graphiques de liens auxquels nous pensons quand il s'agit de Google, mais une façon intéressante de penser à la façon dont des requêtes alternatives pourraient être trouvées. Le brevet s'appuie sur cette approche graphique.

Ce système de recherche peut évaluer plus d'une requête alternative possible avant d'en sélectionner une avec la mesure de confiance la plus élevée.
Si l'ensemble de résultats comprend un seuil fusionné de sites de haute qualité, il peut essayer d'accumuler davantage de résultats de requêtes alternatifs à partir de sites de haute qualité.

FAQ : Google Panda

Google Panda : quelles sanctions ?

Les mythes sur le référencement persistent, et cela notamment car les choses changent au fur et à mesure. Aujourd’hui Google s’en fiche si vous duppliquez du contenu, je veux dire par là qu'il ne pénalise pas votre site. Il va par contre ignorer les pages dupliquées et ou de faible qualité, de la même manière que Google Penguin et les backlinks.

A quoi sert Google Panda ?

Google Panda est un algorithme agissant comme un filtre de ferme de contenu qui embête les pages qui n'ajoutent pas de valeur ajoutée par rapport au autre document de la SERP.

Comment se protéger de Google Panda ?

Comme expliqué dans cet article, vous devez créer un contenu pertinent et pour l’utilisateur.

Pertinence : synonyme d’avoir un espace auteur ?

L'un des plus gros problèmes est que beaucoup de gens pensent que Google Authorship et Google Agent Rank ou Author Rank sont les mêmes. Et ils pensent que si vous vérifiez la paternité de votre site, votre site a automatiquement beaucoup de rang d'auteur.

Avoir une description d’auteur pour tout et n’importe quoi n'améliore pas votre classement.
Certains référenceurs, préfèrent même enlever le lien de la biographie de l’auteur pour optimiser le PageRank.

Je ne peux pas vous dire qui est mieux que quoi. Je ne sais pas qu’est ce qui serait le plus optimisé et de toute façon "ça dépend".

Ça dépend si on vous cite en tant qu’auteur sur d’autre site, ça dépend si vous mettez un lien vers l’auteur pour un article de produit amazon en espérant sembler plus pertinent.

Maintenant, si vous avez un site qui parle de santé, avoir une mention précisant l’auteur avec un lien redirigeant vers la biographie est sans aucun doute bien mieux que d'optimiser le PageRank.
Je dirais que dans la plupart des cas, le mieux, si nous voulons uniquement le faire pour les algorithmes de Google, est de toujours placer une mention auteur sans liens. Mais d’afficher quelque part un lien vers la biographie de l’auteur.

Résumé : ce qu’il faut retenir sur Google Panda

Google Panda est désigné comme un seul algorithme axé sur l'anti-spam qui à fait trembler le web au cours de l'année 2011.

Ce n’est pas totalement faux.

Il me semble tout de même important de mentionner que Navneet Panda, celui qui à inventé le filtre anti-spam Panda, sort régulièrement de nouveaux brevets permettant de détecter un bon contenu. Que c’est un humain. Bien au-delà d’un simple filtre anti-spam, il continue d’améliorer la qualité de la recherche, parfois en se basant sur les mêmes idées algorithmiques.

Auteur

Stan De Jesus Oliveira
Propriétaire et fondateur de createur2site

Stan De Jesus Oliveira est le propriétaire de createur2site, il accompagne les entreprises dans leur création de site web, le Web Design et le référencement naturel SEO.

0 commentaires

Soumettre un commentaire

Votre adresse e-mail ne sera pas publiée.