LinkedIn Link to LinkedIn Twitter Link to Twitter

Les expressions régulières : regex en SEO

Mis à jour le 09/08/2022 | Publié le 21/02/2022 | 0 commentaires

RegEx n'est pas toujours aussi compliqué qu'il n'y paraît de prime abord, regardez par vous-même : ([0-9]+(\.[0-9]*) ?) , limpide ?

Plus sérieusement, ce qui ressemble souvent à un chat qui marche sur un clavier assorti de caractères aléatoires peut être très dur à interpréter, mais en réalité, il suffit d'un peu de pratique pour pouvoir utiliser certaines expressions régulières dans votre méthode de travail.

Par exemple, en utilisant cette regex sur la Google Search Console « .*(best|top|vs|review*).* » vous pourriez repérer rapidement les pages ou les requêtes qui correspondent à l’intention de recherche commerciale de votre site.

Votre client pense qu’il s’est fait pirater ? Injection de contenu ? Utilisez la regex suivante : « .*viagra.*|.*cialis.*|.*levitra.*|.*drugs.*|.*porn.*|.*www.*www.* »

Plutôt simple à comprendre non ?

Attendez, qu'est-ce que RegEx ? RegEx pour Regular Expressions est un moyen de faire correspondre des chaînes (essentiellement des morceaux de texte). Vous créez une expression qui est une combinaison de caractères et de métacaractères et une chaîne sera comparée à celle-ci.

Ainsi, dans l'exemple précédent, votre expression régulière est appliquée et si elle correspond, elle est incluse dans le rapport. Si elle ne correspond pas, elle est rejetée. En l’occurrence soit la GSC vous affiche les pages qui contiennent ces mots, soit elle ne vous affiche rien.

RegEx a de nombreuses utilisations en dehors de Google Search Console. Par exemple, son application sur ScreamingFrog est souvent indispensable pour extraire des données de manière optimale.

Les différentes expressions Regex

Voici les différents caractères que vous pouvez utiliser :

Caractères génériques

Syntaxe expression
. Correspond à n'importe quel caractère
* Faire correspondre le caractère précédent 0 fois ou plus
? Faire correspondre le caractère précédent 0 ou 1 fois
+ Faire correspondre le caractère précédent 1 ou plusieurs fois
| OU

Ancres

Syntaxe expression
^ La chaîne commence par le caractère suivant
$ La chaîne se termine par le caractère précédent

Groupes

Syntaxe Une expression
( ) Associez les caractères inclus dans l'ordre exact
[ ] Faites correspondre les caractères inclus dans n'importe quel ordre
Faire correspondre tous les caractères dans la plage spécifiée

Échap

Syntaxe Une expression
\ Traiter le caractère littéralement. Indique que le caractère adjacent doit être interprété de façon littérale plutôt que comme un métacaractère

Pourquoi utiliser une Regex ?

Bien que vous deviez d’abord apprendre et comprendre la manière dont fonctionne le concept des opérateurs, la Regex est extrêmement utile pour les référenceurs SEO. Et encore plus largement pour ceux qui gèrent de grands sites.

Ainsi, si vous travaillez pour un client, vous pouvez rapidement filtrer à l’aide de Regex les pages qui se concentrent sur des intentions de recherche particulière, à filtrer par pays, voir les requêtes d’un mot (mot-clé courte traîne), et... tout ce que vous voulez en fait.

Il existe de nombreux outils qui permettent le filtrage avec regex, comme Ahrefs, SEMrush, des crawlers comme ScreamingFrog et Oncrawl, mais aussi d’autres outils comme Google Search Console et Google Analytics

Si de base cela paraît compliqué à prendre en main, commencez par des choses simples que vous comprenez, puis cela viendra naturellement. Il existe aussi de nombreux articles anglophones avec des regex toutes prêtes pour filtrer à peu près tout ce que vous voulez filtrer et même des Google Sheets générateurs de regex.

En fait, Regex est indispensable pour le "Data SEO" et donc l'optimisation du référencement technique.

Cela me fait penser à un live Twitch de Trikaya (Frédérik Bobet) avec Aymeric Bouillat sur le SEO technique. Aymeric montrait comment extraire le maillage interne d’un site (à l’aide du breadcrumb) et l’importer sur Xmind avec ScreamingFrog en utilisant des regex ainsi que Excel. Cela permet en quelques minutes de voir les mindmaps de sites et de pouvoir récupérer les idées de maillage avec les idées de contenu très rapidement et facilement. Une technique qui disons-le, peut permettre d’économiser beaucoup d’heures de travail.

Effectivement, si les regex peuvent vous aider à filtrer les données de votre site, elles peuvent aussi vous aider à filtrer celles de vos concurrents.

Regex, au-delà d’un simple filtre

Là où XPath peut extraire du HTML sur ScreamingFrog, il ne parvient pas à extraire du JavaScript en ligne. C'est là que la connaissance des regex est utile.

Par exemple, avec regex, vous pouvez extraire le balisage de schéma au format JSON-LD. Ou encore extraire des données des scripts de suivi, par exemple en récupérant l'ID de suivi Google Analytics d'une page web.

Note : ["']item["']: *\{["']@id["']: *["'].*?["'], *["']name["']: *["'](.*?)["'] permet d’extraire tous les types de balisage de schéma JSON-LD sur une page, et pas forcément votre site 😉

Les ressources à consulter

N’étant pas assez calé sur le sujet, et ne voulant pas écrire plusieurs articles sur les Regex, voici plein de sites qui pourront vous aider.

Google vous explique les regex :
https://support.google.com/analytics/answer/1034324?hl=fr

Plein de tableaux de RegEx préconçus à utiliser dans votre Google Search Console :
https://www.jcchouinard.com/regex-in-google-search-console/

Plein de tableaux et d’explications RegEx pour Screaming Frog :
https://uproer.com/articles/screaming-frog-custom-extraction-xpath-regex/

Et enfin, voici un excellent outil pour créer et tester vos regex :
https://regex101.com/

Auteur

Stan De Jesus Oliveira
Propriétaire et fondateur de createur2site

Stan De Jesus Oliveira est le propriétaire de createur2site, il accompagne les entreprises dans leur création de site web, le Web Design et le référencement naturel SEO.

0 commentaires

Soumettre un commentaire

Votre adresse e-mail ne sera pas publiée.