RegEx (expressions régulières) n'est pas toujours aussi compliqué qu'il n'y paraît de prime abord, regardez par vous-même : ([0-9]+(\.[0-9]*) ?) , limpide ?
Plus sérieusement, ce qui ressemble souvent à un chat qui marche sur un clavier assorti de caractères aléatoires peut être très dur à interpréter, mais en réalité, il suffit d'un peu de pratique pour pouvoir utiliser certaines expressions régulières comme outils SEO dans votre méthode de travail.
Par exemple, en utilisant cette regex sur la Google Search Console « .*(best|top|vs|review*).* » vous pourriez repérer rapidement les pages ou les requêtes qui correspondent à l’intention de recherche de recherche commerciale de votre site.
Votre client pense qu'il s'est fait pirater ? Injection de contenu ? Pour l'analyser, utilisez la regex suivante : « .*viagra.*|.*cialis.*|.*levitra.*|.*drugs.*|.*porn.*|.*www.*www.* »
Plutôt simple à comprendre non ?
Attendez, qu’est-ce que RegEx ? RegEx pour Regular Expressions est un moyen de faire correspondre des chaînes (essentiellement des morceaux de texte). Vous créez une expression qui est une combinaison de caractères et de métacaractères et une chaîne sera comparée à celle-ci.
Ainsi, dans l’exemple précédent, votre expression régulière est appliquée et si elle correspond, elle est incluse dans le rapport. Si elle ne correspond pas, elle est rejetée. En l’occurrence soit la GSC vous affiche les pages qui contiennent ces mots, soit elle ne vous affiche rien.
RegEx a de nombreuses utilisations en dehors de Google Search Console. Par exemple, son application sur ScreamingFrog est souvent indispensable pour extraire des données comme les urls des produits ou trouver des erreurs de manière optimale.
Les différentes expressions Regex
Voici les différents caractères que vous pouvez utiliser dans une expression régulière :
Caractères génériques
| Syntaxe | expression |
|---|---|
| . | Correspond à n’importe quel caractère |
| * | Faire correspondre le caractère précédent 0 fois ou plus |
| ? | Faire correspondre le caractère précédent 0 ou 1 fois |
| + | Faire correspondre le caractère précédent 1 ou plusieurs fois |
| | | OU |
Ancres
| Syntaxe | expression |
|---|---|
| ^ | La chaîne commence par le caractère suivant |
| $ | La chaîne se termine par le caractère précédent |
Groupes
| Syntaxe | Une expression |
|---|---|
| ( ) | Associez les caractères inclus dans l’ordre exact |
| [ ] | Faites correspondre les caractères inclus dans n’importe quel ordre |
| – | Faire correspondre tous les caractères dans la plage spécifiée |
Échap
| Syntaxe | Une expression |
|---|---|
| \ | Traiter le caractère littéralement. Indique que le caractère adjacent doit être interprété de façon littérale plutôt que comme un métacaractère |
Pourquoi utiliser une Regex ?
Bien que vous deviez d'abord apprendre et comprendre la manière dont fonctionne le concept des opérateurs, la Regex est extrêmement utile pour les référenceurs SEO. Et encore plus largement pour ceux qui gèrent de grands sites et leurs nombreuses url produit.
Ainsi, si vous travaillez pour un client, vous pouvez rapidement filtrer à l'aide de Regex les pages de blog qui se concentrent sur des intentions de recherche particulière, à filtrer par pays, voir les requêtes d'un mot (mot-clé courte traîne) avec une veille régulière, et… tout ce que vous voulez en fait.
Il existe de nombreux outils qui permettent le filtrage avec regex, comme Ahrefs, SEMrush, des crawlers comme ScreamingFrog et Oncrawl, mais aussi d’autres outils comme Google Search Console et Google Analytics
Si de base cela paraît compliqué à prendre en main, commencez par des choses simples que vous comprenez sur vos mots-clés requêtes, puis cela viendra naturellement. Il existe aussi de nombreux articles anglophones avec des regex toutes prêtes pour filtrer à peu près vos mots-clés requêtes dans Google Search Console et même des Google Sheets générateurs de regex.
En fait, Regex est indispensable pour le “Data SEO” et donc l’optimisation du référencement technique.
Cela me fait penser à un live Twitch de Trikaya (Frédérik Bobet) avec Aymeric Bouillat sur le SEO SEO technique. Aymeric montrait comment extraire le maillage interne interne d’un site (à l’aide du breadcrumb) et l’importer sur Xmind avec ScreamingFrog en utilisant des regex ainsi que Excel. Cela permet en quelques minutes de voir les mindmaps de sites et de pouvoir récupérer les idées de maillage avec les idées de contenu très rapidement et facilement. Une technique qui disons-le, peut permettre d’économiser beaucoup d’heures de travail.
Effectivement, si les regex peuvent vous aider à filtrer les données et requêtes de votre site ou blog, elles peuvent aussi vous aider à filtrer celles de vos concurrents.
Regex, au-delà d’un simple filtre
Là où XPath peut extraire du HTML sur ScreamingFrog, il ne parvient pas à extraire du JavaScript en ligne. C’est là que la connaissance des regex est utile.
Par exemple, avec regex, vous pouvez extraire le balisage de schéma au format JSON-LD. Ou encore extraire des données des scripts de suivi, par exemple en récupérant l’ID de suivi Google Analytics d’une page web.
Note : ["']item["']: *\{["']@id["']: *["'].*?["'], *["']name["']: *["'](.*?)["'] permet d'extraire tous les types de balisage de schéma JSON-LD pour analyser le contenu d'une page, et pas forcément votre site 😉
Les ressources à consulter
N'étant pas assez calé sur le sujet, et ne voulant pas écrire plusieurs articles sur les Regex, voici plein de sites qui pourront vous aider à comprendre quand une expression régulière correspond à vos besoins.
Google vous explique les regex :
https://support.google.com/analytics/answer/1034324?hl=fr
Plein de tableaux de RegEx préconçus à utiliser dans votre Google Search Console :
https://www.jcchouinard.com/regex-in-google-search-console/
Plein de tableaux et d’explications RegEx pour Screaming Frog :
https://uproer.com/articles/screaming-frog-custom-extraction-xpath-regex/
Et enfin, voici un excellent outil pour créer et tester vos regex :
https://regex101.com/

0 commentaires