Expressions régulières ou regex

Permet d'extraire des données dans un bloc de texte !

Syntaxe (1)

  • \w: Caractères alphanumériques, et _
  • \W: Caractères ne composant pas les mots
  • \d : Chiffres décimaux
  • \D : Autre chose qu'un chiffre décimal
  • \s : Caractères d'espacement
  • \S : Autre chose qu'un caractère d'espacement
  • .: N'importe quoi

Syntaxe (2)

Répétitions:

  • + : 1 ou plus, exemple \d+
  • * : zéro ou une infinité, exemple \w*

Syntaxe (3)

Les accolades {} permettent de définir des répétitions fixes:

  • \d{2} : 2 chiffres
  • \d{4} : 4 chiffres
  • \d{0,5} : entre aucun et 5 chiffres
  • \/ : le / étant réservé il faut le dé-spécialiser en le précédent d'un \

Syntaxe (4)

  • () : les parenthèses permettent d'indiquer une zone à extraire
  • ?<tag> : pour associer un tag ou une étiquette à la zone extraite

Premier exemple

Soit le texte suivant : “Le 14 janvier 2022”

Comment extraire “14” ?

  • “\d\d”
  • “\d{2}”
  • “\s\d\d\s”
  • …/…