projet_scaninvoices:expressions_regulieres

**Ceci est une ancienne révision du document !**

→ Slide 1

Expression régulière ou regex

Permet d'extraire des données dans un bloc de texte

Notes

Voir la documentation basique sur la création des masques d'extraction de données (pour import automatique, expressions régulières)

→ Slide 2

Syntaxe (1)

  • \w: Caractères alphanumériques, et _
  • \W: Caractères ne composant pas les mots
  • \d : Chiffres décimaux
  • \D : Autre chose qu'un chiffre décimal
  • \s : Caractères d'espacement
  • \S : Autre chose qu'un caractère d'espacement
  • .: N'importe quoi
→ Slide 3

Syntaxe (2)

Répétitions:

  • + : 1 ou plus, exemple \d+
  • * : zéro ou une infinité, exemple \w*
→ Slide 4

Syntaxe (3)

Les accolades {} permettent de définir des répétitions fixes:

  • \d{2} : 2 chiffres
  • \d{4} : 4 chiffres
  • \d{0,5} : entre aucun et 5 chiffres
  • \/ : le / étant réservé il faut le dé-spécialiser en le précédent d'un \
→ Slide 5

Syntaxe (4)

  • () : les parenthèses permettent d'indiquer une zone à extraire
  • ?<tag> : pour associer un tag ou une étiquette à la zone extraite
→ Slide 6

Premier exemple

Soit le texte suivant : “Le 14 janvier 2022”

Comment extraire “14” ?

  • “\d\d”
  • “\d{2}”
  • “\s\d\d\s”
  • …/…
projet_scaninvoices/expressions_regulieres.1668551932.txt.gz · Dernière modification : 2022/11/15 23:38 de supadmin
CC Attribution-Share Alike 4.0 International Sauf mention contraire, le contenu de ce wiki est placé sous les termes de la licence suivante : CC Attribution-Share Alike 4.0 International