projet_scaninvoices:expressions_regulieres

→ Slide 1

Expressions régulières ou regex

Permet d'extraire des données dans un bloc de texte !

Notes

Voir la documentation basique sur la création des masques d'extraction de données (pour import automatique, expressions régulières)

→ Slide 2

Syntaxe (1)

  • \w: Caractères alphanumériques, et _
  • \W: Caractères ne composant pas les mots
  • \d : Chiffres décimaux
  • \D : Autre chose qu'un chiffre décimal
  • \s : Caractères d'espacement
  • \S : Autre chose qu'un caractère d'espacement
  • .: N'importe quoi
→ Slide 3

Syntaxe (2)

Répétitions:

  • + : 1 ou plus, exemple \d+
  • * : zéro ou une infinité, exemple \w*
→ Slide 4

Syntaxe (3)

Les accolades {} permettent de définir des répétitions fixes:

  • \d{2} : 2 chiffres
  • \d{4} : 4 chiffres
  • \d{0,5} : entre aucun et 5 chiffres
  • \/ : le / étant réservé il faut le dé-spécialiser en le précédent d'un \
→ Slide 5

Syntaxe (4)

  • () : les parenthèses permettent d'indiquer une zone à extraire
  • ?<tag> : pour associer un tag ou une étiquette à la zone extraite
→ Slide 6

Premier exemple

Soit le texte suivant : “Le 14 janvier 2022”

Comment extraire “14” ?

  • “\d\d”
  • “\d{2}”
  • “\s\d\d\s”
  • …/…
projet_scaninvoices/expressions_regulieres.txt · Dernière modification : 2022/12/01 16:43 de supadmin
CC Attribution-Share Alike 4.0 International Sauf mention contraire, le contenu de ce wiki est placé sous les termes de la licence suivante : CC Attribution-Share Alike 4.0 International