Différences
Ci-dessous, les différences entre deux révisions de la page.
Les deux révisions précédentesRévision précédenteProchaine révision | Révision précédente | ||
projet_docwizon:creation_des_masques_d_analyses [2022/12/01 16:43] – supprimée - modification externe (Unknown date) 127.0.0.1 | projet_docwizon:creation_des_masques_d_analyses [2024/06/13 07:42] (Version actuelle) – supadmin | ||
---|---|---|---|
Ligne 1: | Ligne 1: | ||
+ | < | ||
+ | |||
+ | Cette documentation a pour but de vous permettre de créer des masques d' | ||
+ | |||
+ | Le webservice propose deux entrées qu'il faut utiliser dans notre cas de figure: | ||
+ | |||
+ | * la liste des documents analysés "liste OCR" | ||
+ | * la liste des masques d' | ||
+ | |||
+ | {{projet_docwizon: | ||
+ | |||
+ | Lorsqu' | ||
+ | * regex editor : ouvre une popup vous permettant d' | ||
+ | * replay : permet de " | ||
+ | * pdf : pour télécharger le fichier PDF en question | ||
+ | |||
+ | ## L' | ||
+ | |||
+ | {{projet_docwizon: | ||
+ | |||
+ | Cette fenêtre est accessible depuis la liste des documents OCR puis clic sur le lien "regex editor" | ||
+ | |||
+ | Elle vous permet d' | ||
+ | |||
+ | Un exemple plus précis est visible sur cette capture d' | ||
+ | 1. l' | ||
+ | 2. la zone du texte du document qui " | ||
+ | 3. si l' | ||
+ | 4. le résultat de l' | ||
+ | |||
+ | {{projet_docwizon: | ||
+ | |||
+ | Lorsque votre regex extrait UNIQUEMENT le champ que vous voulez (par exemple le numéro de facture) vous pourrez le reporter dans la fiche de création du masque d' | ||
+ | |||
+ | {{projet_docwizon: | ||
+ | |||
+ | |||
+ | ## Créer un nouveau masque d' | ||
+ | |||
+ | Placez-vous sur la zone " | ||
+ | |||
+ | {{projet_docwizon: | ||
+ | |||
+ | {{projet_docwizon: | ||
+ | |||
+ | Description de l' | ||
+ | |||
+ | * Généralités | ||
+ | * NAME : saisie le nom de votre masque de saisie sous la forme suivante : fr.fournisseur-unmotcle-votrenom, | ||
+ | * FOURNISSEUR : le nom du fournisseur qui sera retourné dans le fichier json (à venir) | ||
+ | * NUMÉRO DE TVA : en dur le numéro de TVA intracom de ce fournisseur | ||
+ | * EXPRESSIONS RÉGULIÈRES : dans ce bloc vous devrez soit laisser les champs vides, soit les compléter en copiant/ | ||
+ | * MONTANT TOTAL : la regex qui permet d' | ||
+ | * etc. pour chaque champ | ||
+ | * OPTIONS | ||
+ | * MOTS CLÉS : ce qui permet de détecter qu'il faut appliquer ce masque d' | ||
+ | * MOTS CLÉS EXCLUS : l' | ||
+ | * FORMAT DE DATE : voir la [doc python](https:// | ||
+ | * %d jour du mois sur 2 chiffres | ||
+ | * %m Numéro du mois sur deux chiffres | ||
+ | * %b Nom du mois abrégé dans la langue locale (exemple jan, fev etc.) | ||
+ | * %B Nom complet du mois dans la langue locale (janvier, février etc.) | ||
+ | * %y Année sur deux chiffres | ||
+ | * %Y Année complète sur quatre chiffres | ||
+ | |||
+ | |||
+ | ## Tester / Valider un masque d' | ||
+ | |||
+ | Quand votre masque d' | ||
+ | |||
+ | Si la popup vous affiche toutes les données voulues c'est que votre masque d' | ||
+ | |||
+ | {{projet_docwizon: | ||
+ | |||
+ | ## Écrire des regex | ||
+ | |||
+ | Ceci n'est qu'un petit pense bête concernant l'art d' | ||
+ | |||
+ | * `()` : les parenthèses permettent d' | ||
+ | * `\w`: Caractères alphanumériques, | ||
+ | * `\W`: Caractères ne composant pas les mots | ||
+ | * `\s+` : | ||
+ | * `\d` : Chiffres décimaux | ||
+ | * `\D` : Autre chose qu'un chiffre décimal | ||
+ | * `\s` : Caractères d' | ||
+ | * `\S` : Autre chose qu'un caractère d' | ||
+ | |||
+ | Les `{}` permettent de définir des répétitions: | ||
+ | |||
+ | * `\d{2}` : 2 chiffres | ||
+ | * `\d{4}` : 4 chiffres | ||
+ | * `\d{0,5}` : entre aucun et 5 chiffres | ||
+ | * `\/` : le `/` étant réservé il faut le dé-spécialiser en le précédent d'un `\` | ||
+ | |||
+ | |||
+ | ## Liste des mots clés réservés | ||
+ | |||
+ | Selon les profils disponibles sur votre serveur la syntaxe est différente: | ||
+ | |||
+ | ### DocRaw reconnaît la grammaire suivante: | ||
+ | |||
+ | |||
+ | |||
+ | ### ScanInvoices reconnaît la grammaire suivante: | ||
+ | |||
+ | * `amount` : montant | ||
+ | * `amount_tax` : montant taxe (historique avant prise en compte de 4 taxes possibles) | ||
+ | * `amount_tax1`: | ||
+ | * `value_tax1`: | ||
+ | * `amount_tax2`: | ||
+ | * `value_tax2`: | ||
+ | * `amount_tax3`: | ||
+ | * `value_tax3`: | ||
+ | * `amount_tax4`: | ||
+ | * `value_tax4`: | ||
+ | * `amount_untaxed`: | ||
+ | * `currency`: monnaie | ||
+ | * `date`: date | ||
+ | * `date_due`: date due | ||
+ | * `date_formats`: | ||
+ | * `decimal_separator`: | ||
+ | * `description`: | ||
+ | * `ean`: code ean | ||
+ | * `invoice_label`: | ||
+ | * `invoice_number`: | ||
+ | * `locale`: locale à utiliser pour ce document | ||
+ | * `static_BIC` | ||
+ | * `static_IBAN` | ||
+ | * `static_payment` | ||
+ | * `static_recipient` | ||
+ | * `static_siren` | ||
+ | * `static_supplier_alias` | ||
+ | * `static_supplier_name` | ||
+ | * `static_supplier_numtva` | ||
+ | * `static_vat` | ||
+ | * `sum_amount_tax` | ||
+ | * `supplier_numsiret` | ||
+ | * `supplier_numtva` | ||
+ | |||
+ | ### ScanBank reconnaît la grammaire suivante: | ||
+ | |||