Différences

Ci-dessous, les différences entre deux révisions de la page.

Lien vers cette vue comparative

Les deux révisions précédentesRévision précédente
Prochaine révision
Révision précédente
projet_docwizon:creation_des_masques_d_analyses [2022/03/23 23:23] – ↷ Page déplacée de projet_cap-ocr:creation_des_masques_d_analyses à projet_docwizon:creation_des_masques_d_analyses supadminprojet_docwizon:creation_des_masques_d_analyses [2024/06/13 07:42] (Version actuelle) supadmin
Ligne 1: Ligne 1:
-Cette documentation a pour but de vous permettre de créer des masques d'analyse personnalisés pour l'OCR directement sur https://ocr.cap-rel.fr/ (ou votre serveur auto-hébergé).+<note>Il n'est pas possible de créer des masques d'extractions de données sur les serveurs mutualisés pour une raison simple: en cas d'erreur sur un masque vous impacterez tous les utilisateurs ... de ce fait la création de masques n'est possible que sur des instances auto hébergées.</note> 
 + 
 +Cette documentation a pour but de vous permettre de créer des masques d'analyse personnalisés pour l'OCR directement sur votre serveur auto-hébergé.
  
 Le webservice propose deux entrées qu'il faut utiliser dans notre cas de figure: Le webservice propose deux entrées qu'il faut utiliser dans notre cas de figure:
Ligne 6: Ligne 8:
 * la liste des masques d'analyse "templates" * la liste des masques d'analyse "templates"
  
-{{:projet_cap-ocr:pasted:20211216-013522.png?400}}+{{projet_docwizon:pasted:20211216-013522.png?400}}
  
 Lorsqu'on se place sur la zone des Ocr vous pourrez voir la liste des documents analysés. Ceux qui sont en échec sont marqués d'une puce orange. Vous pouvez cliquer sur les trois liens proposés dans la liste des commandes: Lorsqu'on se place sur la zone des Ocr vous pourrez voir la liste des documents analysés. Ceux qui sont en échec sont marqués d'une puce orange. Vous pouvez cliquer sur les trois liens proposés dans la liste des commandes:
Ligne 15: Ligne 17:
 ## L'éditeur d'expressions régulières ## L'éditeur d'expressions régulières
  
-{{:projet_cap-ocr:pasted:20211216-013535.png?400}}+{{projet_docwizon:pasted:20211216-013535.png?400}}
  
 Cette fenêtre est accessible depuis la liste des documents OCR puis clic sur le lien "regex editor" Cette fenêtre est accessible depuis la liste des documents OCR puis clic sur le lien "regex editor"
Ligne 27: Ligne 29:
 4. le résultat de l'extraction du texte de votre regex 4. le résultat de l'extraction du texte de votre regex
  
-{{:projet_cap-ocr:pasted:20211216-013616.png?400}}+{{projet_docwizon:pasted:20211216-013616.png?400}}
  
 Lorsque votre regex extrait UNIQUEMENT le champ que vous voulez (par exemple le numéro de facture) vous pourrez le reporter dans la fiche de création du masque d'analyse Lorsque votre regex extrait UNIQUEMENT le champ que vous voulez (par exemple le numéro de facture) vous pourrez le reporter dans la fiche de création du masque d'analyse
  
-{{:projet_cap-ocr:pasted:20211216-013606.png?400}}+{{projet_docwizon:pasted:20211216-013606.png?400}}
  
  
Ligne 38: Ligne 40:
 Placez-vous sur la zone "Templates", vous pouvez regarder les templates proposées par les autres participants ... et vous pouvez cliquer sur le bouton "Nouveau" pour créer un nouveau masque d'analyse. Placez-vous sur la zone "Templates", vous pouvez regarder les templates proposées par les autres participants ... et vous pouvez cliquer sur le bouton "Nouveau" pour créer un nouveau masque d'analyse.
  
-{{:projet_cap-ocr:pasted:20211216-013722.png?400}}+{{projet_docwizon:pasted:20211216-013722.png?400}}
  
-{{:projet_cap-ocr:pasted:20211216-013729.png?400}}+{{projet_docwizon:pasted:20211216-013729.png?400}}
  
 Description de l'interface de création de masques d'analyse (en cours de dev, cette capture d'écran risque de ne pas être "à jour" rapidement mais le principe reste le même). Description de l'interface de création de masques d'analyse (en cours de dev, cette capture d'écran risque de ne pas être "à jour" rapidement mais le principe reste le même).
Ligne 69: Ligne 71:
 Si la popup vous affiche toutes les données voulues c'est que votre masque d'analyse est bon, exemple: Si la popup vous affiche toutes les données voulues c'est que votre masque d'analyse est bon, exemple:
  
-{{:projet_cap-ocr:pasted:20211216-013754.png?400}}+{{projet_docwizon:pasted:20211216-013754.png?400}}
  
 ## Écrire des regex ## Écrire des regex
Ligne 90: Ligne 92:
 * `\d{0,5}` : entre aucun et 5 chiffres * `\d{0,5}` : entre aucun et 5 chiffres
 * `\/` : le `/` étant réservé il faut le dé-spécialiser en le précédent d'un `\` * `\/` : le `/` étant réservé il faut le dé-spécialiser en le précédent d'un `\`
 +
 +
 +## Liste des mots clés réservés
 +
 +Selon les profils disponibles sur votre serveur la syntaxe est différente:
 +
 +### DocRaw reconnaît la grammaire suivante:
 +
 +
 +
 +### ScanInvoices reconnaît la grammaire suivante:
 +
 +* `amount` : montant
 +* `amount_tax` : montant taxe (historique avant prise en compte de 4 taxes possibles)
 +* `amount_tax1`: montant taxe1
 +* `value_tax1`: par exemple 0 pour pouvoir extraire le montant non taxé
 +* `amount_tax2`: montant taxe2
 +* `value_tax2`: par exemple 5.5 pour pouvoir extraire le montant de la taxe à 5,5%
 +* `amount_tax3`: montant taxe3
 +* `value_tax3`: par exemple 10 pour pouvoir extraire le montant de la taxe à 10%
 +* `amount_tax4`: montant taxe4
 +* `value_tax4`: par exemple 20 pour pouvoir extraire le montant de la taxe à 20%
 +* `amount_untaxed`: montant ht
 +* `currency`: monnaie
 +* `date`: date
 +* `date_due`: date due
 +* `date_formats`: format de la date
 +* `decimal_separator`: séparateur
 +* `description`: description
 +* `ean`: code ean
 +* `invoice_label`: titre ou sujet de la facture
 +* `invoice_number`: numéro de la facture
 +* `locale`: locale à utiliser pour ce document
 +* `static_BIC`
 +* `static_IBAN`
 +* `static_payment`
 +* `static_recipient`
 +* `static_siren`
 +* `static_supplier_alias`
 +* `static_supplier_name`
 +* `static_supplier_numtva`
 +* `static_vat`
 +* `sum_amount_tax`
 +* `supplier_numsiret`
 +* `supplier_numtva`
 +
 +### ScanBank reconnaît la grammaire suivante:
 +
 +