Format du masque d'analyse (yml)

Format du masque d'analyse (yml)

Ce projet s'appuie sur invoice2data (https://github.com/invoice-x/invoice2data) et nous utilisons donc le même format, la même structure de description des données à extraire.

issuer: fr.fairphone.eric-test
fields:
  amount: Total\s*\(TTC\):\s*([\d\. ]*,\d{2})\s*
  amount_untaxed: Total\s*\(HT\):\s*([\d\. ]*,\d{2})\s*
  amount_tax: TVA:\s*([\d\. ]*,\d{2})\s*
  amount_tax1: TVA:\s*([\d\. ]*,\d{2})\s*
  value_tax1: "20"
  date: Date\s*de\s*facturation:\s*(\d{2}\s*.*\s*\d{4})
  invoice_number: Facture\s*n.:\s*(\w+)
  static_vat: NL851904270
  supplier_numtva: NL851904270
keywords:
- NL8519.04.270.B.01
- Fairphone
options:
  currency: EUR
  decimal_separator: ','
  date_formats:
  - '%d %b %Y'
  remove_whitespace: false

Note: ce format est extensible à l'envie, attention à ne pas “inventer” des clés qui seraient incompatibles entre elles…

Format du masque d'analyse en mode OCR "zones" (yml)

Si vous voulez forcer l'extraction de données de zones dans le fichier PDF en s'appuyant sur les coordonnées graphiques vous pouvez utiliser le schéma suivant (en cours de définition):

issuer: fr.cpi.eric-test
fields:
 immatriculation: x,y,w,h
 date: x,y,w,h
 client: x,y,w,h
options:
 engine: ocr

Suivez ce guide pour trouver les emplacements à faire découper par docwizon

projet_docwizon/format_de_description_du_masque_d_analyse.txt · Dernière modification : 2023/11/19 09:22 de supadmin
CC Attribution-Share Alike 4.0 International Sauf mention contraire, le contenu de ce wiki est placé sous les termes de la licence suivante : CC Attribution-Share Alike 4.0 International