**Ceci est une ancienne révision du document !**
Format du masque d'analyse (yml)
Ce projet s'appuie sur invoice2data (https://github.com/invoice-x/invoice2data) et nous utilisons donc le même format, la même structure de description des données à extraire.
issuer: fr.fairphone.eric-test fields: amount: Total\s*\(TTC\):\s*([\d\. ]*,\d{2})\s* amount_untaxed: Total\s*\(HT\):\s*([\d\. ]*,\d{2})\s* amount_tax: TVA:\s*([\d\. ]*,\d{2})\s* amount_tax1: TVA:\s*([\d\. ]*,\d{2})\s* value_tax1: "20" date: Date\s*de\s*facturation:\s*(\d{2}\s*.*\s*\d{4}) invoice_number: Facture\s*n.:\s*(\w+) static_vat: NL851904270 supplier_numtva: NL851904270 keywords: - NL8519.04.270.B.01 - Fairphone options: currency: EUR decimal_separator: ',' date_formats: - '%d %b %Y' remove_whitespace: false
Note: ce format est extensible à l'envie, attention à ne pas “inventer” des clés qui seraient incompatibles entre elles…
Format du masque d'analyse en mode OCR "zones" (yml)
Si vous voulez forcer l'extraction de données de zones dans le fichier PDF en s'appuyant sur les coordonnées graphiques vous pouvez utiliser le schéma suivant:
issuer: fr.cpi.eric-test fields: immatriculation: x,y,w,h date: x,y,w,h client: x,y,w,h options: engine: ocr