Ce projet s'appuie sur invoice2data (https://github.com/invoice-x/invoice2data) et nous utilisons donc le même format, la même structure de description des données à extraire.
issuer: fr.fairphone.eric-test fields: amount: Total\s*\(TTC\):\s*([\d\. ]*,\d{2})\s* amount_untaxed: Total\s*\(HT\):\s*([\d\. ]*,\d{2})\s* amount_tax: TVA:\s*([\d\. ]*,\d{2})\s* amount_tax1: TVA:\s*([\d\. ]*,\d{2})\s* value_tax1: "20" date: Date\s*de\s*facturation:\s*(\d{2}\s*.*\s*\d{4}) invoice_number: Facture\s*n.:\s*(\w+) static_vat: NL851904270 supplier_numtva: NL851904270 keywords: - NL8519.04.270.B.01 - Fairphone options: currency: EUR decimal_separator: ',' date_formats: - '%d %b %Y' remove_whitespace: false
Note: ce format est extensible à l'envie, attention à ne pas “inventer” des clés qui seraient incompatibles entre elles…
Si vous voulez forcer l'extraction de données de zones dans le fichier PDF en s'appuyant sur les coordonnées graphiques vous pouvez utiliser le schéma suivant (en cours de définition):
issuer: fr.cpi.eric-test fields: immatriculation: x,y,w,h date: x,y,w,h client: x,y,w,h options: engine: ocr
Suivez ce guide pour trouver les emplacements à faire découper par docwizon