Extraction des lignes de détails d'une facture

Extraction des lignes de détails d'une facture

(Documentation en cours de rédaction)

Préambule - Facture électronique

Si la facture de votre fournisseur est au format factur-x par exemple alors celle ci sera directement intégrée dans dolibarr à condition qu'elle soit conforme par rapport à la norme. L'extraction du détail de la facture sera automatique (sous limite de l'implémentation de la norme par l'éditeur du document initial, une information qui n'existe pas ne risque pas d'être inventée).

Présentation

L'extraction des lignes des factures a toujours été un objectif principal du projet, prévu pour la version 2.0 il est arrivé plus rapidement :-) et vous pouvez en bénéficier dès à présent.

Certaines contraintes sont tout de même à prendre en compte et cette documentation devrait vous permettre de les cerner.

La création d'un masque d'extraction de données est donc un travail manuel, précis qui demande du temps, c'est la raison pour laquelle elle est proposée sous forme d'un paiement ponctuel.

Dans le cadre du projet présenté ici il faut noter un point important : d'un côté le serveur d'extraction de données et de l'autre le plugin dolibarr scaninvoices … les deux sont liés mais n'évoluent pas à la même vitesse, certaines données extraites par le serveur ne sont pas forcément encore exploitées par scaninvoices !

Liste des champs extraits par le serveur

Vous trouverez ci-dessous la liste des mots clés & champs que le serveur est en capacité d'extraire:

  • ref : référence produit (fournisseur)
  • label : label (étiquette “courte”)
  • qty : quantité
  • tauxtva : taux de tva appliquée sur la ligne
  • tax_value : montant de la tva appliquée sur la ligne
  • lot : numéro de lot
  • ean : code ean
  • dlc : date limite de consommation (produit périssable)
  • remise_percent: remise en % appliquée au produit
  • unit_price : prix unitaire
  • amount_untax : total de la ligne
  • desc : description détaillée du produit (généralement les lignes suivantes)
  • ecopart : éco participation
  • deee : taxe deee (electronique)
  • surtax : voir facture rexel belgique, pour certains produits une ligne surtaxe apparait

Limites

Documents numérisés issus d'une photo ou d'un scan

Pour l'instant et sauf petite révolution technique chez nous malheureusement ces documents ne sont pas concernés par l'extraction détaillée, trop de parasites entrent en jeux et le résultat n'est pas à la hauteur des objectifs fixés par le projet.

En résumé: papier froissé, marque des pliures, présence de taches, qualité d'impression initiale (bavures, bandes verticales) + lourdeur du moteur d'OCR et des outils de nettoyage bitmap

Information qui "brouille" le contenu du document

Exemple d'une facture avec la mention “duplicata” …

Information ajoutée

Organisation du document "artistique"

Certains fournisseurs doivent considérer qu'une facture est une zone d'expression artistique, c'est la seule explication qui nous vient en tête lorsqu'on “voit” ce genre de choses … vous comprendrez donc qu'il ne nous est pas possible de faire la différence entre le contenu de la facture et la publicité ajoutée et qui recouvre la liste des produits…

document graphique

Document incohérent

Certaines factures semblent bien parties pour être exploitables … sauf que tout à coup on ne sait pas pourquoi un article semble vouloir se démarquer des autres … Exemple avec cette facture où tous les montants des articles sont avec deux chiffres après la virgule sauf un qui en a … 5 !

incohérence

Lignes et colonnes impossibles à dissocier

Dans d'autres cas la zone de description des produits est une sorte de grosse zone de texte sans aucune mise en page permettant d'interpréter l'information … vous comprendrez donc qu'il n'est pas possible d'aller extraire la référence du produit, son prix unitaire etc.

Information manquante

Il arrive également que certaines factures ne comportent pas assez d'informations pour que l'extraction des lignes puisse être intéressant. C'est particulièrement vrai sur une facture qui n'indique par exemple pas de référence produit … ou de code (ou de taux) de TVA et qui globalise en fin de document 2 taux de TVA sans aucun moyen de savoir quelle ligne est impactée par quel taux de TVA

Extraire des données = Écrire des expressions régulières

Pour extraire des données il faut savoir écrire des expressions régulières

projet_scaninvoices/extraction_des_lignes_de_details.txt · Dernière modification : 2022/11/15 23:09 de supadmin
CC Attribution-Share Alike 4.0 International Sauf mention contraire, le contenu de ce wiki est placé sous les termes de la licence suivante : CC Attribution-Share Alike 4.0 International