Dataset des tickets de carburant

**Ceci est une ancienne révision du document !**

Dataset des tickets de carburant

Projet de collecter des photos de tickets de carburants sur https://carbu.org/ puis qualification manuelle des données avec un outil dédié pour constituer un corpus d'apprentissage pour notre outil d'extraction automatique de données. La qualité des données initiales est donc essentielle et est un pré-requis sur lequel l'ensemble du dispositif s'appuiera.

Qualification des données

Utilisation de l'outil:

  • choisir la sélection rectangulaire avec deux points de modifications (mauve, autocomplete)
  • main gauche sur le clavier, main droite sur la souris
    • j'appuie “en aveugle” sur la touche 1 du clavier → ça sélectionne la zone
    • je patiente et l'OCR indique ce qu'il a trouvé
  • saisie le texte à l'identique de l'image en respectant majuscules et minuscules, ne pas ajouter d'espace
  • concernant les montants, utiliser uniquement le point même lorsqu'il y a une virgule
Au lancement
Après avoir appuyé sur la touche 1 du clavier, “Date” est sélectionné
Dessin de la zone autour de la date

Analyse des données pour constituer un corpus d'apprentissage, il faut extraire:

  • Date : la date jour mois année, pas plus, peut être dans différents formats selon les stations jj/mm/YYYY jj/mm/yy ou jj-mm-yy … peu importe le format il faut pouvoir extraire la donnée
  • Montant TTC: uniquement le montant, par exemple 78.15 sans le signe € ou EUR ou rien d'autre, uniquement le montant
  • Le carburant: les mots clés à rechercher sont du genre
    • Gazole
    • Gasoil
    • GO
    • SP95
    • SP98
    • SP98E10
    • SANS PLOMB
    • …/…

Exemple de documents à ne pas analyser : SKIP

Ecriture manuscrite
Plusieurs tickets sur la même photo
Date trop peu lisible
projet_docwizon/dataset/dataset_tickets_de_carburant.1703071956.txt.gz · Dernière modification : 2023/12/20 12:32 de supadmin
CC Attribution-Share Alike 4.0 International Sauf mention contraire, le contenu de ce wiki est placé sous les termes de la licence suivante : CC Attribution-Share Alike 4.0 International