Table des matières

Dataset des tickets de carburant

Projet de collecter des photos de tickets de carburants sur https://carbu.org/ puis qualification manuelle des données avec un outil dédié pour constituer un corpus d'apprentissage pour notre outil d'extraction automatique de données. La qualité des données initiales est donc essentielle et est un pré-requis sur lequel l'ensemble du dispositif s'appuiera.

Qualification des données

Utilisation de l'outil:

Au lancement
Après avoir appuyé sur la touche 1 du clavier, “Date” est sélectionné
Dessin de la zone autour de la date
L'OCR indique ce qu'il a réussi à trouver
Vérification, correction éventuelle et verrouillage

Analyse des données pour constituer un corpus d'apprentissage, il faut extraire:

Exemple de documents à ne pas analyser : SKIP

Ecriture manuscrite
Plusieurs tickets sur la même photo
Date (ou tout autre champ) trop peu lisible