Différences

Ci-dessous, les différences entre deux révisions de la page.

Lien vers cette vue comparative

Prochaine révision
Révision précédente
projet_docwizon:dataset:dataset_tickets_de_carburant [2023/12/16 11:38] – créée supadminprojet_docwizon:dataset:dataset_tickets_de_carburant [2023/12/20 13:20] (Version actuelle) supadmin
Ligne 1: Ligne 1:
 # Dataset des tickets de carburant # Dataset des tickets de carburant
  
-Projet de collecter des photos de tickets de carburants sur https://carbu.org/+Projet de collecter des photos de tickets de carburants sur https://carbu.org/ puis qualification manuelle des données avec un outil dédié pour constituer un corpus d'apprentissage pour notre outil d'extraction automatique de données. La qualité des données initiales est donc essentielle et est un pré-requis sur lequel l'ensemble du dispositif s'appuiera. 
 + 
 +## Qualification des données 
 + 
 +[{{ :projet_docwizon:dataset:pasted:20231220-000449.png?50|}}] 
 + 
 +Utilisation de l'outil:  
 +  * choisir la sélection rectangulaire avec deux points de modifications (mauve, autocomplete) 
 +  * main gauche sur le clavier, main droite sur la souris 
 +    * j'appuie "en aveugle" sur la touche 1 du clavier -> ça sélectionne la zone "Date" -> je dessine la zone autour de la date sur l'image 
 +    * je patiente et l'OCR indique ce qu'il a trouvé 
 +    * j'appuie sur la touche 2 et je fais la même chose pour le montant TTC total 
 +    * j'appuie sur la touche 3 et je fais la même chose pour le carburant 
 +    * ensuite je vérifie que l'OCR a bien trouvé les valeurs correspondantes, je corrige si nécessaire et je verrouille avec le cadenas 
 +    * une fois que tout est ok je clique sur le bouton submit 
 +  * saisie le texte à l'identique de l'image en respectant majuscules et minuscules, ne pas ajouter d'espace 
 +  * concernant les montants, utiliser uniquement le point même lorsqu'il y a une virgule 
 + 
 +[{{:projet_docwizon:dataset:pasted:20231220-123051.png?direct=200|Au lancement}}] 
 + 
 +[{{:projet_docwizon:dataset:pasted:20231220-123111.png?direct=200|Après avoir appuyé sur la touche 1 du clavier, "Date" est sélectionné}}] 
 + 
 +[{{:projet_docwizon:dataset:pasted:20231220-123203.png?direct=200|Dessin de la zone autour de la date}}] 
 + 
 +[{{:projet_docwizon:dataset:pasted:20231220-123256.png?direct=200|L'OCR indique ce qu'il a réussi à trouver}}] 
 + 
 +[{{:projet_docwizon:dataset:pasted:20231220-123504.png?direct=200|Vérification, correction éventuelle et verrouillage}}]
  
 Analyse des données pour constituer un corpus d'apprentissage, il faut extraire: Analyse des données pour constituer un corpus d'apprentissage, il faut extraire:
   * Date : la date jour mois année, pas plus, peut être dans différents formats selon les stations jj/mm/YYYY jj/mm/yy ou jj-mm-yy ... peu importe le format il faut pouvoir extraire la donnée   * Date : la date jour mois année, pas plus, peut être dans différents formats selon les stations jj/mm/YYYY jj/mm/yy ou jj-mm-yy ... peu importe le format il faut pouvoir extraire la donnée
   * Montant TTC: uniquement le montant, par exemple 78.15 sans le signe € ou EUR ou rien d'autre, uniquement le montant   * Montant TTC: uniquement le montant, par exemple 78.15 sans le signe € ou EUR ou rien d'autre, uniquement le montant
-  * Le carburant: les mots clés à rechercher sont du genre GazoleGasoilSP95SP98SP98E10 ...+  * Le carburant: les mots clés à rechercher sont du genre 
 +    * Gazole 
 +    * Gasoil 
 +    * GO 
 +    * SP95 
 +    * SP98 
 +    * SP98E10 
 +    * SANS PLOMB 
 +    * .../... 
 + 
 + 
 +## Exemple de documents à ne pas analyser : SKIP 
 + 
 +[{{:projet_docwizon:dataset:pasted:20231220-000616.png?direct=200|Ecriture manuscrite}}] 
 + 
 +[{{:projet_docwizon:dataset:pasted:20231220-000951.png?direct=200|Plusieurs tickets sur la même photo}}] 
 + 
 +[{{:projet_docwizon:dataset:pasted:20231220-002119.png?direct=200|Date (ou tout autre champ) trop peu lisible}}]