Différences

Ci-dessous, les différences entre deux révisions de la page.

Lien vers cette vue comparative

Les deux révisions précédentesRévision précédente
Prochaine révision
Révision précédente
projet_docwizon:dataset:dataset_tickets_de_carburant [2023/12/17 17:49] supadminprojet_docwizon:dataset:dataset_tickets_de_carburant [2023/12/20 13:20] (Version actuelle) supadmin
Ligne 5: Ligne 5:
 ## Qualification des données ## Qualification des données
  
-[{{ :projet_docwizon:dataset:pasted:20231216-122828.png?50|}}]+[{{ :projet_docwizon:dataset:pasted:20231220-000449.png?50|}}]
  
 Utilisation de l'outil:  Utilisation de l'outil: 
-  * choisir la sélection rectangulaire avec deux points de modifications +  * choisir la sélection rectangulaire avec deux points de modifications (mauve, autocomplete) 
-  * saisie le texte à l'identique de l'image en respectant majuscules et minuscules+  * main gauche sur le clavier, main droite sur la souris 
 +    * j'appuie "en aveugle" sur la touche 1 du clavier -> ça sélectionne la zone "Date" -> je dessine la zone autour de la date sur l'image 
 +    * je patiente et l'OCR indique ce qu'il a trouvé 
 +    * j'appuie sur la touche 2 et je fais la même chose pour le montant TTC total 
 +    * j'appuie sur la touche 3 et je fais la même chose pour le carburant 
 +    * ensuite je vérifie que l'OCR a bien trouvé les valeurs correspondantes, je corrige si nécessaire et je verrouille avec le cadenas 
 +    * une fois que tout est ok je clique sur le bouton submit 
 +  * saisie le texte à l'identique de l'image en respectant majuscules et minuscules, ne pas ajouter d'espace
   * concernant les montants, utiliser uniquement le point même lorsqu'il y a une virgule   * concernant les montants, utiliser uniquement le point même lorsqu'il y a une virgule
  
 +[{{:projet_docwizon:dataset:pasted:20231220-123051.png?direct=200|Au lancement}}]
  
 +[{{:projet_docwizon:dataset:pasted:20231220-123111.png?direct=200|Après avoir appuyé sur la touche 1 du clavier, "Date" est sélectionné}}]
 +
 +[{{:projet_docwizon:dataset:pasted:20231220-123203.png?direct=200|Dessin de la zone autour de la date}}]
 +
 +[{{:projet_docwizon:dataset:pasted:20231220-123256.png?direct=200|L'OCR indique ce qu'il a réussi à trouver}}]
 +
 +[{{:projet_docwizon:dataset:pasted:20231220-123504.png?direct=200|Vérification, correction éventuelle et verrouillage}}]
  
 Analyse des données pour constituer un corpus d'apprentissage, il faut extraire: Analyse des données pour constituer un corpus d'apprentissage, il faut extraire:
Ligne 28: Ligne 43:
  
  
 +## Exemple de documents à ne pas analyser : SKIP
 +
 +[{{:projet_docwizon:dataset:pasted:20231220-000616.png?direct=200|Ecriture manuscrite}}]
 +
 +[{{:projet_docwizon:dataset:pasted:20231220-000951.png?direct=200|Plusieurs tickets sur la même photo}}]
 +
 +[{{:projet_docwizon:dataset:pasted:20231220-002119.png?direct=200|Date (ou tout autre champ) trop peu lisible}}]