Les deux révisions précédentesRévision précédenteProchaine révision | Révision précédente |
projet_docwizon:dataset:dataset_tickets_de_carburant [2023/12/20 00:03] – supadmin | projet_docwizon:dataset:dataset_tickets_de_carburant [2023/12/20 13:20] (Version actuelle) – supadmin |
---|
## Qualification des données | ## Qualification des données |
| |
[{{ :projet_docwizon:dataset:pasted:20231216-122828.png?50|}}] | [{{ :projet_docwizon:dataset:pasted:20231220-000449.png?50|}}] |
| |
Utilisation de l'outil: | Utilisation de l'outil: |
* choisir la sélection rectangulaire avec deux points de modifications | * choisir la sélection rectangulaire avec deux points de modifications (mauve, autocomplete) |
| * main gauche sur le clavier, main droite sur la souris |
| * j'appuie "en aveugle" sur la touche 1 du clavier -> ça sélectionne la zone "Date" -> je dessine la zone autour de la date sur l'image |
| * je patiente et l'OCR indique ce qu'il a trouvé |
| * j'appuie sur la touche 2 et je fais la même chose pour le montant TTC total |
| * j'appuie sur la touche 3 et je fais la même chose pour le carburant |
| * ensuite je vérifie que l'OCR a bien trouvé les valeurs correspondantes, je corrige si nécessaire et je verrouille avec le cadenas |
| * une fois que tout est ok je clique sur le bouton submit |
* saisie le texte à l'identique de l'image en respectant majuscules et minuscules, ne pas ajouter d'espace | * saisie le texte à l'identique de l'image en respectant majuscules et minuscules, ne pas ajouter d'espace |
* concernant les montants, utiliser uniquement le point même lorsqu'il y a une virgule | * concernant les montants, utiliser uniquement le point même lorsqu'il y a une virgule |
| |
| [{{:projet_docwizon:dataset:pasted:20231220-123051.png?direct=200|Au lancement}}] |
| |
| [{{:projet_docwizon:dataset:pasted:20231220-123111.png?direct=200|Après avoir appuyé sur la touche 1 du clavier, "Date" est sélectionné}}] |
| |
| [{{:projet_docwizon:dataset:pasted:20231220-123203.png?direct=200|Dessin de la zone autour de la date}}] |
| |
| [{{:projet_docwizon:dataset:pasted:20231220-123256.png?direct=200|L'OCR indique ce qu'il a réussi à trouver}}] |
| |
| [{{:projet_docwizon:dataset:pasted:20231220-123504.png?direct=200|Vérification, correction éventuelle et verrouillage}}] |
| |
Analyse des données pour constituer un corpus d'apprentissage, il faut extraire: | Analyse des données pour constituer un corpus d'apprentissage, il faut extraire: |
| |
| |
| ## Exemple de documents à ne pas analyser : SKIP |
| |
| [{{:projet_docwizon:dataset:pasted:20231220-000616.png?direct=200|Ecriture manuscrite}}] |
| |
| [{{:projet_docwizon:dataset:pasted:20231220-000951.png?direct=200|Plusieurs tickets sur la même photo}}] |
| |
| [{{:projet_docwizon:dataset:pasted:20231220-002119.png?direct=200|Date (ou tout autre champ) trop peu lisible}}] |