Table des matières

Il n'est pas possible de créer des masques d'extractions de données sur les serveurs mutualisés pour une raison simple: en cas d'erreur sur un masque vous impacterez tous les utilisateurs … de ce fait la création de masques n'est possible que sur des instances auto hébergées.

Cette documentation a pour but de vous permettre de créer des masques d'analyse personnalisés pour l'OCR directement sur votre serveur auto-hébergé.

Le webservice propose deux entrées qu'il faut utiliser dans notre cas de figure:

Lorsqu'on se place sur la zone des Ocr vous pourrez voir la liste des documents analysés. Ceux qui sont en échec sont marqués d'une puce orange. Vous pouvez cliquer sur les trois liens proposés dans la liste des commandes: * regex editor : ouvre une popup vous permettant d'écrire des expressions régulières et de constater le résultat “en temps réel” * replay : permet de “relancer” l'analyse de votre document pour voir si un masque d'analyse est maintenant opérationnel * pdf : pour télécharger le fichier PDF en question

L'éditeur d'expressions régulières

Cette fenêtre est accessible depuis la liste des documents OCR puis clic sur le lien “regex editor”

Elle vous permet d'écrire une expression régulière dans la zone (1) et de “voir” dans la zone du bas le texte que ça extrait potentiellement.

Un exemple plus précis est visible sur cette capture d'écran: 1. l'expression régulière suivante est saisie : FACTURE\s+CAISSE\s+N.\s+([A-Z0-9-]*) 2. la zone du texte du document qui “matche” est mise en évidence 3. si l'option détails est active vous pourrez voir la zone en bas de l'écran 4. le résultat de l'extraction du texte de votre regex

Lorsque votre regex extrait UNIQUEMENT le champ que vous voulez (par exemple le numéro de facture) vous pourrez le reporter dans la fiche de création du masque d'analyse

Créer un nouveau masque d'analyse

Placez-vous sur la zone “Templates”, vous pouvez regarder les templates proposées par les autres participants … et vous pouvez cliquer sur le bouton “Nouveau” pour créer un nouveau masque d'analyse.

Description de l'interface de création de masques d'analyse (en cours de dev, cette capture d'écran risque de ne pas être “à jour” rapidement mais le principe reste le même).

Tester / Valider un masque d'analyse

Quand votre masque d'analyse est terminé, pensez à le sauvegarder puis testez le via la commande “replay” de la liste des documents OCR.

Si la popup vous affiche toutes les données voulues c'est que votre masque d'analyse est bon, exemple:

Écrire des regex

Ceci n'est qu'un petit pense bête concernant l'art d'écrire des expressions régulières :-)

Les {} permettent de définir des répétitions:

Liste des mots clés réservés

Selon les profils disponibles sur votre serveur la syntaxe est différente:

DocRaw reconnaît la grammaire suivante:

ScanInvoices reconnaît la grammaire suivante:

ScanBank reconnaît la grammaire suivante: