Différences

Ci-dessous, les différences entre deux révisions de la page.

Lien vers cette vue comparative

Les deux révisions précédentesRévision précédente
Prochaine révision
Révision précédente
projet_docwizon:docraw [2023/01/31 17:06] supadminprojet_docwizon:docraw [2023/01/31 18:05] (Version actuelle) supadmin
Ligne 8: Ligne 8:
 ## Exemple ## Exemple
  
-Dans le cas d'un profil "brut" vous pouvez fournir ce que vous voulez, par exemple si vous voulez extraire des données du résultat du marathon de Paris 2003 (fichier https://www.athle.fr/pdf/resultat2003/MDP2003.pdf) ...+Dans le cas d'un profil "brut" vous pouvez fournir ce que vous voulez, par exemple si vous voulez extraire des données du résultat du marathon de Paris 2003 (fichier https://www.athle.fr/pdf/resultat2003/MDP2003.pdf) ... le document fait plus de 400 pages, pour notre exemple je vous propose de découper le PDF pour n'en garder que la première ! 
 + 
 +[{{:projet_docwizon:pasted:20230131-170534.png?direct=400|Exemple du fichier PDF dont on veut extraire les données}}] 
 + 
 +Création du fichier de masque d'extraction de données pour extraire les lignes du Classement Handisport: 
 + 
 +``` 
 +issuer: marathon-paris.eric 
 +fields: 
 +  title: MARATHON DE (\w+)\s 
 +lines: 
 +  lines_start: Classement Handisport 
 +  lines_end: Classement Scratch 
 +  lines_line_tsv_before: (\d+)\.\s+(\d{2}:\d{2}:\d{2})\s+(.+)\s(\(\w+\))?\s+(\w+)\s+(\w)\s 
 +  lines_line_tsv_after: ^\s+\n$ 
 +  lines_line_tsv_line1r: "(?<rang>\\d+)\\.\\s+(?<temps>\\d{2}:\\d{2}:\\d{2})\\s+(?<nom>.+)\\s(?<tag>\\w+)\\s+(?<sexe>\\w)\\s" 
 +  lines_line_tsv_line1f: rang,temps,nom,tag,sexe 
 +  extractor_engine: pdftotext 
 +keywords: 
 +- MARATHON 
 +options:   
 +  decimal_separator:
 +``` 
 + 
 +Lancement de l'extraction de données, résultat retourné par le serveur : 
 + 
 +``` 
 +
 +    "error": "", 
 +    "json":
 +        "success": null, 
 +        "message": null, 
 +        "ocrID": "S3mYl6KKnJvx4IvbvQYrvOnSn9GDeRrcyIncn9ZE", 
 +        "jpeg": null, 
 +        "jpegBase64": null, 
 +        "pdfBase64": null, 
 +        "meta":
 +            "template_name": "S3mYl6KKnJvx4IvbvQYrvOnSn9GDeRrcyIncn9ZE.yml", 
 +            "title": "PARIS", 
 +            "decimal_separator": "", 
 +            "lines":
 +                { 
 +                    "rang": "1", 
 +                    "temps": "01:28:05", 
 +                    "nom": "JEANNOT Jo\u00ebl              ", 
 +                    "tag": "SE", 
 +                    "sexe": "H" 
 +                }, 
 +                { 
 +                    "rang": "2", 
 +                    "temps": "01:37:37", 
 +                    "nom": "HIROMICHI Jun (Japan)     ", 
 +                    "tag": "SE", 
 +                    "sexe": "H" 
 +                }, 
 +.../... 
 +```
  
-{{:projet_docwizon:pasted:20230131-170534.png}}