Le pôle ❮ Services pour la recherche en sciences humaines ❯ (datumo) de la DCSR maintient deux installations d’eScriptorium sur les serveurs de la DCSR : une installation de test, sur laquelle la persistance des données n'est pas garantie, et une installation de production.
DESCRIPTION DU SERVICE
eScriptorium est un outil de transcription automatique de documents au code ouvert que datumo déploie localement sur les serveurs de la DCSR. Développé par un consortium d’institutions et de projets1, eScriptorium repose sur :
-
la reconnaissance de caractères, qui englobe l’OCR (Optical Character Recognition) pour les documents imprimés et l’HTR (Handwritten Text Recognition) pour les documents manuscrits ;
-
l’intelligence artificielle, avec l’apprentissage profond (deep learning) et l’apprentissage supervisé en particulier : l’utilisateur·trice fournit des informations (ex.: segmentation de la page, transcription partielle) qui permettront d’entraîner l’outil à reconnaître les spécificités d’un corpus de documents de manière à en produire une transcription automatique.
eScriptorium utilise le moteur de reconnaissance de caractères Kraken, qui repose sur un réseau de neurones.
À noter que Kraken peut être utilisé installé et utilisé en ligne de commande, indépendamment d’eScriptorium. En fonction du besoin, la DCSR peut également fournir un accompagnement à l’utilisation de Kraken et accompagner les chercheur·euse·s pour réaliser des tâches d’entraînement sur l’infrastructure de calcul haute performance de la DCSR.
1École Pratique des Hautes Études (EPHE), Biblissima+, Resilience,PSL Scripta, Institut national de recherche en sciences et technologies du numérique (INRIA), Archives nationales de France, L’Institut de recherche et d’histoire des textes, Open Islamicate Texts Initiative (OpenITI), The Andrew W. Mellon Foundation.