Transcription automatique de documents (OCR/HTR)

Le pôle ❮ Services pour la recherche en sciences humaines ❯ (datumo) de la DCSR maintient deux installations d’eScriptorium sur les serveurs de la DCSR : une installation de test, sur laquelle la persistance des données n'est pas garantie, et une installation de production.

EN BREF

Demande d'accès au service en production

Demande d'accès à l'installation de test

public cible

Chercheur·euse·s

conditions d'utilisation

L’accès au service est gratuit.
Le service est accessible aux chercheur·euse·s de l'UNIL sur simple demande via des formulaires de contact dédiés (installation de test, installation de production).
Le délai de réponse pour une demande de création de compte est au maximum de 5 jours ouvrables (hors périodes de vacances).
L'accès à cet outil est limité au réseau interne de l'UNIL (WIFI eduroam et identifiant UNIL). Une connexion VPN est nécessaire pour une utilisation en dehors du campus. Les externes (sans identifiant UNIL) n’ont donc pas accès au service.
Ce service n’est pas compatible avec le traitement des données sensibles (loi sur la protection des données personnelles (LPrD), Art. 4. al. 1) ou soumises à la loi fédérale relative à la recherche sur l’être humain (LRH).
Les chercheur·euse·s sont responsables de la conformité juridique du traitement de leurs données.

niveau de support

Datumo assure, dans la limite des moyens disponibles, un accès au service 24h/24 et 7 jours/7, sauf interruptions de service annoncées ou accidentelles.
Sauf séances d’informations ou ateliers de formation annoncés, le support offert par datumo se limite aux aspects techniques liés à l’administration et à la maintenance de l’outil.

DESCRIPTION DU SERVICE

eScriptorium est un outil de transcription automatique de documents au code ouvert que datumo déploie localement sur les serveurs de la DCSR. Développé par un consortium d’institutions et de projets¹, eScriptorium repose sur :

la reconnaissance de caractères, qui englobe l’OCR (Optical Character Recognition) pour les documents imprimés et l’HTR (Handwritten Text Recognition) pour les documents manuscrits ;
l’intelligence artificielle, avec l’apprentissage profond (deep learning) et l’apprentissage supervisé en particulier : l’utilisateur·trice fournit des informations (ex.: segmentation de la page, transcription partielle) qui permettront d’entraîner l’outil à reconnaître les spécificités d’un corpus de documents de manière à en produire une transcription automatique.

eScriptorium utilise le moteur de reconnaissance de caractères Kraken, qui repose sur un réseau de neurones.

À noter que Kraken peut être utilisé installé et utilisé en ligne de commande, indépendamment d’eScriptorium. En fonction du besoin, la DCSR peut également fournir un accompagnement à l’utilisation de Kraken et accompagner les chercheur·euse·s pour réaliser des tâches d’entraînement sur l’infrastructure de calcul haute performance de la DCSR.

¹École Pratique des Hautes Études (EPHE), Biblissima+, Resilience,PSL Scripta, Institut national de recherche en sciences et technologies du numérique (INRIA), Archives nationales de France, L’Institut de recherche et d’histoire des textes, Open Islamicate Texts Initiative (OpenITI), The Andrew W. Mellon Foundation.