Noëmie Lucas, « OCR / HTR et graphie arabe, Les manuscrits arabes à l’heure de la reconnaissance automatique des écritures », Cahier du GIS Moyen-Orient et mondes musulmans n°3, mai 2022.
Partenariat autour de la philologie numérique des textes arabes
D’octobre 2020 à août 2021, la BULAC a accueilli Noëmie Lucas, post-doctorante auprès du GIS MOMM, pour organiser et animer une série de hackathons et de colloques autour des enjeux de philologie numérique des textes en écriture arabe, et plus particulièrement de la reconnaissance optique des caractères dans les manuscrits maghrébins.
Noëmie Lucas, chercheuse en résidence à la BULAC
Noëmie Lucas, post-doctorante auprès du Groupement d’intérêt scientifique Moyen-Orient et mondes musulmans (GIS MOMM) dans le cadre du plan SHS 2020 (ministère de l'Enseignement supérieur, de la recherche et de l'innovation), était chargée de mettre en œuvre une des recommandations du Livre blanc Vers la science ouverte ? La transition numérique et la recherche sur le Moyen-Orient et les mondes musulmans en France.
Elle a travaillé ainsi autour de la « structuration, du développement et de l’internationalisation des capacités de recherche françaises en matière de philologie numérique des textes en écriture arabe ».
La BULAC, engagée dans des projets de collaboration avec le GIS MOMM dans le cadre d'initiatives prises pour développer les humanités numériques dans le domaine de la recherche aréale, lui a proposé un soutien logistique, documentaire et scientifique, et a accueilli les divers événements qu'elle a été amenée à organiser : hackathons, rendez-vous de la philologie numérique, dont elle s'est fait le relais sur son carnet de recherche, Philaranum.
Le Livre blanc « Vers la science ouverte ? »
Le Livre blanc publié par le GIS MOMM en septembre 2020 propose un bilan de la transition numérique dans le champ de la recherche aréale française sur le Maghreb, le Moyen-Orient et les mondes de l’Islam à l’heure de la science ouverte.
J’approfondis cette année mon intérêt pour les humanités numériques, en étudiant plus spécifiquement l’usage qui peut être fait des techniques informatiques dans l’analyse des textes anciens.
Une première saison de hackathons pour entraîner un moteur d'HTR sur des manuscrits maghrébins de la BULAC
Entre janvier et avril 2021 ont été organisées des séances de travail dans les salles de formation de la bibliothèque en coopération avec l'association Calfa, avec laquelle la BULAC avait déjà noué précédemment un partenariat. L’objectif de ces séances, animées conjointement par Noëmie Lucas et Chahan Vidal-Gorène, était d’entraîner un moteur de reconnaissance automatique de l’écriture en vue d’élaborer un modèle spécifique pour la graphie arabe dite maghrébine, qui pourra bénéficier à toute la communauté des chercheurs et des étudiants travaillant sur des manuscrits maghrébins dans le cadre de projet d’édition, de fouille de texte, etc. Les quatre hackathons se sont fondés sur trois manuscrits de la BULAC en écriture maghribî, le MS.ARA.1977, le MS.ARA.609 et le MS.ARA.417 pour développer le moteur OCR/HCR.
La mise au point d'une preuve de concept
Les résultats de cette résidence numérique ont abouti à une preuve de concept, validant la robustesse du moteur d'apprentissage Calfa pour le traitement des écritures manuscrites maghrébines. À l'issue des hackathons, le taux d'erreur dans la reconnaissance des caractères (ECR) atteint 4,8% pour les documents du corpus d'entraînement, tandis que la mise en page (texte principal, gloses marginales, organisation des lignes) est correctement interprétée. Ce bilan a été présenté à Lausanne en septembre 2021 dans le cadre de la conférence annuelle de l'ICDAR (International Conference on Document Analysis and Recognition). Le jeu de données produit est publié sous licence ouverte.
Il reste désormais à valider la polyvalence de ce modèle en l'entraînant sur des documents maghrébins plus diversifiés : c'est l'objet d'une seconde saison de hackathons, organisée de décembre 2021 à mai 2022 par Antoine Perrier (CNRS, IREMAM) avec la participation d'une vingtaine d'étudiants en master et doctorat issus de différents établissements. L'organisation de cette seconde saison est réalisée avec le soutien scientifique et financier du GIS Moyen-Orient et mondes musulmans, dans le cadre du plan SHS 2021 (MESRI).
Le jeu de données RASAM (Recognition and Analysis of Scripts in Arabic Maghrebi) propose les images et les extractions corrigées de texte au format XML ; il peut être utilisé pour entraîner un moteur OCR/HTR à la reconnaissance optique des écritures manuscrites arabes maghrébines.
L'élaboration d'un état des lieux des technologies de reconnaissance des écritures arabes
Le GIS Moyen-Orient et mondes musulmans a publié en avril 2022 le rapport élaboré par Noëmie Lucas à l'issue de sa résidence : « OCR / HTR et graphie arabe, Les manuscrits arabes à l’heure de la reconnaissance automatique des écritures ».
Le document rend compte de l'état de l'art sur la reconnaissance automatique des écritures arabes et le recours à des technologies d'intelligence artificielle. Il dresse le bilan de l'expérimentation menée par Noëmie Lucas sur la constitution de modèle d'entraînement de reconnaissance des graphies manuscrites maghrébines, à partir du corpus conservé à la BULAC.
Les rendez-vous de la philologie numérique
Dans le cadre de sa résidence à la BULAC, Noëmie Lucas, post-doctorante en philologie numérique des textes en alphabet arabe au sein du GIS MOMM, a proposé un cycle de rencontres autour des nouvelles philologies numériques de mai à juin 2021.
(Re)voir les rencontres consacrées à la philologie numérique
- Big data et sources chinoises. Nouvelles perspectives pour l’histoire de la Chine moderne. Entretien avec Christian Henriot
- Le numérique au service des textes éthiopiens. Encodage, transcription et publication. Entretien avec Anaïs Wion
- eScriptorium : de la transcription automatique à l’édition numérique. Le cas des manuscrits hébreux. Entretien avec Daniel Stökl Ben Ezra
- Lumière sur des projets numériques autour des inscriptions et manuscrits en tamoul : catalogage, encodage et édition. Entretien avec Emmanuel Francis
- Intelligence artificielle et khaṭṭ maghribī. Résultats d’un hackathon pour la reconnaissance de texte automatique de l’arabe manuscrit. Chahan Vidal-Gorène et Noëmie Lucas
- Étudier et analyser des textes chinois avec le numérique : possibles, enjeux et perspectives. Entretien avec Catherine Jami
Une nouvelle saison de hackathons en 2022 : la mise au point d'un modèle d’HTR plus robuste et polyvalent pour l’arabe maghrébin
Entre novembre 2021 et avril 2022, un nouveau hackathon a été organisé par le GIS Moyen-Orient Mondes Musulmans sous la responsabilité d'Antoine Perrier (CNRS, IREMAM) et Calfa (Chahan Vidal-Gorène). L'objectif était d'améliorer le précédent modèle de reconnaissance automatique des caractères de l’arabe maghrébin manuscrit (HTR), en l'outillant pour prendre en charge de façon efficace une plus grande variété d’écritures, de mises en pages et de vocabulaire.
En partenariat avec des enseignants-chercheurs, une équipe de 20 étudiants de master et de doctorants de l’Inalco, de Sorbonne Université, de la Sorbonne-Nouvelle, d’Aix-Marseille Université et de l’université de Strasbourg, ont transcrit 300 images et préparé leur mise en page sur Calfa vision.
Le corpus sélectionné comportait quinze manuscrits de genres délibérément variés : ouvrages d’histoire, livres de piété, recueil de jurisprudence, traités de droit ou de grammaire, commentaires littéraires, tous écrits en arabe maghrébin.
Le hackathon a abouti à la création d’un nouveau modèle d’HTR plus performant, avec un taux d’erreur inférieur à 3 %. Le bilan détaillé de cette deuxième saison fait l'objet d'une présentation dans le cadre de l'école de printemps consacrée aux humanités numériques pour l'étude des manuscrits maghrébins, organisée à la BULAC par le CNRS les 2 et 3 mai 2022.
Finalement, ce sont plus de 6 000 pages des manuscrits de la BULAC dont le texte a été extrait. Une refonte prochaine de la Bibliothèque numérique aréale, depuis un environnement Omeka Classic vers Omeka-S, doit s'accompagner de la mise en plage d'outils de visualisation permettant d'exploiter ces données textuelles pour la recherche plein texte et le déchiffrement des manuscrits traités.
Bibliographie chronologique des publications issues du projet
- Chahan Vidal-Gorène, Noëmie Lucas, Clément Salah, Aliénor Decours-Perez et Boris Dupin. “RASAM–a dataset for the recognition and analysis of scripts in Arabic Maghrebi”. International Conference on Document Analysis and Recognition. Cham: Springer International Publishing, septembre 2021, p. 265-281. <halshs-03430697>
- Noëmie Lucas. OCR/HTR et graphie arabe Les manuscrits arabes à l’heure de la reconnaissance automatique des écritures, 2022. <hal-03822459>
- Noëmie Lucas, Clément Salah et Chahan Vidal-Gorène. “New Results for the Text Recognition of Arabic Maghribi Manuscripts–Managing an Under-resourced Script”, 2022. arXiv preprint arXiv:2211.16147
- Chahan Vidal-Gorène. « Graphies Arabes et Transcription Automatique : Vers une Reconnaissance Textuelle Haute Précision ». Carnet hypothèses du consortium Huma-Num DISTAM (DIgital STudies Africa, Asia, Middle East). 8 novembre 2024. <https://doi.org/10.58079/12n7v>
- Chahan Vidal-Gorène, Clément Salah, Noëmie Lucas, Aliénor Decours-Perez, Antoine Perrier. "Enhancing Arabic Maghribi Handwritten Text Recognition with RASAM 2: A Comprehensive Dataset and Benchmarking". Computational Humanities Research (CHR). Aarhus, décembre 2024, p. 200-216. <hal-04722622>
- Antoine Perrier et Clément Salah, coord., « Les études sur les mondes musulmans et les humanités numériques. Islamic Studies and the Digital Humanities », Revue des mondes musulmans et de la Méditerranée, n° thématique, vol.156 (2/2024). <https://doi.org/10.4000/11zr5>
À la suite d’une montée de version de l’outil libre Omeka S sur lequel elle est basée, la BiNA évolue et propose désormais de nouvelles fonctionnalités.
Digital Studies Africa Asia Middle-East est un nouveau consortium organisé au sein de l'infrastructure de recherche Huma-Num, dédié au développement des humanités numériques dans le domaine des études aréales. Cette première école d'été est destinée à faire largement connaître les...
Cette journée de formation en ligne est consacrée aux ressources numériques pour les études en sciences humaines et sociales sur le Maghreb. Elle a pour objectif d’offrir aux chercheurs et aux étudiants un aperçu des initiatives existantes pour favoriser l’accès...