Publié : 24/10/2021, mis à jour: 20/01/2025 à 09:03
http://bulac.fr/node/2344

Partenariat autour de la philologie numérique des textes arabes

D’octobre 2020 à août 2021, la BULAC a accueilli Noëmie Lucas, post-doctorante auprès du GIS MOMM, pour organiser et animer une série de hackathons et de colloques autour des enjeux de philologie numérique des textes en écriture arabe, et plus particulièrement de la reconnaissance optique des caractères dans les manuscrits maghrébins.

Portrait de Noëmie Lucas

Portrait de Noëmie Lucas (Maxime Ruscio / BULAC).

Noëmie Lucas, chercheuse en résidence à la BULAC

Photographie de Noëmie Lucas

Noëmie Lucas (Maxime Ruscio / BULAC)

Noëmie Lucas, post-doctorante auprès du Groupement d’intérêt scientifique Moyen-Orient et mondes musulmans (GIS MOMM) dans le cadre du plan SHS 2020 (ministère de l'Enseignement supérieur, de la recherche et de l'innovation), était chargée de mettre en œuvre une des recommandations du Livre blanc Vers la science ouverte ? La transition numérique et la recherche sur le Moyen-Orient et les mondes musulmans en France.

Elle a travaillé ainsi autour de la « structuration, du développement et de l’internationalisation des capacités de recherche françaises en matière de philologie numérique des textes en écriture arabe ».

La BULAC, engagée dans des projets de collaboration avec le GIS MOMM dans le cadre d'initiatives prises pour développer les humanités numériques dans le domaine de la recherche aréale, lui a proposé un soutien logistique, documentaire et scientifique, et a accueilli les divers événements qu'elle a été amenée à organiser : hackathons, rendez-vous de la philologie numérique, dont elle s'est fait le relais sur son carnet de recherche, Philaranum.

Le Livre blanc « Vers la science ouverte ? »

Le Livre blanc publié par le GIS MOMM en septembre 2020 propose un bilan de la transition numérique dans le champ de la recherche aréale française sur le Maghreb, le Moyen-Orient et les mondes de l’Islam à l’heure de la science ouverte.

J’approfondis cette année mon intérêt pour les humanités numériques, en étudiant plus spécifiquement l’usage qui peut être fait des techniques informatiques dans l’analyse des textes anciens.

Une première saison de hackathons pour entraîner un moteur d'HTR sur des manuscrits maghrébins de la BULAC

Séance de hackathon animée par Noëmie Lucas et Chahan Vidal-Gorène

Séance de hackathon animée par Noëmie Lucas et Chahan Vidal-Gorène (Maxime Ruscio / BULAC).

Entre janvier et avril 2021 ont été organisées des séances de travail dans les salles de formation de la bibliothèque en coopération avec l'association Calfa, avec laquelle la BULAC avait déjà noué précédemment un partenariat. L’objectif de ces séances, animées conjointement par Noëmie Lucas et Chahan Vidal-Gorène, était d’entraîner un moteur de reconnaissance automatique de l’écriture en vue d’élaborer un modèle spécifique pour la graphie arabe dite maghrébine, qui pourra bénéficier à toute la communauté des chercheurs et des étudiants travaillant sur des manuscrits maghrébins dans le cadre de projet d’édition, de fouille de texte, etc. Les quatre hackathons se sont fondés sur trois manuscrits de la BULAC en écriture maghribî, le MS.ARA.1977, le MS.ARA.609 et le MS.ARA.417 pour développer le moteur OCR/HCR.

 

La mise au point d'une preuve de concept

Graphique d'évoution du taux d'erreur par nombre de pages d'entraînement

Évolution du taux d'erreur de reconnaissance des caractères et du temps de relecture en fonction du nombre de pages apprises par le moteur d'HTR

Les résultats de cette résidence numérique ont abouti à une preuve de concept, validant la robustesse du moteur d'apprentissage Calfa pour le traitement des écritures manuscrites maghrébines. À l'issue des hackathons, le taux d'erreur dans la reconnaissance des caractères (ECR) atteint 4,8% pour les documents du corpus d'entraînement, tandis que la mise en page (texte principal, gloses marginales, organisation des lignes) est correctement interprétée. Ce bilan a été présenté à Lausanne en septembre 2021 dans le cadre de la conférence annuelle de l'ICDAR (International Conference on Document Analysis and Recognition). Le jeu de données produit est publié sous licence ouverte.

Il reste désormais à valider la polyvalence de ce modèle en l'entraînant sur des documents maghrébins plus diversifiés : c'est l'objet d'une seconde saison de hackathons, organisée de décembre 2021 à mai 2022 par Antoine Perrier (CNRS, IREMAM) avec la participation d'une vingtaine d'étudiants en master et doctorat issus de différents établissements. L'organisation de cette seconde saison est réalisée avec le soutien scientifique et financier du GIS Moyen-Orient et mondes musulmans, dans le cadre du plan SHS 2021 (MESRI).

Le jeu de données RASAM (Recognition and Analysis of Scripts in Arabic Maghrebi) propose les images et les extractions corrigées de texte au format XML ; il peut être utilisé pour entraîner un moteur OCR/HTR à la reconnaissance optique des écritures manuscrites arabes maghrébines.

L'élaboration d'un état des lieux des technologies de reconnaissance des écritures arabes

Le GIS Moyen-Orient et mondes musulmans a publié en avril 2022 le rapport élaboré par Noëmie Lucas à l'issue de sa résidence : « OCR / HTR et graphie arabe, Les manuscrits arabes à l’heure de la reconnaissance automatique des écritures ».

Le document rend compte de l'état de l'art sur la reconnaissance automatique des écritures arabes et le recours à des technologies d'intelligence artificielle. Il dresse le bilan de l'expérimentation menée par Noëmie Lucas sur la constitution de modèle d'entraînement de reconnaissance des graphies manuscrites maghrébines, à partir du corpus conservé à la BULAC.

Les rendez-vous de la philologie numérique

Rendez-vous de la philologie numérique, le 8 juin 2021

5e rendez-vous de la philologie numérique, Intelligence artificielle et khaṭṭ maghribī, le 8 juin 2021 (Maxime Ruscio / BULAC).

Dans le cadre de sa résidence à la BULAC, Noëmie Lucas, post-doctorante en philologie numérique des textes en alphabet arabe au sein du GIS MOMM, a proposé un cycle de rencontres autour des nouvelles philologies numériques de mai à juin 2021.

(Re)voir les rencontres consacrées à la philologie numérique

  • Big data et sources chinoises. Nouvelles perspectives pour l’histoire de la Chine moderne. Entretien avec Christian Henriot
  • Le numérique au service des textes éthiopiens. Encodage, transcription et publication. Entretien avec Anaïs Wion
  • eScriptorium : de la transcription automatique à l’édition numérique. Le cas des manuscrits hébreux. Entretien avec Daniel Stökl Ben Ezra
  • Lumière sur des projets numériques autour des inscriptions et manuscrits en tamoul : catalogage, encodage et édition. Entretien avec Emmanuel Francis
  • Intelligence artificielle et khaṭṭ maghribī. Résultats d’un hackathon pour la reconnaissance de texte automatique de l’arabe manuscrit. Chahan Vidal-Gorène et Noëmie Lucas
  • Étudier et analyser des textes chinois avec le numérique : possibles, enjeux et perspectives. Entretien avec Catherine Jami

Une nouvelle saison de hackathons en 2022 : la mise au point d'un modèle d’HTR plus robuste et polyvalent pour l’arabe maghrébin

Texte arabe maghrébins en colonnes avec encadrement, alternant le rouge et le noire, première et dernière colonnes chapeautées par un demi-cercle dessinant un dôme

Petite encyclopédie de rhétorique arabe. النفحة المسكية والتحفة المكية. Collections de la BULAC, MS.ARA.65. Document numérisé disponible sur bina.bulac.fr

Entre novembre 2021 et avril 2022, un nouveau hackathon a été organisé par le GIS Moyen-Orient Mondes Musulmans sous la responsabilité d'Antoine Perrier (CNRS, IREMAM) et Calfa (Chahan Vidal-Gorène). L'objectif était d'améliorer le précédent modèle de reconnaissance automatique des caractères de l’arabe maghrébin manuscrit (HTR), en l'outillant pour prendre en charge de façon efficace une plus grande variété d’écritures, de mises en pages et de vocabulaire.

En partenariat avec des enseignants-chercheurs, une équipe de 20 étudiants de master et de doctorants de l’Inalco, de Sorbonne Université, de la Sorbonne-Nouvelle, d’Aix-Marseille Université et de l’université de Strasbourg, ont transcrit 300 images et préparé leur mise en page sur Calfa vision.

Le corpus sélectionné comportait quinze manuscrits de genres délibérément variés : ouvrages d’histoire, livres de piété, recueil de jurisprudence, traités de droit ou de grammaire, commentaires littéraires, tous écrits en arabe maghrébin. 

Le hackathon a abouti à la création d’un nouveau modèle d’HTR plus performant, avec un taux d’erreur inférieur à 3 %. Le bilan détaillé de cette deuxième saison fait l'objet d'une présentation dans le cadre de l'école de printemps consacrée aux humanités numériques pour l'étude des manuscrits maghrébins, organisée à la BULAC par le CNRS les 2 et 3 mai 2022.

Finalement, ce sont plus de 6 000 pages des manuscrits de la BULAC dont le texte a été extrait. Une refonte prochaine de la Bibliothèque numérique aréale, depuis un environnement Omeka Classic vers Omeka-S, doit s'accompagner de la mise en plage d'outils de visualisation permettant d'exploiter ces données textuelles pour la recherche plein texte et le déchiffrement des manuscrits traités.

Bibliographie chronologique des publications issues du projet

  • Chahan Vidal-Gorène, Noëmie Lucas, Clément Salah, Aliénor Decours-Perez et Boris Dupin. “RASAM–a dataset for the recognition and analysis of scripts in Arabic Maghrebi”. International Conference on Document Analysis and Recognition. Cham: Springer International Publishing, septembre 2021, p. 265-281. <halshs-03430697>

 

  • Noëmie Lucas. OCR/HTR et graphie arabe Les manuscrits arabes à l’heure de la reconnaissance automatique des écritures, 2022. <hal-03822459>

 

  • Noëmie Lucas, Clément Salah et Chahan Vidal-Gorène. “New Results for the Text Recognition of Arabic Maghribi Manuscripts–Managing an Under-resourced Script”, 2022. arXiv preprint arXiv:2211.16147

 

  • Chahan Vidal-Gorène. « Graphies Arabes et Transcription Automatique : Vers une Reconnaissance Textuelle Haute Précision  ». Carnet hypothèses du consortium Huma-Num DISTAM (DIgital STudies Africa, Asia, Middle East). 8 novembre 2024. <https://doi.org/10.58079/12n7v>

 

  • Chahan Vidal-Gorène, Clément Salah, Noëmie Lucas, Aliénor Decours-Perez, Antoine Perrier. "Enhancing Arabic Maghribi Handwritten Text Recognition with RASAM 2: A Comprehensive Dataset and Benchmarking". Computational Humanities Research (CHR). Aarhus, décembre 2024, p. 200-216. <hal-04722622>

 

  • Antoine Perrier et Clément Salah, coord., « Les études sur les mondes musulmans et les humanités numériques. Islamic Studies and the Digital Humanities », Revue des mondes musulmans et de la Méditerranée, n° thématique, vol.156 (2/2024). <https://doi.org/10.4000/11zr5>

     

Séance de hackathon avec l'association Calfa

La BULAC appuie activement la recherche dans le domaine des études aréales à travers des partenariats avec les projets et les équipes de recherche de ses établissements partenaires et, au-delà, de l'ensemble du champ des études aréales.

Portrait de Manel Belhadjali

De septembre 2021 à août 2022, la BULAC accueille dans ses murs une chercheuse en résidence, Manel Belhadj Ali, post-doctorante auprès du Groupement d’intérêt scientifique Moyen-Orient et mondes musulmans (GIS MOMM), auteur d'une thèse sur le rôle des traductions dans...

Portrait de Martina Massullo

Le patrimoine architectural en pays d’Islam dans le fonds iconographique Henry Viollet


De septembre 2021 à août 2022, la BULAC accueille en résidence Martina Massullo, chercheuse post-doctorante invitée (CeRMI – UMR 8041) dans le cadre du projet EpiPOM – Épigraphie du Proche-Orient médiéval...

La philologie numérique des textes arabes
27 mai 2021 – 10:00 > 12:00

D'octobre 2020 à août 2021, la BULAC accueille dans ses murs une chercheuse en résidence.

Le sultan [du Maroc] regagne son palais à cheval après la cérémonie à la mosquée.

Le projet TariMa (Tārīẖ al-Maghrib - Écrire l’histoire au Maghreb à l’époque moderne et contemporaine) repose sur la valorisation scientifique et le traitement numérique des collections de manuscrits et d’imprimés maghrébins présents dans les bibliothèques françaises, en particulier...

(Re)découvrez le domaine arabe

Le domaine arabe constitue un des fonds les plus anciens de la bibliothèque et les plus riches de France. Il couvre un espace géographique compris entre l’Afrique du Nord et le Moyen-Orient et comprend une vingtaine de pays. On estime...

La Bibliothèque numérique aréale (BiNA) évolue !

À la suite d’une montée de version de l’outil libre Omeka S sur lequel elle est basée, la BiNA évolue et propose désormais de nouvelles fonctionnalités.

La BULAC lauréate de l'appel à manifestation d'intérêt Biblissima+ 2023-2024

La BULAC, l'IRHT et l'Institut de France ont présenté un projet de numérisation enrichie, piloté par Augustin Jomier (maître de conférences en histoire du Maghreb  à l'Inalco). Au cours de l'année 2025, deux importants corpus de manuscrits maghrébins, conservés...

 L’HTR des langues peu dotées dans les programmes de recherche et dans les établissements de conservation français
14 février 2024 – 09:00 > 17:00

Deux projets d'expérimentation de la reconnaissance optique des écritures non latines menés en partenariat avec la BULAC seront présentés dans le cadre de cette journée d'étude organisée par la Bibliothèque nationale de France et le consortium Huma-Num DISTAM.

La BULAC accueille la première école d'été du consortium Huma-Num DISTAM
5 juillet 2022 > 8 juillet 2022

Digital Studies Africa Asia Middle-East est un nouveau consortium organisé au sein de l'infrastructure de recherche Huma-Num, dédié au développement des humanités numériques dans le domaine des études aréales. Cette première école d'été est destinée à faire largement connaître les...

Le sultan [du Maroc] regagne son palais à cheval après la cérémonie à la mosquée.

Le projet TariMa (Tārīẖ al-Maghrib - Écrire l’histoire au Maghreb à l’époque moderne et contemporaine) repose sur la valorisation scientifique et le traitement numérique des collections de manuscrits et d’imprimés maghrébins présents dans les bibliothèques françaises, en particulier...

Erya illustré

Le projet de constitution et de publication d’une collection de textes chinois médiévaux (IIIe-Xe siècles) CHI-KNOW-PO CORPUS s’inscrit à l’articulation de la recherche et de la valorisation patrimoniale.

Les études sur le Maghreb et le numérique

Cette journée de formation en ligne est consacrée aux ressources numériques pour les études en sciences humaines et sociales sur le Maghreb. Elle a pour objectif d’offrir aux chercheurs et aux étudiants un aperçu des initiatives existantes pour favoriser l’accès...

École de printemps : les manuscrits maghrébins et les humanités numériques
2 mai 2022 > 4 mai 2022

Deux journées de conférences et une journée d'ateliers organisées à la BULAC et au Campus Condorcet par le Groupement d'intérêt scientifique Moyen-Orient et mondes musulmans (GIS MOMM).

Humanités numériques et études aréales

À l'occasion de l'École de printemps sur les manuscrits maghrébins et les humanités numériques en France, découvrez les potentiels ouverts par les humanités numériques aux différentes disciplines des études aréales.