http://bulac.fr/node/3083

L’HTR des langues peu dotées dans les programmes de recherche et dans les établissements de conservation français

Organisateur(s) :DISTAM (Digital Studies Africa Asia Middle-East), BnF

Deux projets d'expérimentation de la reconnaissance optique des écritures non latines menés en partenariat avec la BULAC seront présentés dans le cadre de cette journée d'étude organisée par la Bibliothèque nationale de France et le consortium Huma-Num DISTAM.

 L’HTR des langues peu dotées dans les programmes de recherche et dans les établissements de conservation français

Pelliot chinois 3847 - - BnF, département des Manuscrits

Quand : 14 février 2024 – 09:00 > 17:00 Où : BnF Richelieu, salle des conférences, En ligne

La reconnaissance optique des écritures manuscrites (handwritten text recognition  - HTR), étape préalable à toute entreprise d’analyse ou de fouille de texte, pose des défis spécifiques pour les graphies non latines (arabe, arménienne, chinoise, hébraïque, etc.). Depuis quelques années, différents projets d’HTR ont ainsi été lancés ou menés à bien notamment dans le cadre du programme CollEx-Persée, de projets soutenus par l’Agence nationale de la recherche (ANR), des travaux du DataLab de la BnF ou de projets de coopération numérique que la BnF mène à l’international.

La plupart parviennent à des taux de reconnaissance supérieurs à 90 %, mais avec une marge de progression qui semble limitée en l’état actuel des technologies employées, et un défi qui est celui de la correction des textes extraits.

La journée d’étude se propose de faire un point sur ces avancées et ces défis avec les porteurs actuels de projets de reconnaissance automatique d’écriture en langues peu dotées en matière d’HTR. Il s’agira de s’interroger sur les capacités de progression des outils utilisés, sur ce que recouvrent exactement les taux de reconnaissance obtenus, sur les perspectives que cette mise à disposition massive d’extractions de textes manuscrits ouvre pour la recherche en termes de lecture distante et de traitement automatique de la langue ainsi que sur la normalisation des modèles et la publication des modèles et des données d’entraînement. On examinera enfin la place de l’HTR dans les programmes des établissements de conservation français, ainsi que l’intégration des extractions obtenues dans les bibliothèques numériques.

Séance de hackathon avec l'association Calfa

Séance de hackathon avec l'association Calfa (Maxime Ruscio / BULAC).

La BULAC présentera le travail réalisé autour de la graphie maghrébine (jeux de données RASAM et projet TariMa) et des textes chinois anciens (CHI-KNOW-PO Corpus). Les projets menés au sein du Datalab de la BnF, du Collège de France et de l'Équipex Biblissima+ seront également exposés.

Enregistrement de la rencontre

00:10 - Allocutions d'ouverture par Tiphaine Vacqué, adjointe à la directrice des services et des réseaux, déléguée aux systèmes d’information et au numérique (BnF) et Mercedes Volait, directrice de recherche (CNRS-INHA, InVisu).

12:27 - L'HTR des textes en chinois classique par Marie Bizais-Lilig (université de Strasbourg), Frédéric Constant (Université de Nice) et Colin Brisson (EPHE - Centre de recherche sur les civilisations de l’Asie orientale).

57:58 - L'HTR des textes en hébreu médiéval par Daniel Stoekl ben Ezra (EPHE et Equipex Biblissima +)

00:15 - L'HTR des textes en arabe maghrébin et oriental par Noëmie Lucas (Université d’Edimbourg), Antoine Perrier (CNRS-Iremam et Centre Jacques Berque), Eric Vallet (université de Strasbourg) et Clarck Junior Membourou Moimecheme (université de Strasbourg)

01:07:27 - Table ronde « Capacités de progression des outils utilisés, signification et implication des taux de reconnaissance obtenus » avec Peter Stokes (EPHE et Equipex Biblissima +), Chahan Vidal-Gorène (Calfa et École des Chartes) et Anais Wion (Institut des Mondes Africains, CNRS)

01:44:12 - Table ronde « Normalisation et publication des modèles, publication des données d’entrainement » par Alix Chagué (équipe ALMAnaCH, Inria, projet HTR United), Thibault Clérice (équipe ALMAnaCH, Inria, projet HTR United), Anne-Valérie Schweyer (CNRS-EHESS, Centre Asie du Sud -Est), Jean-Christophe Burie (Laboratoire L3i, université de La Rochelle) (ANR ChamDoc) et Daniel Stoekl ben Ezra (EPHE et Equipex Biblissima +)

La philologie numérique des textes arabes

D’octobre 2020 à août 2021, la BULAC a accueilli Noëmie Lucas, post-doctorante auprès du GIS MOMM, pour organiser et animer une série de hackathons et de colloques autour des enjeux de philologie numérique des textes en écriture arabe, et...

Le sultan [du Maroc] regagne son palais à cheval après la cérémonie à la mosquée.

Le projet TariMa (Tārīẖ al-Maghrib - Écrire l’histoire au Maghreb à l’époque moderne et contemporaine) repose sur la valorisation scientifique et le traitement numérique des collections de manuscrits et d’imprimés maghrébins présents dans les bibliothèques françaises, en particulier...

Erya illustré

Le projet de constitution et de publication d’une collection de textes chinois médiévaux (IIIe-Xe siècles) CHI-KNOW-PO CORPUS s’inscrit à l’articulation de la recherche et de la valorisation patrimoniale.