Partenariat Calfa-BULAC, autour de l'OCR et des textes arméniens
Calfa est un projet de traitement automatique de la langue arménienne classique. Un partenariat conclu entre la BULAC et Calfa en 2019 a permis à l’association Calfa de se pencher sur des écritures arméniennes contemporaines.
Le projet et l'association Calfa
Calfa est un projet de traitement automatique de la langue arménienne classique. Ce projet développé en partenariat avec la BULAC est porté par une association à but non lucratif, Calfa, fondée par Chahan Vidal-Gorène, ancien étudiant de l’Inalco.
L'association s’attache à la conception et au développement d’outils et de ressources pour l’étude de l’arménien, développant par exemple des bases de données lexicales (des dictionnaires multilingues, étymologiques, de synonymes, consultables gratuitement sur le site calfa.fr), de lemmatiseur, d’analyseur de texte et de reconnaissance de caractères. Le projet d’un moteur de reconnaissance de caractères pour les manuscrits arméniens grâce à une intelligence artificielle (Deep Learning), dont les premiers résultats sont d’ores et déjà visibles sur vision.calfa.fr, a favorisé le rapprochement avec la BULAC, dépositaire de riches fonds dans le domaine arménien.
L’association Calfa a été lauréate du Prix Télécoms Innovations 2019.
Le partenariat Calfa-BULAC
Un partenariat conclu entre la BULAC et Calfa en 2019 a permis à l’association Calfa de se pencher sur des écritures arméniennes contemporaines.
La BULAC a mis à la disposition de l’association ses collections, en l’occurrence le fonds d’archives Dulaurier. Les documents sélectionnés par Calfa ont été numérisés par le service de numérisation à la demande de la BULAC, qui répond aux besoins de numérisation de tous les lecteurs.
Titulaire de la chaire d'arménien à l'École des langues orientales en 1862, Édouard Dulaurier se consacra à l'étude de l'Orient chrétien, et notamment à celle de l'arménien ; ses archives, constituées de correspondances, manuscrits et notices bibliographiques ont offert, du fait de la variété et de la difficulté des types d’écritures représentées, une occasion d’entraîner et de spécialiser le moteur d’OCR (reconnaissance optique de caractères) et d’améliorer une intelligence artificielle dédiée à la reconnaissance de l’écriture manuscrite arménienne moderne. L’objectif plus largement poursuivi est de promouvoir ces collections en facilitant l’accès non seulement à l’objet physique mais aussi à son contenu, par le biais d’une version éditable et annotée de ces documents.
Un billet publié sur le Carreau de la BULAC revient en détail sur la méthodologie adoptée.
Intelligence artificielle et khaṭṭ maghribī. Résultats d’un hackathon
Le jeudi 8 juin 2021, dans le cadre des Rendez-vous de la philologie numérique, Chahan Vidal-Gorène et Noëmie Lucas ont présenté les résultats du hackathon mené à la BULAC pour la reconnaissance de texte automatique de l’arabe manuscrit.
Les résultats du projet ont également été présentés lors du colloque Digital Armenian qui s’est tenu du 3 au 5 octobre 2019 à l’Inalco, en partenariat avec la BULAC, et dont la captation vidéo est disponible en ligne sur MédiHAL.