Lauréat du programme de coopération de l'Abes, le projet TransliTAL sera lancé à l’été 2024. L’objectif de la BULAC et de son partenaire le laboratoire ERTIM de l’Inalco est de fournir aux membres du réseau un outil d’aide à la
TransliTAL
Le projet TransliTAL, lauréat du programme de coopération de l’Agence bibliographique de l’enseignement supérieur (Abes), vise à développer un outil d’aide à la correction des translittérations erronées dans les notices du SUDOC, le catalogue collectif de l'enseignement supérieur, mais également à compléter les notices plus anciennes où l'écriture originale est absente et à faciliter le travail de translittération courant. Le projet est mené en partenariat avec le laboratoire ERTIM (équipe de recherche textes, informatique, multilinguisme) de l’Inalco et court sur la période 2024-2025.
Le projet
L'outil s’appuiera sur les techniques de traitement automatisé de la langue (TAL). Plusieurs corpus linguistiques ont été sélectionnés pour établir le pilote :
- les écritures cyrilliques : russe, ukrainien, biélorusse, serbe, bulgare, langues d’Asie centrale, de Mongolie ;
- les écritures arabo-persanes : arabe, persan, ourdou, turc ;
- les écritures à sinogrammes : chinois, japonais, coréen (CJK), viêtnamien chữ nôm…
L’objectif, à terme, est d’harmoniser la qualité des notices en bi-écriture, en s’appuyant sur les normes en vigueur, mais aussi de corriger les erreurs d’identification de langues. En effet, les différences ou erreurs de translittération qui peuvent se trouver dans les notices obèrent la qualité des données catalographiques et, par là même, dégradent le service rendu aux utilisateurs.
Les premiers travaux sur les écritures cyrilliques
Les premiers travaux menés se concentrent sur les notices des documents en écriture cyrillique.
Sur l’ensemble de ces notices, il s’agit de vérifier, à l’aide d’un détecteur de langues, l’identification des langues renseignées, via le code saisi dans le catalogue. Si une erreur est repérée, il est nécessaire d’identifier la langue véritable du document pour pouvoir procéder ultérieurement à une modification. Un point de vigilance demeure néanmoins avec les outils modernes peu entraînés à la gestion des orthographes anciennes (celle du russe avant 1918 par exemple), qui peuvent générer de fausses erreurs.
En parallèle, une table de correspondance a été établie entre les caractères cyrilliques et leur transcription en alphabet latin. Cette table se base sur la norme ISO 9:1995 de translittération du cyrillique qu’utilise l'Agence bibliographique de l'enseignement supérieur. L’algorithme détecte ensuite les notices des documents pour lesquels la translittération est erronée, absente ou bien encore notée sans la mention originelle en cyrillique. Un corpus de notices à corriger ou compléter est ainsi constitué. Les experts de la bibliothèque sont sollicités pour valider les cas signalés par l’outil informatique. Ce dernier doit permettre, à terme, de proposer une forme corrigée de la translittération voire d’ajouter cette translittération quand elle est absente.
Les travaux se poursuivront ensuite avec l’analyse des notices des documents en écriture arabo-persane.
Emmett Strickland, chargé de projet TransliTAL, et Asyeh Ghafourian, responsable de la coordination du catalogage, présenteront le cadre conceptuel de la translittération / transcription des écritures sources, les enjeux techniques d'encodage des caractères et les perspectives d'automatisation du processus de translittération...
La BULAC conserve de riches collections qui reflètent la production éditoriale de l'Afrique, de l'Asie, du Moyen-Orient, de l'Europe balkanique centrale et orientale ainsi que des langues et civilisations d'Amérique et du Pacifique. Elle propose également une bibliothèque de référence pour l'étude...