Publié : 09/09/2024, mis à jour: 25/11/2024 à 13:06
http://bulac.fr/node/3198

TransliTAL

Le projet TransliTAL, lauréat du programme de coopération de l’Agence bibliographique de l’enseignement supérieur (Abes), vise à développer un outil d’aide à la correction des translittérations erronées dans les notices du SUDOC, le catalogue collectif de l'enseignement supérieur, mais également à compléter les notices plus anciennes où l'écriture originale est absente et à faciliter le travail de translittération courant. Le projet est mené en partenariat avec le laboratoire ERTIM (équipe de recherche textes, informatique, multilinguisme) de l’Inalco et court sur la période 2024-2025.

Xiao ling tong man you wei lai

叶永烈著, 小灵通漫游未来 | Yonglie Ye, Xiao ling tong man you wei lai. Shanghai, Shao nian er tong chu ban she, 1978. Collections de la BULAC, BIULO CHI.9674.

Le projet

L'outil s’appuiera sur les techniques de traitement automatisé de la langue (TAL). Plusieurs corpus linguistiques ont été sélectionnés pour établir le pilote : 

  • les écritures cyrilliques : russe, ukrainien, biélorusse, serbe, bulgare, langues d’Asie centrale, de Mongolie ;
  • les écritures arabo-persanes : arabe, persan, ourdou, turc ;
  • les écritures à sinogrammes : chinois, japonais, coréen (CJK), viêtnamien chữ nôm…

L’objectif, à terme, est d’harmoniser la qualité des notices en bi-écriture, en s’appuyant sur les normes en vigueur, mais aussi de corriger les erreurs d’identification de langues. En effet, les différences ou erreurs de translittération qui peuvent se trouver dans les notices obèrent la qualité des données catalographiques et, par là même, dégradent le service rendu aux utilisateurs.

Les premiers travaux sur les écritures cyrilliques

Les premiers travaux menés se concentrent sur les notices des documents en écriture cyrillique.

Sur l’ensemble de ces notices, il s’agit de vérifier, à l’aide d’un détecteur de langues, l’identification des langues renseignées, via le code saisi dans le catalogue. Si une erreur est repérée, il est nécessaire d’identifier la langue véritable du document pour pouvoir procéder ultérieurement à une modification. Un point de vigilance demeure néanmoins avec les outils modernes peu entraînés à la gestion des orthographes anciennes (celle du russe avant 1918 par exemple), qui peuvent générer de fausses erreurs.

En parallèle, une table de correspondance a été établie entre les caractères cyrilliques et leur transcription en alphabet latin. Cette table se base sur la norme ISO 9:1995 de translittération du cyrillique qu’utilise l'Agence bibliographique de l'enseignement supérieur. L’algorithme détecte ensuite les notices des documents pour lesquels la translittération est erronée, absente ou bien encore notée sans la mention originelle en cyrillique. Un corpus de notices à corriger ou compléter est ainsi constitué. Les experts de la bibliothèque sont sollicités pour valider les cas signalés par l’outil informatique. Ce dernier doit permettre, à terme, de proposer une forme corrigée de la translittération voire d’ajouter cette translittération quand elle est absente.

Les travaux se poursuivront ensuite avec l’analyse des notices des documents en écriture arabo-persane.

Touches d'un clavier de translittération, détail d'une projection d'un support de formation sur le projet TransliTAL

Jeudi de la formation consacré à la gestion des écritures dans les catalogues informatisés de la BULAC (Maxime Ruscio / BULAC).

Type de fichier
pdf
Publié
28 mai 2024

Lauréat du programme de coopération de l'Abes, le projet TransliTAL sera lancé à l’été 2024. L’objectif de la BULAC et de son partenaire le laboratoire ERTIM de l’Inalco est de fournir aux membres du réseau un outil d’aide à la

La gestion des écritures dans les catalogues informatisés de la BULAC
7 novembre 2024 – 10:00 > 12:00

Emmett Strickland, chargé de projet TransliTAL, et Asyeh Ghafourian, responsable de la coordination du catalogage, présenteront le cadre conceptuel de la translittération / transcription des écritures sources, les enjeux techniques d'encodage des caractères et les perspectives d'automatisation du processus de translittération...

Visuel Nasr Eddin Hodja dans les collections de la BULAC

La BULAC conserve de riches collections qui reflètent la production éditoriale de l'Afrique, de l'Asie, du Moyen-Orient, de l'Europe balkanique centrale et orientale ainsi que des langues et civilisations d'Amérique et du Pacifique. Elle propose également une bibliothèque de référence pour l'étude...

Eve's Soviet-era keyboard

La description des documents en langues à écriture non latine dans le catalogue de la BULAC se fait sous deux formes : en caractères originaux, et en translittération ou transcription des écritures non latines.

Séance de hackathon avec l'association Calfa

La BULAC appuie activement la recherche dans le domaine des études aréales à travers des partenariats avec les projets et les équipes de recherche de ses établissements partenaires et, au-delà, de l'ensemble du champ des études aréales.