00000001.jpg

CHERCHER

Accueil Actualités Dépêches Coup de projecteur Manifestations Contact

Technologies de la Langue

Imprimer cet article

  CARMEL
mardi 26 octobre 2004


Corpus Aligné comme Ressource Multilingue pour l'Etude du Langage naturel

Fiche du 26 octobre 2004



Thème de l'action
Ressources linguistiques
 
Début du projet
1 septembre 2003
Durée du projet
24 mois
 
Résumé
Le projet CARMEL a pour objectif la constitution d'un corpus multilingue aligné couplé à un jeu d'outils d'exploration adapté.

Le corpus sera constitué d'une collection d'œuvres littéraires du XIXe siècle - récits de voyages - dans quatre langues européennes : français, anglais, espagnol et italien. Les textes, mis au format XML, seront enrichis par l'ajout d'annotations thématiques et sémantiques pour en faciliter l'exploitation et créer une ressource de référence pouvant servir lors de diverses campagnes d'évaluation.

Les outils accompagnant le corpus permettront l'alignement de nouveaux textes ainsi que la visualisation de bi-textes et de leurs annotations.

Le couplage des trois axes privilégiés - appariement multilingue, l'étiquetage sémantique et l'annotation thématique - devrait permettre un alignement multilingue plus fin, une désambiguïsation sémantique plus précise et une classification thématique plus robuste.

Objectifs
  • Constitution d'un corpus multilingue aligné au niveau des phrases, apparié au niveau lexical ;
  • Annotation de ce corpus pour qu'il puisse être utilisé lors de diverses campagnes d'évaluation ;
  • Utilisation des appariements interlingues pour une désambiguïsation sémantique fine ;
  • Utilisation des étiquettes sémantiques pour une annotation thématique robuste ;
  • Utilisation de l'annotation thématique améliorer la désambiguïsation sémantique ;
  • Développement d'outils standards pour l'alignement ;
  • Développement d'une interface standard pour la visualisation et l'annotation des bi-textes.
Mise en œuvre et état de l'art
S'il existe des bases textuelles de grande envergure dans le domaine littéraire (telles que FRANTEXT de l'INALF), les corpus bilingues alignés, ou bi-textes, sont assez rares, et a fortiori les multi-textes, impliquant plus de deux langues. Les corpus qui font référence dans le domaine n'en contiennent pas (tel le corpus JOC) ou très peu (15% du corpus BAF).

Le développement d'un corpus littéraire de grande taille, cohérent quant à sa définition, viendra combler cette lacune. Notons que le format d'annotation (XML) du corpus prendra en compte les différentes normes et recommandations applicables : Corpus Encoding Standard (CESAlign), Text Encoding Initiative, et standard Translation Memory Interchange (TMX).

Aligner des textes parallèles consiste à déterminer, avec une granularité plus ou moins fine (paragraphe, phrase, mot), les zones équivalentes entre un texte et sa traduction. Les premières méthodes dédiées à l'alignement automatique sont apparues au début des années 90 et sont arrivées à maturité après une dizaine d'années de développement. Pour des corpus de traductions littérales les résultats des meilleurs systèmes avoisinent les 99% de précision et rappel au niveau phrastique. Pour d'autres corpus, la marge de progression est encore importante : il s'avère que les traductions de textes littéraires présentent plus de difficulté dans la mesure où l'interprétation du traducteur, nécessairement subjective, implique une certaine liberté formelle. Dans le projet, on aura recours au système d'Olivier Kraif (Kraif, 2001) utilisant une combinaison d'indices variés : longueurs de phrases, transfuges et cognats, distributions lexicales.

La tâche de désambiguïsation sémantique d'un mot employé en contexte est une tâche particulièrement difficile si elle doit être réalisée de façon automatique. Des campagnes d'évaluation des systèmes automatiques de désambiguïsation sémantique (Senseval ou Romanseval) ont été récemment mises en place. Les résultats obtenus par les meilleurs systèmes varient entre 60% et 80% d'étiquetages « corrects » selon les mots testés ; ce qui montre qu'il y a encore beaucoup de progrès à faire avant de pouvoir utiliser de tels composants dans les systèmes de Recherche Documentaire ou de Traduction Assistée par Ordinateur.

Les différents systèmes développés par le LIA (en coopération pour Senseval II avec Sinequa) sont fondés sur une approche reposant entre autres sur des arbres de classification sémantiques, et sur une classification des termes apparaissant dans le contexte à une position donnée. Cette approche met en jeu différents niveaux linguistiques et a permis au LIA d'obtenir, sur les données de Senseval I, des scores atteignant 85.7% de précision (et rappel) pour les noms et 72.8 % pour les verbes. La principale innovation que le LIA souhaite introduire dans son système consiste en la prise en compte de l'aspect multilingue du corpus.

L'identification thématique s'appuiera à son tour sur la désambiguïsation fine des unités pertinentes. Par rétroaction, on pourra améliorer les résultats des appariements multilingues, certains paramètres étant susceptibles de dépendre de la typologie des segments textuels (description, dialogue, narration) et des thèmes abordés. Cette interrelation étroite entre sémantique lexicale, thème (considéré comme récurrence sémantique ou isotopie) et traduction constitue une tentative tout à fait originale dans le domaine, et n'est autre que la mise en œuvre du principe énoncé par Greimas, selon lequel la traduction est l'amorce d'une explicitation du sens.

Organisation
Après une phase de préparation, le projet, qui a commencé en septembre 2003, se découpe en quatre phases :
  • Septembre 2003 à février 2004 : Amorçage
  • Février 2004 à octobre 2004 : Enrichissement du corpus, désambiguïsation, alignement, et classification.
  • Octobre 2004 à février 2005 : Évaluation et réglages
  • Février 2005 à Juin 2005 : Validation et diffusion.


La première phase permet d'éprouver les différents choix faits entre les partenaires à travers l'acquisition de premiers textes en anglais et de quelques traductions, l'alignement phrastique des traductions, la désambiguïsation sémantique de quelques unités, et la vérification manuelle d'une partie de ces annotations.

Le corpus sera ensuite enrichi de nombreux textes écrits dans les quatre langues, et de leur traduction. L'alignement phrastique et lexical sera calculé automatiquement, puis vérifier manuellement ; les techniques d'alignement seront progressivement affinées. De même, l'étiquetage sémantique sera calculé automatiquement et révisé humainement, et les techniques utilisées seront progressivement améliorées et prendront en compte contexte multilingue et étiquette thématique. Un découpage en segments thématiques des œuvres sera effectué pour concevoir des outils de classification multilingues.

La troisième phase permettra d'évaluer les résultats obtenus par les différents outils d'alignement, de désambiguïsation et de classification sur une partie du corpus réservée à cet effet. Divers réglages (ainsi qu'une correction des erreurs) pourront être faits à cette occasion.

Parallèlement, une adaptation des outils linguistique sera faite par la société Sinequa, la dernière phase sera consacrée à la validation de ces outils et du corpus en termes d'utilisation culturelle et pédagogique puis à sa diffusion.

Les différents livrables attendus sont le corpus CARMEL sous un format XML aligné à différents niveaux (phrases et certains mots), découpé thématiquement et annoté sémantiquement ; des outils standards d'alignement, ainsi qu'une interface de visualisation des bi-textes annotés; enfin un site développé autour du corpus servant de « vitrine » de démonstration et de diffusion.

Retombées du projet
La ressource linguistique que constitue le corpus CARMEL est destinée à encourager l'apprentissage et la connaissance de la culture européenne et à favoriser la production d'un appareil critique sur le patrimoine littéraire et artistique de l'Europe du XIXe siècle, période particulièrement féconde et représentative.

De plus les outils standard d'alignement et de visualisation bi textes annotés seront utiles pour un certain nombre d'application du TALN, comme l'aide à la traduction.

Le projet CARMEL permettra de mettre au point de nouvelles techniques d'alignement lexical et phrastique, de désambiguïsation sémantique et de classification thématique. Enfin, le corpus pourra servir de référence lors de campagnes d'évaluations.

Le projet CARMEL apportera à la société Sinequa un élargissement de sa clientèle vers d'autres clients potentiels, dans le domaine culturel et pédagogique. Le produit final servira aussi de vitrine de référence pour le moteur XML, Intuition.

Etat d'avancement
Comme résumé dans le tableau suivant, dix-neuf textes ont été numérisés et vérifiés par ACCE : onze textes de langue anglaise et huit de langue française ; quinze traductions de texte ont également été numérisées et vérifiées : dix traductions françaises, trois traductions anglaises et une traduction espagnole (d'un texte anglais) et trois traductions espagnoles (de textes français).

Neuf textes (ou traductions) en anglais ont été lemmatisés et annotés sémantiquement pour un jeu de cinq mots - begin (v), child (n), curious (a), live (v) et simple (a) -. La vérification manuelle d'une sélection de ces annotations est en cours.

De même six textes ou traductions en français et la traduction espagnole sont lemmatisés. Enfin, l'alignement phrastique de six des traductions françaises, et de la traduction espagnole a été réalisé.
Oeuvre Auteur Langue Numérisé Lemmatisé Annotation Alignement
A naturalist voyage Darwin EN EN, ES, FR EN, ES EN EN-ES
Pictures from Italy Dickens EN EN, FR,ES EN, FR EN  
Voyage en Bretagne Flaubert FR FR      
Voyage en Egypte Flaubert FR FR      
Voyage dans les Pyrénées Flaubert FR FR      
Voyage en corse Flaubert FR FR      
Voyage en Espagne Gauthier FR EN, FR,ES      
By the Ionian Sea Gissing EN EN, FR EN, FR EN EN-FR
In the Rocky Mountains and Far West Irving EN EN, FR EN, FR EN EN-FR
The cruise of the Snark London EN EN EN EN  
Egypte Loti FR EN EN EN  
Maroc Loti FR EN      
Travels in Alaska Muir EN EN, FR EN, FR EN EN-FR
The Oregon Trail Parkman EN EN, FR EN, FR EN EN-FR
Travels with a donkey Stevenson EN EN, FR EN, FR EN EN-FR
A little tour in France James EN EN, FR      
Travels in West Africa Kingsley EN EN, FR      
Galilée Loti FR FR, ES      
Voyage round the world Anson EN EN, FR      
En outre, un premier outil (iSemTag) d'annotation sémantique de texte (une seule langue) a été mis au point par la société Sinequa.

Partenaires du projet
  Laboratoire d'Informatique d'Avignon (LIA)
Laboratoire de LInguistique et DIdactique des Langues Etrangères et Maternelles (LIDILEM)
Association « Académie de Civilisation et de Cultures européennes » (ACCE)
Société Sinequa
 
Contact
  Marc El-Bèze
LIA
BP 1228, 84 911 Avignon cedex 9 France
tél : 04 90 84 35 09
fax : 04 90 84 31 01
mél : marc.elbeze@lia.univ-avignon.fr