Portail des technologies de la langue

00000001.jpg

CHERCHER

Accueil

Contact

Technologies de la Langue

Introduction au domaine

Enjeux & Limites

Chiffres cl�s

Études de cas & Visites d’entreprises

Panorama

Les acteurs du domaine

Formations et m�tiers

Th�ses

Ressources et outils

Initiatives nationales & europ�ennes

Action Technolangue

Pr�sentation

Th�mes

Projets

Plate-forme EVALDA

EVALDA - ARCADE II

EVALDA - CESART

EVALDA - CESTA

EVALDA - ESTER

EVALDA - EQUER

EVALDA - MEDIA

EVALDA - EVASY

EVALDA - EASY

AGILE - ALIZÉ

AGILE - OURAL

AGILE - TILT

AGILE - WATSON

ATONANT

CARMEL

EurADiC

NEOLOGOS

NomsPropres

NORMALANGUE - RNIL

NORMALANGUE - Technovox

Technolangue.Net

Normes & Standard

Enjeux

Instances

Imprimer cet article

CARMEL

mardi 26 octobre 2004

Corpus Align� comme Ressource Multilingue pour l'Etude du Langage naturel

Fiche du 26 octobre 2004

Th�me de l'action

Ressources linguistiques

D�but du projet

1 septembre 2003

Dur�e du projet

24 mois

R�sum�

Le projet CARMEL a pour objectif la constitution d'un corpus multilingue align� coupl� � un jeu d'outils d'exploration adapt�.

Le corpus sera constitu� d'une collection d'�uvres litt�raires du XIXe si�cle - r�cits de voyages - dans quatre langues europ�ennes : fran�ais, anglais, espagnol et italien. Les textes, mis au format XML, seront enrichis par l'ajout d'annotations th�matiques et s�mantiques pour en faciliter l'exploitation et cr�er une ressource de r�f�rence pouvant servir lors de diverses campagnes d'�valuation.

Les outils accompagnant le corpus permettront l'alignement de nouveaux textes ainsi que la visualisation de bi-textes et de leurs annotations.

Le couplage des trois axes privil�gi�s - appariement multilingue, l'�tiquetage s�mantique et l'annotation th�matique - devrait permettre un alignement multilingue plus fin, une d�sambigu�sation s�mantique plus pr�cise et une classification th�matique plus robuste.

Objectifs

Constitution d'un corpus multilingue align� au niveau des phrases, appari� au niveau lexical ;
Annotation de ce corpus pour qu'il puisse �tre utilis� lors de diverses campagnes d'�valuation ;
Utilisation des appariements interlingues pour une d�sambigu�sation s�mantique fine ;
Utilisation des �tiquettes s�mantiques pour une annotation th�matique robuste ;
Utilisation de l'annotation th�matique am�liorer la d�sambigu�sation s�mantique ;
D�veloppement d'outils standards pour l'alignement ;
D�veloppement d'une interface standard pour la visualisation et l'annotation des bi-textes.

Mise en œuvre et état de l'art

S'il existe des bases textuelles de grande envergure dans le domaine litt�raire (telles que FRANTEXT de l'INALF), les corpus bilingues align�s, ou bi-textes, sont assez rares, et a fortiori les multi-textes, impliquant plus de deux langues. Les corpus qui font r�f�rence dans le domaine n'en contiennent pas (tel le corpus JOC) ou tr�s peu (15% du corpus BAF).

Le d�veloppement d'un corpus litt�raire de grande taille, coh�rent quant � sa d�finition, viendra combler cette lacune. Notons que le format d'annotation (XML) du corpus prendra en compte les diff�rentes normes et recommandations applicables : Corpus Encoding Standard (CESAlign), Text Encoding Initiative, et standard Translation Memory Interchange (TMX).

Aligner des textes parall�les consiste � d�terminer, avec une granularit� plus ou moins fine (paragraphe, phrase, mot), les zones �quivalentes entre un texte et sa traduction. Les premi�res m�thodes d�di�es � l'alignement automatique sont apparues au d�but des ann�es 90 et sont arriv�es � maturit� apr�s une dizaine d'ann�es de d�veloppement. Pour des corpus de traductions litt�rales les r�sultats des meilleurs syst�mes avoisinent les 99% de pr�cision et rappel au niveau phrastique. Pour d'autres corpus, la marge de progression est encore importante : il s'av�re que les traductions de textes litt�raires pr�sentent plus de difficult� dans la mesure o� l'interpr�tation du traducteur, n�cessairement subjective, implique une certaine libert� formelle. Dans le projet, on aura recours au syst�me d'Olivier Kraif (Kraif, 2001) utilisant une combinaison d'indices vari�s : longueurs de phrases, transfuges et cognats, distributions lexicales.

La t�che de d�sambigu�sation s�mantique d'un mot employ� en contexte est une t�che particuli�rement difficile si elle doit �tre r�alis�e de fa�on automatique. Des campagnes d'�valuation des syst�mes automatiques de d�sambigu�sation s�mantique (Senseval ou Romanseval) ont �t� r�cemment mises en place. Les r�sultats obtenus par les meilleurs syst�mes varient entre 60% et 80% d'�tiquetages � corrects � selon les mots test�s ; ce qui montre qu'il y a encore beaucoup de progr�s � faire avant de pouvoir utiliser de tels composants dans les syst�mes de Recherche Documentaire ou de Traduction Assist�e par Ordinateur.

Les diff�rents syst�mes d�velopp�s par le LIA (en coop�ration pour Senseval II avec Sinequa) sont fond�s sur une approche reposant entre autres sur des arbres de classification s�mantiques, et sur une classification des termes apparaissant dans le contexte � une position donn�e. Cette approche met en jeu diff�rents niveaux linguistiques et a permis au LIA d'obtenir, sur les donn�es de Senseval I, des scores atteignant 85.7% de pr�cision (et rappel) pour les noms et 72.8 % pour les verbes. La principale innovation que le LIA souhaite introduire dans son syst�me consiste en la prise en compte de l'aspect multilingue du corpus.

L'identification th�matique s'appuiera � son tour sur la d�sambigu�sation fine des unit�s pertinentes. Par r�troaction, on pourra am�liorer les r�sultats des appariements multilingues, certains param�tres �tant susceptibles de d�pendre de la typologie des segments textuels (description, dialogue, narration) et des th�mes abord�s. Cette interrelation �troite entre s�mantique lexicale, th�me (consid�r� comme r�currence s�mantique ou isotopie) et traduction constitue une tentative tout � fait originale dans le domaine, et n'est autre que la mise en �uvre du principe �nonc� par Greimas, selon lequel la traduction est l'amorce d'une explicitation du sens.

Organisation

Apr�s une phase de pr�paration, le projet, qui a commenc� en septembre 2003, se d�coupe en quatre phases :

Septembre 2003 � f�vrier 2004 : Amor�age
F�vrier 2004 � octobre 2004 : Enrichissement du corpus, d�sambigu�sation, alignement, et classification.
Octobre 2004 � f�vrier 2005 : �valuation et r�glages
F�vrier 2005 � Juin 2005 : Validation et diffusion.

La premi�re phase permet d'�prouver les diff�rents choix faits entre les partenaires � travers l'acquisition de premiers textes en anglais et de quelques traductions, l'alignement phrastique des traductions, la d�sambigu�sation s�mantique de quelques unit�s, et la v�rification manuelle d'une partie de ces annotations.

Le corpus sera ensuite enrichi de nombreux textes �crits dans les quatre langues, et de leur traduction. L'alignement phrastique et lexical sera calcul� automatiquement, puis v�rifier manuellement ; les techniques d'alignement seront progressivement affin�es. De m�me, l'�tiquetage s�mantique sera calcul� automatiquement et r�vis� humainement, et les techniques utilis�es seront progressivement am�lior�es et prendront en compte contexte multilingue et �tiquette th�matique. Un d�coupage en segments th�matiques des �uvres sera effectu� pour concevoir des outils de classification multilingues.

La troisi�me phase permettra d'�valuer les r�sultats obtenus par les diff�rents outils d'alignement, de d�sambigu�sation et de classification sur une partie du corpus r�serv�e � cet effet. Divers r�glages (ainsi qu'une correction des erreurs) pourront �tre faits � cette occasion.

Parall�lement, une adaptation des outils linguistique sera faite par la soci�t� Sinequa, la derni�re phase sera consacr�e � la validation de ces outils et du corpus en termes d'utilisation culturelle et p�dagogique puis � sa diffusion.

Les diff�rents livrables attendus sont le corpus CARMEL sous un format XML align� � diff�rents niveaux (phrases et certains mots), d�coup� th�matiquement et annot� s�mantiquement ; des outils standards d'alignement, ainsi qu'une interface de visualisation des bi-textes annot�s; enfin un site d�velopp� autour du corpus servant de � vitrine � de d�monstration et de diffusion.

Retomb�es du projet

La ressource linguistique que constitue le corpus CARMEL est destin�e � encourager l'apprentissage et la connaissance de la culture europ�enne et � favoriser la production d'un appareil critique sur le patrimoine litt�raire et artistique de l'Europe du XIXe si�cle, p�riode particuli�rement f�conde et repr�sentative.

De plus les outils standard d'alignement et de visualisation bi textes annot�s seront utiles pour un certain nombre d'application du TALN, comme l'aide � la traduction.

Le projet CARMEL permettra de mettre au point de nouvelles techniques d'alignement lexical et phrastique, de d�sambigu�sation s�mantique et de classification th�matique. Enfin, le corpus pourra servir de r�f�rence lors de campagnes d'�valuations.

Le projet CARMEL apportera � la soci�t� Sinequa un �largissement de sa client�le vers d'autres clients potentiels, dans le domaine culturel et p�dagogique. Le produit final servira aussi de vitrine de r�f�rence pour le moteur XML, Intuition.

Etat d'avancement

Comme r�sum� dans le tableau suivant, dix-neuf textes ont �t� num�ris�s et v�rifi�s par ACCE : onze textes de langue anglaise et huit de langue fran�aise ; quinze traductions de texte ont �galement �t� num�ris�es et v�rifi�es : dix traductions fran�aises, trois traductions anglaises et une traduction espagnole (d'un texte anglais) et trois traductions espagnoles (de textes fran�ais).

Neuf textes (ou traductions) en anglais ont �t� lemmatis�s et annot�s s�mantiquement pour un jeu de cinq mots - begin (v), child (n), curious (a), live (v) et simple (a) -. La v�rification manuelle d'une s�lection de ces annotations est en cours.

De m�me six textes ou traductions en fran�ais et la traduction espagnole sont lemmatis�s. Enfin, l'alignement phrastique de six des traductions fran�aises, et de la traduction espagnole a �t� r�alis�.

Oeuvre	Auteur	Langue	Num�ris�	Lemmatis�	Annotation	Alignement
A naturalist voyage	Darwin	EN	EN, ES, FR	EN, ES	EN	EN-ES
Pictures from Italy	Dickens	EN	EN, FR,ES	EN, FR	EN
Voyage en Bretagne	Flaubert	FR	FR
Voyage en Egypte	Flaubert	FR	FR
Voyage dans les Pyr�n�es	Flaubert	FR	FR
Voyage en corse	Flaubert	FR	FR
Voyage en Espagne	Gauthier	FR	EN, FR,ES
By the Ionian Sea	Gissing	EN	EN, FR	EN, FR	EN	EN-FR
In the Rocky Mountains and Far West	Irving	EN	EN, FR	EN, FR	EN	EN-FR
The cruise of the Snark	London	EN	EN	EN	EN
Egypte	Loti	FR	EN	EN	EN
Maroc	Loti	FR	EN
Travels in Alaska	Muir	EN	EN, FR	EN, FR	EN	EN-FR
The Oregon Trail	Parkman	EN	EN, FR	EN, FR	EN	EN-FR
Travels with a donkey	Stevenson	EN	EN, FR	EN, FR	EN	EN-FR
A little tour in France	James	EN	EN, FR
Travels in West Africa	Kingsley	EN	EN, FR
Galil�e	Loti	FR	FR, ES
Voyage round the world	Anson	EN	EN, FR

En outre, un premier outil (iSemTag) d'annotation s�mantique de texte (une seule langue) a �t� mis au point par la soci�t� Sinequa.

Partenaires du projet

Laboratoire d'Informatique d'Avignon (LIA)
Laboratoire de LInguistique et DIdactique des Langues Etrang�res et Maternelles (LIDILEM)
Association � Acad�mie de Civilisation et de Cultures europ�ennes � (ACCE)
Soci�t� Sinequa

Contact

Marc El-B�ze
LIA
BP 1228, 84 911 Avignon cedex 9 France
t�l : 04 90 84 35 09
fax : 04 90 84 31 01
m�l : marc.elbeze@lia.univ-avignon.fr