ACCUEIL

Consignes aux
auteurs et coordonnateurs
Nos règles d'éthique
Autres revues >>

Traitement Automatique des Langues

1248-9433
Changement d'éditeur au 1er janvier 2007
 

 ARTICLE VOL 42/3 - 2001  - pp.833-867
TITRE
Exploitation des cognats pour l'alignement. Architecture et évaluation

RÉSUMÉ
Nous nous intéressons dans cet article aux méthodes d'alignement automatique destinées à produire des corpus bitextuels. Certaines techniques ont obtenu des résultats probants en s'appuyant sur la détermination empirique des mots étymologiquement apparentés, les « cognats ». Or les cognats sont généralement captés au moyen d'une approximation abrupte : on considère tous les mots ayant 4 lettres consécutives communes comme cognats potentiels. Nous avons cherché à déterminer empiriquement la qualité de cette simplification, en termes de précision et de rappel, afin d'en démontrer les possibilités et les limites, et d'y apporter quelques améliorations. Enfin, nous corrélons les améliorations obtenues avec l'alignement résultant, en utilisant une méthode générale de préalignement.


ABSTRACT
In this paper, we focus on automatic aligning methods, which aim at producing massive bi-textual corpora. Some systems have yielded good results by taking advantage of the "cognateness", i.e. the amount of related words that occur in both parts of translation. Usually, cognates are identified by a very rough approximation : if two words share the same four letter string, they are considered as potential cognates. No empirical study, as far as we know, has been conducted to validate this simplification. In order to show precisely the scope and the limits of the cognate based approach, we evaluate, on a French-English corpus, the precision and recall of n-gram simplification, and we give some possible improvements. We finally implement a cognate-based aligning system, in order to correlate the results of cognate identification with the results of the subsequent alignment.


AUTEUR(S)
Olivier KRAIF

MOTS-CLÉS
alignement, corpus bilingue, corpus parallèles, bitexte, cognat.

KEYWORDS
Aligning, Bilingual Corpora, Parallel Corpora, Bi-text, Cognate.

LANGUE DE L'ARTICLE
Français

 PRIX
• Abonné (hors accès direct) : 34.95 €
• Non abonné : 34.95 €
|
|
--> Tous les articles sont dans un format PDF protégé par tatouage 
   
ACCÉDER A L'ARTICLE COMPLET  (813 Ko)



Mot de passe oublié ?

ABONNEZ-VOUS !

CONTACTS
Comité de
rédaction
Conditions
générales de vente

 English version >> 
made by WAW Lavoisier