ACCUEIL

Consignes aux
auteurs et coordonnateurs
Nos règles d'éthique
Autres revues >>

Traitement Automatique des Langues

1248-9433
Changement d'éditeur au 1er janvier 2007
 

 ARTICLE VOL 44/2 - 2003  - pp.125-149
TITLE
Parsing and Tagging of Bilingual Dictionaries

RÉSUMÉ
Les dictionnaires bilingues ont un grand potentiel comme source de ressources lexicologiques pour l'apprentissage dans les systèmes automatisés tels que OCR, traduction automatique, et recherche documentaire multilangue. Dans cet article, nous décrivons un système pour extraire des lexiques de termes à partir de dictionnaires bilingues imprimés. Notre travail se présente en trois phases - Segmentation de dictionnaire, étiquetage des entrées, et génération. Dans la segmentation, les pages sont divisées en entrées logiques basées sur des caractéristiques structurelles apprises à partir d'exemples choisis. Les entrées extraites liées aux étiquettes fonctionnelles sont passées à un module d'étiquetage qui associe des étiquettes linguistiques à chaque mot ou expression dans l'entrée. Le résultat produit par le système est une structure qui représente les entrées du dictionnaire. Nous avons employé cette approche pour analyser une variété de dictionnaires avec des alphabets latins ou non-latins, et nous démontrons les résultats de la génération de lexiques de termes pour la recherche d'information à partir d'une collection d'articles de journaux français et de requêetes en anglais.


ABSTRACT
Bilingual dictionaries hold great potential as a source of lexical resources for training and testing automated systems for optical character recognition, machine translation, and cross-language information retrieval. In this paper, we describe a system for extracting term lexicons from printed bilingual dictionaries. Our work was divided into three phases - dictionary segmentation, entry tagging, and generation. In segmentation, pages are divided into logical entries based on structural features learned from selected examples. The extracted entries are associated with functional labels and passed to a tagging module which associates linguistic labels with each word or phrase in the entry. The output of the system is a structure that represents the entries from the dictionary. We have used this approach to parse a variety of dictionaries with both Latin and non-Latin alphabets, and demonstrate the results of term lexicon generation for retrieval from a collection of French news stories using English queries.


AUTEUR(S)
Huanfeng MA, Burcu KARAGOL-AYAN, David DOERMANN, Doug OARD, Jianqiang WANG

MOTS-CLÉS
recherche documentaire multilangue, OCR, analyse logique, segmentation de page, dictionnaires bilingues.

KEYWORDS
Cross-Language IR, OCR, Logical Analysis, Page Segmentation, Bilingual Dictionaries.

LANGUE DE L'ARTICLE
Anglais

 PRIX
• Abonné (hors accès direct) : 34.95 €
• Non abonné : 34.95 €
|
|
--> Tous les articles sont dans un format PDF protégé par tatouage 
   
ACCÉDER A L'ARTICLE COMPLET  (1,20 Mo)



Mot de passe oublié ?

ABONNEZ-VOUS !

CONTACTS
Comité de
rédaction
Conditions
générales de vente

 English version >> 
made by WAW Lavoisier