ACCUEIL

Consignes aux
auteurs et coordonnateurs
Nos règles d'éthique
Autres revues >>

Traitement Automatique des Langues

1248-9433
Changement d'éditeur au 1er janvier 2007
 

 ARTICLE VOL 42/2 - 2001  - pp.381-411
TITLE
A two-tier corpus-based approach to robust syntactic annotation of unrestricted corpora.

RÉSUMÉ

Cet article présente un état de l’art des analyseurs robustes existants et propose un système automatique d’annotation syntaxique de corpus plus efficace fondé sur un diagnostic préalable à l’application de grammaires spécialisées. Après avoir décrit quelques analyseurs et avoir montré leurs limites en ce qui concerne le traitement de certains corpus, une approche d’analyse en deux étapes est proposée. Les différents modules grammaticaux formalisent tout d’abord des phrases considérées comme noyau puis certains phénomènes syntaxiques particuliers comprenant de la ponctuation ou entraînant des ambiguïtés structurelles. L’avantage de cette approche est, pour tout type de corpus, l’application d’une même grammaire stable optimisée puis l’adaptation du parseur en fonction de la présence de certains phénomènes qui sont traités spécifiquement. Cette stratégie garantit des taux de précision et rappel élevés quelle que soit la typologie du corpus.

ABSTRACT

This article gives a state of the art of robust parsers and proposes a more efficient automatic way of syntactically annotating corpora based on a diagnosis of a sentence before the application of specialized grammars. After describing some available systems and showing their limits in terms of parsing certain type of raw corpora, a two-tier approach is proposed for the architecture of a robust parser. The splitting of the grammar rules into several modules permits to formalize first core sentences and in a second time some syntactic phenomena containing punctuation or implying structural ambiguities. The advantage of this approach is, for any kind of corpora, the application of a single optimized grammar followed by the parser’s adaptation to the presence of certain phenomena which are specifically processed. This strategy guarantees high precision and recall rates for any kind of unrestricted corpora.

AUTEUR(S)
Núria GALA PAVIA

MOTS-CLÉS
Analyseurs robustes, analyseurs de surface, grammaires de constituants vs grammaires de dépendances, annotation syntaxique de corpus tout-venant.

KEYWORDS
Robust parsers, “shallow” parsers, phrase-structure grammars vs dependency grammars, syntactic annotation of unrestricted corpora.

LANGUE DE L'ARTICLE
Anglais

 PRIX
• Abonné (hors accès direct) : 34.95 €
• Non abonné : 34.95 €
|
|
--> Tous les articles sont dans un format PDF protégé par tatouage 
   
ACCÉDER A L'ARTICLE COMPLET  (360 Ko)



Mot de passe oublié ?

ABONNEZ-VOUS !

CONTACTS
Comité de
rédaction
Conditions
générales de vente

 English version >> 
made by WAW Lavoisier