ACCUEIL

Consignes aux
auteurs et coordonnateurs
Nos règles d'éthique
Autres revues >>

Traitement Automatique des Langues

1248-9433
Changement d'éditeur au 1er janvier 2007
 

 ARTICLE VOL 45/3 - 2004  - pp.145-169
TITRE
Un modèle générique d'organisation de corpus en ligne. Application à la FReeBank

RÉSUMÉ
Les corpus français librement accessibles et annotés linguistiquement sont insuffisants à la fois quantitativement et qualitativement. Partant de ce constat, la FReeBank se veut une base de corpus du français annotés à plusieurs niveaux (structurel, morphologique, syntaxique, coréférentiel) et à différents degrés de finesse linguistique qui soit libre d'accès, codée selon des schémas normalisés, intégrant des ressources existantes et ouverte à l'enrichissement progressif. Préalablement à la présentation du prototype qui a été réalisé, le présent article propose une modélisation générique de l'organisation et du déploiement d'une archive de corpus linguistiques dans la continuité des travaux menés au niveau international sur la représentation des ressources linguistiques (TEI et ISO/TC 37/SC 4).


ABSTRACT
The few available French resources for evaluating linguistic models or algorithms on other linguistic levels than morpho-syntax are either insufficient from quantitative as well as qualitative point of view or not freely accessible. Based on this fact, the FReeBank project intends to create French corpora constructed using manually revised output from a hybrid Constraint Grammar parser and annotated on several linguistic levels (structure, morphosyntax, syntax, coreference), with the objective to make them available on-line for research purposes. Therefore, we will focus on using standard annotation schemes, integration of existing resources and maintenance allowing for continuous enrichment of the annotations. Prior to the actual presentation of the prototype that has been implemented, this paper describes a generic model for the organization and deployment of a linguistic resource archive, in compliance with the various works currently conducted within international standardization initiatives (TEI and ISO/TC 37/SC 4).


AUTEUR(S)
Suzanne SALMON-ALT, Laurent ROMARY, Jean-Marie PIERREL

MOTS-CLÉS
ressources linguistiques, annotation multi-niveau, normalisation, ressources libres.

KEYWORDS
linguistic resources, multi-level annotation, standardization, open resources.

LANGUE DE L'ARTICLE
Français

 PRIX
• Abonné (hors accès direct) : 34.95 €
• Non abonné : 34.95 €
|
|
--> Tous les articles sont dans un format PDF protégé par tatouage 
   
ACCÉDER A L'ARTICLE COMPLET  (262 Ko)



Mot de passe oublié ?

ABONNEZ-VOUS !

CONTACTS
Comité de
rédaction
Conditions
générales de vente

 English version >> 
made by WAW Lavoisier