ACCUEIL

Consignes aux
auteurs et coordonnateurs
Nos règles d'éthique
Autres revues >>

Traitement Automatique des Langues

1248-9433
Changement d'éditeur au 1er janvier 2007
 

 ARTICLE VOL 44/1 - 2003  - pp.33-61
TITRE
Événements impossibles en modélisation stochastique du langage

RÉSUMÉ
Dans cet article, nous nous proposons d'introduire la notion d'événement impossible dans les modèles de langage statistiques. En effet, dans la langue écrite, seules les constructions respectant des règles grammaticales appropriées, sont acceptées. Pour toutes les autres, on considérera qu'elles sont erronées et non pas peu probables comme on le fait dans les modèles de langage statistiques classiques. Pour déterminer si un événement est possible ou non, nous utilisons comme sources d'informations des corpus étiquetés avec diverses classifications construites sur des critères linguistiques ou à l'aide de méthodes automatiques. Nous leur appliquons plusieurs heuristiques fondées sur la théorie de l'information. Nous appliquons ces règles pour la détection de bigrammes impossibles dans la langue française et en recensons ainsi 60 millions pour un vocabulaire de 20 000 mots. Le taux d'erreur de la décision d'impossibilité est estimé à moins de ? ±. Un nouveau modèle de langage statistique est développé prenant en compte les événements impossibles. L'amélioration de la perplexité varie de ? ± à ± selon les conditions de test.


ABSTRACT
In this paper, we propose to introduce the notion of impossible events for statistical language modelling. In language, only sentences respecting grammatical constraints are correct. The others will be considered as wrong contrary to classical statistical language models, that would consider them as unlikely. To decide if an event is possible or not, several tagged corpora are used. We use linguistic criteria and automatic algorithms to build classifications for tagging. We apply to these tagged corpora a set of heuristics based on the information theory. These heuristics are applied to detect impossible bigrams for French. With this method, 60 millions of impossible bigrams are collected using a 20000 words vocabulary. We estimated that only less than ?± of these 60 millions bigrams are wrongly considered as impossible. The perplexity is improved by ? ± to ± depending on the test conditions.


AUTEUR(S)
David LANGLOIS, Armelle BRUN, Kamel SMAÏLI, Jean-Paul HATON

MOTS-CLÉS
événements impossibles, modélisation statistique du langage, classification, classes syntaxiques, techniques de lissage.

KEYWORDS
impossible events, statistical language modelling, classification, syntactic classes, smoothing techniques.

LANGUE DE L'ARTICLE
Français

 PRIX
• Abonné (hors accès direct) : 34.95 €
• Non abonné : 34.95 €
|
|
--> Tous les articles sont dans un format PDF protégé par tatouage 
   
ACCÉDER A L'ARTICLE COMPLET  (619 Ko)



Mot de passe oublié ?

ABONNEZ-VOUS !

CONTACTS
Comité de
rédaction
Conditions
générales de vente

 English version >> 
made by WAW Lavoisier