ACCUEIL

Consignes aux
auteurs et coordonnateurs
Nos règles d'éthique
Autres revues >>

Traitement Automatique des Langues

1248-9433
Changement d'éditeur au 1er janvier 2007
 

 ARTICLE VOL 46/2 - 2005  - pp.39-63
TITLE
Scalable classification-based word prediction and confusible correction

RÉSUMÉ
Cet article présente un modèle pour la tâche de prédiction de mots, considérée ici comme une tâche de classification. Ce modèle repose sur l'utilisation de IGTREE, un algorithme d'inférence d'arbre de décision capable de traiter à la fois un grand nombre de classes et d'exemples d'apprentissage. À travers une première série d'expérimentations nous montrons que la capacité de prédiction du modèle augmente log-linéairement avec le nombre d'exemples d'entraînement. Le même comportement est obtenu avec la perplexité discrète, une nouvelle métrique introduite pour la tâche de prédiction de mots ; la taille des arbres inférés croît, elle, linéairement. Lorsque notre modèle est entraîné sur un corpus journalistique de 30 millions de mots, le nombre de mots correctement prédits est de 42.2 % sur des textes journalistiques. Une seconde série d'expérimentations démontre que ce prédicteur générique peut être spécialisé pour traiter des configurations dans lesquelles l'ensemble des mots à prédire se restreint à un petit ensemble. Le modèle spécialisé atteint des meilleurs résultats que le classifieur générique.


ABSTRACT
We present a classification-based word prediction model based on IGTREE, a decision-tree induction algorithm with favorable scaling abilities. Through a first series of experiments we demonstrate that the system exhibits log-linear increases in prediction accuracy and decreases in discrete perplexity, a new evaluation metric, with increasing numbers of training examples. The induced trees grow linearly with the amount of training examples. Trained on 30 million words of newswire text, prediction accuracies reach 42.2% on the same type of text. In a second series of experiments we show that this generic approach to word prediction can be specialized to confusible prediction, yielding high accuracies on nine example confusible sets in all genres of text. The confusible-specific approach outperforms the generic word-prediction approach, but with more data the difference decreases.


AUTEUR(S)
Antal VAN DEN BOSCH

MOTS-CLÉS
prédiction de mots, modèles de langage, inférence d'arbres de décision, perplexité.

KEYWORDS
word prediction, language modeling, induction of decision trees, perplexity.

LANGUE DE L'ARTICLE
Anglais

 PRIX
• Abonné (hors accès direct) : 34.95 €
• Non abonné : 34.95 €
|
|
--> Tous les articles sont dans un format PDF protégé par tatouage 
   
INDISPONIBLE



Mot de passe oublié ?

ABONNEZ-VOUS !

CONTACTS
Comité de
rédaction
Conditions
générales de vente

 English version >> 
made by WAW Lavoisier