ACCUEIL

Consignes aux
auteurs et coordonnateurs
Nos règles d'éthique
Autres revues >>

Traitement Automatique des Langues

1248-9433
Changement d'éditeur au 1er janvier 2007
 

 ARTICLE VOL 44/1 - 2003  - pp.11-31
TITRE
Adaptation automatique du modèle de langage d'un système de transcription de journaux parlés

RÉSUMÉ
Cet article traite de l'adaptation automatique du vocabulaire puis du modèle de langage d'un système de transcription d'émissions radio et télédiffusées. L'analyse des textes qui sont publiés quotidiennement sur l'internet permet de modéliser les changements thématiques de l'actualité. Deux méthodes d'adaptation du vocabulaire sont proposés : une heuristique qui utilise des seuils sur les fréquences de mots pour identifier les nouveaux mots à inclure dans le vocabulaire, et une adaptation vectorielle qui optimise directement la couverture lexicale sur un corpus de développement par combinaison linéaire des fréquences de mots calculés sur des corpus d'entraînement. Les deux algorithmes conduisent à une réduction de plus d'un tiers du taux de mots hors vocabulaire. L'adaptation quotidienne du modèle de langage de référence permet de réduire la perplexité des données de test de 9%. Le gain relatif obtenu sur le taux d'erreurs de reconnaissance est de 2,2%.


ABSTRACT
This article investigates the problem of automatic adaptation of the vocabulary and the language model of a broadcast news transcription system. We propose to make use of Internet news sources which are available on a daily basis to model the thematic changes for the news domain. Two vocabulary adaptation algorithms are proposed: an ad hoc adaptation rely on thresholds on the word frequencies to add new words to the vocabulary, whereas a vectorial adaptation interpolate word freqencies computed on training corpora to directly maximize lexical coverage on a development corpus. Both of these methods reduce the out of vocabulary word rate by one third. The language model is also daily adapted using statistics from Internet texts with a test perplexity reduction of 9%. The relative gain on the word error rate is 2.2%.


AUTEUR(S)
Alexandre ALLAUZEN, Jean-Luc GAUVAIN

MOTS-CLÉS
adaptation du vocabulaire, adaptation des modèles de langage, reconnaissance automatique de la parole.

KEYWORDS
Vocabulary adaptation, Language model adaptation, Automatic speech recognition.

LANGUE DE L'ARTICLE
Français

 PRIX
• Abonné (hors accès direct) : 34.95 €
• Non abonné : 34.95 €
|
|
--> Tous les articles sont dans un format PDF protégé par tatouage 
   
ACCÉDER A L'ARTICLE COMPLET  (244 Ko)



Mot de passe oublié ?

ABONNEZ-VOUS !

CONTACTS
Comité de
rédaction
Conditions
générales de vente

 English version >> 
made by WAW Lavoisier