ACCUEIL

Consignes aux
auteurs et coordonnateurs
Nos règles d'éthique
Autres revues >>

Traitement Automatique des Langues

1248-9433
Changement d'éditeur au 1er janvier 2007
 

 ARTICLE VOL 45/3 - 2004  - pp.35-47
TITRE
Transcription de la parole conversationnelle

RÉSUMÉ
Cet article décrit le développement d'un système de reconnaissance de la parole conversationnelle, à partir d'un système à l'état de l'art pour la transcription d'émissions d'information. Nous décrivons les principales améliorations apportées aux modèles acoustiques, aux modèles linguistiques et au décodeur. Pour la modélisation acoustique, nos travaux ont porté sur l'introduction d'une normalisation par locuteur, le recours à des techniques d'apprentissage adaptatif et d'apprentissage discriminant, et une meilleure prise en compte des variantes de prononciation. Pour la modélisation linguistique, la principale difficulté vient de la faible quantité de données d'apprentissage disponible. Nous introduisons deux techniques permettant de diminuer l'impact de cette situation sur les performances du système : la sélection de textes de nature conversationnelle et un modèle représentant les mots dans un espace continu. La transcription est obtenue en effectuant un décodage par consensus sur un treillis de mots. Ces améliorations ont permis de réduire le taux d'erreur de 51 % à 21 %.


ABSTRACT
This paper describes the development of a speech recognition system for the processing of conversational speech, starting with a state-of-the-art broadcast news transcription system. We identify major changes and improvements in acoustic and language modeling, as well as decoding, which are required to achieve good performance on conversational speech. Some major changes on the acoustic side include the use of speaker normalizations (VTLN and SAT), a better pronunciation modeling and the use of discriminative training (MMIE). On the linguistic side the primary challenge of the limited amount of language model training data is addressed through the use of a data selection technique, and a smoothing technique based on a neural network language model. At the decoding level, lattice rescoring and minimum word error decoding are applied. On the development data, the improvements yield an overall word error rate of about 21 % whereas the original BN transcription system had a word error rate of 51 % on the same data.


AUTEUR(S)
Jean-Luc GAUVAIN, Gilles ADDA, Lori LAMEL, Fabrice LEFÈVRE, Holger SCHWENK

MOTS-CLÉS
parole conversationnelle, modélisation acoustique, modélisation linguistique.

KEYWORDS
conversational speech, acoustic modeling, language modeling.

LANGUE DE L'ARTICLE
Français

 PRIX
• Abonné (hors accès direct) : 34.95 €
• Non abonné : 34.95 €
|
|
--> Tous les articles sont dans un format PDF protégé par tatouage 
   
ACCÉDER A L'ARTICLE COMPLET  (105 Ko)



Mot de passe oublié ?

ABONNEZ-VOUS !

CONTACTS
Comité de
rédaction
Conditions
générales de vente

 English version >> 
made by WAW Lavoisier