ACCUEIL

Consignes aux
auteurs et coordonnateurs
Nos règles d'éthique
Autres revues >>

Traitement Automatique des Langues

1248-9433
Changement d'éditeur au 1er janvier 2007
 

 ARTICLE VOL 45/2 - 2004  - pp.89-108
TITLE
Processing Mandarin Spoken Corpora

RÉSUMÉ
Cet article propose une approche basée sur l'analyse des syllabes pour le traitement du corpus du mandarin parlé. Le mandarin parlé à Taiwan, langue syllabique, est caracterisé par son système d'écriture, et sa représentation morphologique et syntaxique. L'outil de transcription TransList a été développé pour incorporer les caractères chinois et leurs transcriptions alphabétique et phonétique. Les systèmes d'annotation adoptés pour les trois corpus du mandarin parlé sont présentés en montrant comment l'identification du langage spontané et des actes de dialogues est clarifiée. Sont décrits, par ailleurs, les programmes développés pour le traitement des annotations, dont celui de conversion des annotations vers la base de données du corpus syllabique. Cet article illustre enfin comment des phénomènes spécifiques sont extraits automatiquement et comment l'information qui leur est associée peut être intégrée dans la base de données.


ABSTRACT
This paper proposes a syllable-based approach to processing Mandarin spoken corpora. Taiwan Mandarin, a syllable-timed language, has its specific characteristic in the writing system and in the morphological and syntactic representation. To incorporate the Chinese characters, their romanized transcription and the phonetic transcription, a transcription tool TransList is developed. Annotation systems adopted for three different Mandarin spoken corpora are presented, where the identification of spontaneous speech phenomena and dialogue acts is clarified. Programmes developed for processing the annotated transcripts are also introduced including the conversion of annotated transcripts to a syllable-based corpus database. This paper also illustrates how specific phenomena are extracted automatically and how the associated information can be integrated to the database.


AUTEUR(S)
Shu-Chuan TSENG

MOTS-CLÉS
discours spontané, mandarin de Taiwan, conversations, corpus du langage parlé, annotation.

KEYWORDS
spontaneous speech, Taiwan Mandarin, conversations, speech corpus annotation.

LANGUE DE L'ARTICLE
Anglais

 PRIX
• Abonné (hors accès direct) : 34.95 €
• Non abonné : 34.95 €
|
|
--> Tous les articles sont dans un format PDF protégé par tatouage 
   
ACCÉDER A L'ARTICLE COMPLET  (315 Ko)



Mot de passe oublié ?

ABONNEZ-VOUS !

CONTACTS
Comité de
rédaction
Conditions
générales de vente

 English version >> 
made by WAW Lavoisier