ACCUEIL

Consignes aux
auteurs et coordonnateurs
Nos règles d'éthique
Autres revues >>

Traitement Automatique des Langues

1248-9433
Changement d'éditeur au 1er janvier 2007
 

 ARTICLE VOL 44/3 - 2003  - pp.217-246
TITRE
Extraction statistique sur corpus de classes de mots-clés thématiques

RÉSUMÉ
Cet article décrit un système de caractérisation et détection de thèmes dans un corpus textuel non spécialisé reposant sur la notion de mots-clés, c'est-à-dire de mots dont l'apparition dans un segment de texte est symptomatique de la présence d'un thème particulier. Le système présenté extrait de manière totalement automatique, sans connaissance a priori sur la nature ou le nombre des thèmes majeurs abordés dans le corpus, une collection de classes de tels motsclés, représentatives chacune d'un de ces thèmes. Il a pour objectif de répondre aux besoins d'applications nécessitant la connaissance de thèmes, mais sans recours à un expert humain et sans usage de données auxiliaires, sémantiques ou autres. La méthode mise en oeuvre se compose d'une série de traitements essentiellement statistiques exploitant la répartition des mots du corpus sur ses paragraphes. Les listes de mots extraites permettent de détecter la présence d'un thème donné dans un paragraphe, révélée par une cooccurrence de mots-clés. La détection de thèmes ainsi réalisée atteint, sur un corpus d'archives du Monde diplomatique une précision et un rappel de 85 % et 63 % respectivement.


ABSTRACT
This article describes a system for topic detection and characterization in a nonspecialized textual corpus by means of keywords, that is, words whose apparition in a text segment indicates the presence of a particular topic. The presented systems builds, without any human intervention or given knowledge about the number or nature of the main topics of the corpus, a collection of classes of such keywords, each of which is representative of one of those topics. It aims at fulfilling the needs of applications that require topical information, but cannot or will not rely on a human expert, or make use of additional data, semantic or otherwise. It consists in a sequence of statistical treatments exploiting the distribution of the words of the corpus over its paragraphs. The extracted lists are employed in order to detect the presence of a topic in a paragraph, revealed by a keyword cooccurrence. The topic detection thus achieved reaches, on a corpus of archives from the French newspaper Le Monde diplomatique, a precision and recall of 85 % and 63 % respectively.


AUTEUR(S)
Mathias ROSSIGNOL, Pascale SÉBILLOT

MOTS-CLÉS
caractérisation de thèmes, détection de thèmes, classification hiérarchique.

KEYWORDS
topic characterization, topic detection, hierarchical clustering.

LANGUE DE L'ARTICLE
Français

 PRIX
• Abonné (hors accès direct) : 34.95 €
• Non abonné : 34.95 €
|
|
--> Tous les articles sont dans un format PDF protégé par tatouage 
   
ACCÉDER A L'ARTICLE COMPLET  (690 Ko)



Mot de passe oublié ?

ABONNEZ-VOUS !

CONTACTS
Comité de
rédaction
Conditions
générales de vente

 English version >> 
made by WAW Lavoisier