ACCUEIL

Consignes aux
auteurs et coordonnateurs
Nos règles d'éthique
Autres revues >>

Traitement Automatique des Langues

1248-9433
Changement d'éditeur au 1er janvier 2007
 

 ARTICLE VOL 42/2 - 2001  - pp.517-545
TITRE
Utiliser des corpus pour amorcer une analyse thématique

RÉSUMÉ

L’analyse thématique est une étape importante pour de nombreuses applications en traitement automatique des langues, telles que le résumé automatique ou l’extraction d’information par exemple. Elle ne peut être réalisée avec une bonne précision qu’en exploitant une source de connaissances structurées sur les thèmes, laquelle est difficile à constituer avec une large couverture. Dans cet article, nous proposons de résoudre ce problème par un principe d’amorçage s’appuyant sur des corpus : une première analyse thématique, fondée sur l’utilisation d’une source de connaissances faiblement structurée mais aisée à construire à partir d’un vaste corpus – un réseau de collocations – permet d’apprendre, également à partir d’un corpus, des représentations explicites de thèmes appelées signatures thématiques. Ces dernières sont ensuite exploitées pour mettre en œuvre une seconde analyse thématique, plus précise et plus fiable.

ABSTRACT

Topic analysis is important for a lot of Natural Language Processing (NLP) applications, such as text summarization or information extraction. It can be achieved with a good precision only by using structured knowledge about topics, which is hard to obtain on a large scale. In this article, we tackle this problem by applying a bootstrapping mechanism that relies on corpora : a first topic analysis, which makes use of knowledge that is weakly structured but easy to build from a large corpus – a collocation network – permits to learn, also from a corpus, specific topic representations called topic signatures. These signatures are then used to support a second topic analysis that is more precise and more reliable.

AUTEUR(S)
Olivier FERRET, Brigitte GRAU

MOTS-CLÉS
analyse thématique, segmentation thématique, amorçage, collocations, représentations thématiques.

KEYWORDS
topic analysis, topic segmentation, bootstrapping, collocations, topic representations.

LANGUE DE L'ARTICLE
Français

 PRIX
• Abonné (hors accès direct) : 34.95 €
• Non abonné : 34.95 €
|
|
--> Tous les articles sont dans un format PDF protégé par tatouage 
   
ACCÉDER A L'ARTICLE COMPLET  (344 Ko)



Mot de passe oublié ?

ABONNEZ-VOUS !

CONTACTS
Comité de
rédaction
Conditions
générales de vente

 English version >> 
made by WAW Lavoisier