ACCUEIL

Consignes aux
auteurs et coordonnateurs
Nos règles d'éthique
Autres revues >>

Traitement Automatique des Langues

1248-9433
Changement d'éditeur au 1er janvier 2007
 

 ARTICLE VOL 42/2 - 2001  - pp.501-516
TITRE
Analyse statistique et géométrique de corpus textuels

RÉSUMÉ

De grandes bases de données écrites permettent de représenter statistiquement des textes ou des documents en leur associant des vecteurs dans un espace à n dimensions. Le nombre de variables n correspond au nombre de traits ou primitives choisis pour décrire les documents, n est généralement très grand de sorte qu’une représentation planaire n’est pas directement possible. Nous proposons dans cet article un nouvel espace de projection qui représente dans un seul plan toutes les données, contrairement à l’Analyse en Composantes Principales, et avec une repésentation explicite des axes, contrairement à la projection de Sammon. Une partition optimale en trois classes des variables initiales permet de définir l’espace de projection comme un triangle équilatéral dont les sommets sont les barycentres de ces trois classes. Cette partition est obtenue par un algorithme de classification de type nuées dynamiques. La projection des textes dans ce triangle forme un nuage de points qui permet de visualiser leur répartition et de vérifier la pertinence des traits ou primitives choisis. Nous avons testé cette approche sur un ensemble de textes américains (Brown Corpus) en utilisant trois ensembles de traits : les caractères, les mots et les étiquettes grammaticales fournies avec le corpus.

ABSTRACT

Corpus-based statistical methods are currently used in representing texts or documents as vectors in an n-dimensional space. The n variable number is the number of features or primitives which are chosen to describe the documents, n is usually very high so that a 2D representation is not directly possible. Here we propose a new projection plane which permits taking all the data into account, unlike the principal component analysis, and with an explicit representation of the axes, unlike the Sammon projection. The projection space is defined as an equilateral triangle whose vertices are the centroids of three variable-based clusters. The optimal partition of the variables in three clusters, is obtained with a k-means like clustering algorithm. The mapping of the texts in this space is a tool to analyze how they split and to verify the appropriateness of the chosen feature set. We tested this approach on three features sets (characters, words and tags) on register-based parts of a reference corpus (Brown Corpus). MOTS-CLÉS : typage de textes, sélection de traits ou primitives, classification automatique.

AUTEUR(S)
Gabriel ILLOUZ, Michèle JARDINO

MOTS-CLÉS
typage de textes, sélection de traits ou primitives, classification automatique.

KEYWORDS
corpus-based modeling, document profiling, feature selection, automatic clustering.

LANGUE DE L'ARTICLE
Français

 PRIX
• Abonné (hors accès direct) : 34.95 €
• Non abonné : 34.95 €
|
|
--> Tous les articles sont dans un format PDF protégé par tatouage 
   
ACCÉDER A L'ARTICLE COMPLET  (527 Ko)



Mot de passe oublié ?

ABONNEZ-VOUS !

CONTACTS
Comité de
rédaction
Conditions
générales de vente

 English version >> 
made by WAW Lavoisier