ACCUEIL

Consignes aux
auteurs et coordonnateurs
Nos règles d'éthique
Autres revues >>

Traitement Automatique des Langues

1248-9433
Changement d'éditeur au 1er janvier 2007
 

 ARTICLE VOL 46/2 - 2005  - pp.13-37
TITLE
Probability and expected document frequency of discontinued word sequences An efficient method for their exact computation

RÉSUMÉ
Nous présentons une technique efficace pour calculer la probabilité d'une séquence de mots éventuellement discontigus, c'est-à-dire la probabilité que ces mots apparaissent dans un ordre donné, quel que soit le nombre d'autres mots pouvant apparaître entre eux. Notons qu'en lieu et place de mots et de documents, nous pouvons utiliser tout type de données séquentielles. Notre approche est basée sur une formalisation du problème en une chaîne de Markov particulière, dont nous présentons et exploitons les spécificités afin d'obtenir une complexité compétitive. Nous développons notre approche plus avant afin de calculer la fréquence documentaire attendue d'une séquence donnée. Cet article présente finalement une application de ces travaux : une méthode automatique pour l'évaluation directe de l'intérêt d'une séquence de mots, par le biais de comparaisons statistiques entre leurs fréquences attendues et observées.


ABSTRACT
We present an efficient technique for calculating the probability of occurrence of a discontinued sequence of words, i.e., the probability that those words occur, and that they occur in a given order, regardless of which and how many other words may occur between them. The procedure we introduce for words and documents may be generalized to any type of sequential data, e.g., item sequences and transactions. Our method relies on the formalization into a particular Markov chain model, whose specificities are combined with techniques of probability and linear algebra to offer competitive computational complexity. This work is further extended to permit the efficient calculation of the expected document frequency of a sequence. We finally present an application, a fast, automatic, and direct method to evaluate the interestingness of word sequences, by comparing their expected and observed frequencies.


AUTEUR(S)
Antoine DOUCET, Helena AHONEN-MYKA

MOTS-CLÉS
séquences de mots, n-grams, cohésion lexicale, recherche d'information.

KEYWORDS
word sequences, n-grams, lexical cohesion, information retrieval.

LANGUE DE L'ARTICLE
Anglais

 PRIX
• Abonné (hors accès direct) : 34.95 €
• Non abonné : 34.95 €
|
|
--> Tous les articles sont dans un format PDF protégé par tatouage 
   
ACCÉDER A L'ARTICLE COMPLET  (241 Ko)



Mot de passe oublié ?

ABONNEZ-VOUS !

CONTACTS
Comité de
rédaction
Conditions
générales de vente

 English version >> 
made by WAW Lavoisier