ACCUEIL

Consignes aux
auteurs et coordonnateurs
Nos règles d'éthique
Autres revues >>

Traitement Automatique des Langues

1248-9433
Changement d'éditeur au 1er janvier 2007
 

 ARTICLE VOL 45/2 - 2004  - pp.7-14
TITRE
Le traitement automatique des corpus oraux

RÉSUMÉ
Extrait :
On dispose à l heure actuelle de quantités importantes de textes écrits, que ce soit sous forme de corpus offrant un échantillonnage de genres textuels (comme le British National Corpus (BNC), qui comporte 100 millions d occurrences et dont, hélas, on n a pas d équivalent pour le français) ou de collections moins structurées (comme la base Frantext, comportant 210 millions d occurrences et composée pour 80 % d Suvres littéraires et pour 20 % d Suvres scientifiques ou techniques, ou les archives du journal Le Monde, qui offrent plusieurs centaines de millions d occurrences de prose journalistique). Le gigantesque réservoir qu est le World Wide Web repousse chaque jour cette limite. Au moment où j écris cet article (octobre 2004), mes estimations, basées sur une technique analogue à celle de Kilgarriff & Grefenstette (2003), indiquent que le moteur Google indexe environ 8 milliards d occurrences en français, et que ce chiffre est de l ordre de 100 milliards d occurrences pour l anglais.

AUTEUR(S)
Jean VÉRONIS

LANGUE DE L'ARTICLE
Français

 PRIX
• Abonné (hors accès direct) : 34.95 €
• Non abonné : 34.95 €
|
|
--> Tous les articles sont dans un format PDF protégé par tatouage 
   
ACCÉDER A L'ARTICLE COMPLET  (110 Ko)



Mot de passe oublié ?

ABONNEZ-VOUS !

CONTACTS
Comité de
rédaction
Conditions
générales de vente

 English version >> 
made by WAW Lavoisier