Classification Thématique De Courriels Avec Apprentissage Supervisé, Semi Supervisé et Non Supervisé (original) (raw)
Les nouvelles formes de communication écrite (courriers électroniques, forums, chats, SMS, etc.) présentent des défis considérables pour leur traitement automatique. Nous présentons des recherches destinées à créer des outils et des ressources génériques pour la classification de courriels. La capacité d'une entreprise de gérer efficacement, rapidement et à moindre coût, ces flux d'informations devient un enjeu majeur pour la satisfaction des clients. Ceci nécessite, en particulier, de disposer d'outils informatiques permettant notamment le routage pour acheminer les courriels vers le destinataire concerné et l'automatisation de réponses. Nous nous attachons à traiter dans cette étude des problèmes posés par le routage précis de courriels. Après un processus puissant de filtrage et de lemmatisation, nous utilisons la représentation vectorielle de textes avant d'effectuer la classification par des approches supervisées, semi supervisées et non supervisées. Nous avons trouvé, par ailleurs, une initialisation semi supervisée qui optimise l'apprentissage non supervisé. Lors des tests préli-minaires, nous avons obtenu de très bonnes performances sur des corpus réalistes.