Remy Kessler - Academia.edu (original) (raw)

Papers by Remy Kessler

Research paper thumbnail of Finding salient dates for building thematic timelines

We present an approach for detecting salient (important) dates in texts in order to automatically... more We present an approach for detecting salient (important) dates in texts in order to automatically build event timelines from a search query (e.g. the name of an event or person, etc.). This work was carried out on a corpus of newswire texts in English provided by the Agence France Presse (AFP). In order to extract salient dates that warrant inclusion in an event timeline, we first recognize and normalize temporal expressions in texts and then use a machine-learning approach to extract salient dates that relate to a particular topic. We focused only on extracting the dates and not the events to which they are related.

Research paper thumbnail of Classification Thématique De Courriels Avec Apprentissage Supervisé, Semi Supervisé et Non Supervisé

Les nouvelles formes de communication écrite (courriers électroniques, forums, chats, SMS, etc.) ... more Les nouvelles formes de communication écrite (courriers électroniques, forums, chats, SMS, etc.) présentent des défis considérables pour leur traitement automatique. Nous présentons des recherches destinées à créer des outils et des ressources génériques pour la classification de courriels. La capacité d'une entreprise de gérer efficacement, rapidement et à moindre coût, ces flux d'informations devient un enjeu majeur pour la satisfaction des clients. Ceci nécessite, en particulier, de disposer d'outils informatiques permettant notamment le routage pour acheminer les courriels vers le destinataire concerné et l'automatisation de réponses. Nous nous attachons à traiter dans cette étude des problèmes posés par le routage précis de courriels. Après un processus puissant de filtrage et de lemmatisation, nous utilisons la représentation vectorielle de textes avant d'effectuer la classification par des approches supervisées, semi supervisées et non supervisées. Nous avons trouvé, par ailleurs, une initialisation semi supervisée qui optimise l'apprentissage non supervisé. Lors des tests préli-minaires, nous avons obtenu de très bonnes performances sur des corpus réalistes.

Research paper thumbnail of E-Gen : traitement automatique d'informations de ressources humaines

Document Numerique, Feb 1, 2011

Research paper thumbnail of E-Gen : traitement automatique des offres d'emploi

The exponential growth of the Internet has made the development of a market of on-line job search... more The exponential growth of the Internet has made the development of a market of on-line job search sites possible. This paper aims at presenting the E-Gen system (Automatic Job Offer Processing system for Human Resources). E-Gen will implement two complex tasks: an analysis and categorisation of job postings, which are unstructured text documents (e-mails of job listings, possibly with an attached document), an analysis and a relevance ranking of the candidate's answers (cover letter and curriculum vitae). This paper aims to present a strategy to resolve the first task: after a process of filtering and lemmatisation, we use vectorial representation before generating a classification with Support Vector Machines and n-grams of words. This first classification is then transmitted to a "corrective" post-process (with the Markov model and a Branch&Bound algorithm for pruning the tree) which improves the quality of the solution.

Research paper thumbnail of Pré-traitements classiques ou par analyse distributionnelle : application aux méthodes de classification automatique déployées pour DEFT08

Research paper thumbnail of Expérimentations et évaluations en fouille de textes : Un panorama des campagnes DEFT

Research paper thumbnail of Automatic Profiling System for Ranking Candidates Answers in Human Resources

Lecture Notes in Computer Science, 2008

The exponential growth of Internet allowed the development of a market of online job search sites... more The exponential growth of Internet allowed the development of a market of online job search sites. This work aims at presenting the E-Gen system (Automatic Job Offer Processing system for Human Resources). E-Gen will implement several complex tasks: an analysis and categorization of jobs offers which are unstructured text documents (e-mails of job offers possibly with an attached document), an analysis and a relevance ranking of the candidate answers. We present a strategy to resolve the last task: After a process of filtering and lemmatisation, we use vectorial representation and different similarity measures. The quality of ranking obtained is evaluated using ROC curves.

Research paper thumbnail of E-Gen: Automatic Job Offer Processing System for Human Resources

Lecture Notes in Computer Science, 2007

The exponential growth of the Internet has allowed the development of a market of on-line job sea... more The exponential growth of the Internet has allowed the development of a market of on-line job search sites. This paper aims at presenting the E-Gen system (Automatic Job Offer Processing system for Human Resources). E-Gen will implement two complex tasks: an analysis and categorisation of job postings, which are unstructured text documents (e-mails of job listings possibly with an attached document), an analysis and a relevance ranking of the candidate answers (cover letter and curriculum vitae). This paper aims to present a strategy to resolve the first task: after a process of filtering and lemmatisation, we use vectorial representation before generating a classification with Support Vector Machines. This first classification is afterwards transmitted to a �correc-tive� post-process which improves the quality of the solution.

Research paper thumbnail of Classification automatique de courriers électroniques par des méthodes mixtes d'apprentissage

Ingénierie des systèmes d'information, 2006

Les nouvelles formes de communication écrite (courriels, forums, chats, SMS, etc.) ont introduit ... more Les nouvelles formes de communication écrite (courriels, forums, chats, SMS, etc.) ont introduit des défis considérables pour leur traitement automatique. Ces données présentent des phénomènes linguistiques bien particuliers : messages trop courts, très bruités... Nous présentons des recherches destinées à créer des outils et des ressources génériques pour la classification de courriels. Nous nous attachons à traiter dans cette étude des problèmes posés par le routage précis de courriels. Après un processus de filtrage et de lemmatisation, nous utilisons la représentation vectorielle de textes avant d'effectuer la classification par des approches supervisées, semi-supervisées et non supervisées. Lors des tests, nous avons obtenu de très bonnes performances sur des corpus réalistes. ABSTRACT. New forms of written communication (electronic mail, forum, chat, SMS, etc.) are new challenges for Natural Language Processing methods. These data present very particular linguistic phenomena: too short and very noised messages... This paper focuses on the development of generic tools and resources for e-mails classification. This study deals with the problems of the precise routing of e-mails. After a filtering and lemmatization step, vectorial representation of texts is used for classification purpose by means of supervised, semi-supervised and unsupervised learning techniques. Very good results are presented on realistic corpora. MOTS-CLÉS : apprentissage supervisé et non supervisé, machines à vecteurs de support (SVM), fuzzy k-means, classification de textes, routage automatique de courriels.

Research paper thumbnail of Extraction de dates saillantes pour la construction de chronologies thématiques

ABSTRACT We present an approach for detecting salient (important) dates in texts in order to auto... more ABSTRACT We present an approach for detecting salient (important) dates in texts in order to automatically build event timelines from a search query (e.g. the name of an event or person, etc.). This work was carried out on a corpus of newswire texts in English provided by the Agence France Presse (AFP). In order to extract salient dates that warrant inclusion in an event timeline, we first recognize and normalize temporal expressions in texts and then use a machine-learning approach to extract salient dates that relate to a particular topic. For the time being, we have focused only on extracting the d ates and not the events to which they are related.

Research paper thumbnail of Encore des mots, toujours des mots: fouille de textes et visualisation de l’information pour l’exploration et l’analyse d’une collection de chansons en français

Research paper thumbnail of E-Gen : traitement automatique d'informations de ressources humaines

Research paper thumbnail of Job Offer Management: How Improve the Ranking of Candidates

Lecture Notes in Computer Science, 2009

The market of online job search sites grows exponentially. This implies volumes of information (m... more The market of online job search sites grows exponentially. This implies volumes of information (mostly in the form of free text) become manually impossible to process. An analysis and assisted categorization seems relevant to address this issue. We present E-Gen, a system which aims to perform assisted analysis and categorization of job offers and of the responses of candidates. This

Research paper thumbnail of A hybrid approach to managing job offers and candidates

Information Processing & Management, 2012

ABSTRACT The evolution of the job market has resulted in traditional methods of recruitment becom... more ABSTRACT The evolution of the job market has resulted in traditional methods of recruitment becoming insufficient. As it is now necessary to handle volumes of information (mostly in the form of free text) that are impossible to process manually, an analysis and assisted categorization are essential to address this issue. In this paper, we present a combination of the E-Gen and Cortex systems. E-Gen aims to perform analysis and categorization of job offers together with the responses given by the candidates. E-Gen system strategy is based on vectorial and probabilistic models to solve the problem of profiling applications according to a specific job offer. Cortex is a statistical automatic summarization system. In this work, E-Gen uses Cortex as a powerful filter to eliminate irrelevant information contained in candidate answers. Our main objective is to develop a system to assist a recruitment consultant and the results obtained by the proposed combination surpass those of E-Gen in standalone mode on this task.

Research paper thumbnail of E-Gen: traitement automatique des offres d'emploi

The exponential growth of the Internet has made the development of a market of on-line job search... more The exponential growth of the Internet has made the development of a market of on-line job search sites possible. This paper aims at presenting the E-Gen system (Automatic Job Offer Processing system for Human Resources). E-Gen will implement two complex tasks: an analysis and categorisation of job postings, which are unstructured text documents (e-mails of job listings, possibly with an attached document), an analysis and a relevance ranking of the candidate's answers (cover letter and curriculum vitae). This paper aims to present a strategy to resolve the first task: after a process of filtering and lemmatisation, we use vectorial representation before generating a classification with Support Vector Machines and n-grams of words. This first classification is then transmitted to a "corrective" post-process (with the Markov model and a Branch&Bound algorithm for pruning the tree) which improves the quality of the solution.

Research paper thumbnail of E-Gen: automatic profiling system for ranking candidates answers in Human Resources

Research paper thumbnail of Profilage de candidatures assisté par relevance Feedback

Le marché d'offres d'emploi et des candidatures sur Internet a eu une croissance exponentielle. C... more Le marché d'offres d'emploi et des candidatures sur Internet a eu une croissance exponentielle. Ceci implique des volumes d'information (majoritairement sous la forme de texte libre) intraitables manuellement. Une analyse et catégorisation assistés nous semble pertinente pour répondre à cette problématique. Nous proposons E-Gen, système qui a pour but l'analyse et catégorisation assistés d'offres d'emploi et des réponses des candidats. Dans cet article nous présentons plusieurs stratégies, reposant sur les modèles vectoriel et probabiliste, afin de résoudre la problématique du profilage des candidatures en fonction d'une offre précise. Nous avons évalué une palette de mesures de similarité afin d'effectuer un classement pertinent des candidatures au moyen des courbes ROC. L'utilisation de relevance feedback a permis de surpasser nos résultats sur ce problème difficile, divers et sujet à une grande subjectivité.

Research paper thumbnail of Classification thématique de courriels avec apprentissage supervisé, semi-supervisé et non supervisé

Les nouvelles formes de communication écrite (courriers électroniques, forums, chats, SMS, etc.) ... more Les nouvelles formes de communication écrite (courriers électroniques, forums, chats, SMS, etc.) présentent des défis considérables pour leur traitement automatique. Nous présentons des recherches destinées à créer des outils et des ressources génériques pour la classification de courriels. La capacité d'une entreprise de gérer efficacement, rapidement et à moindre coût, ces flux d'informations devient un enjeu majeur pour la satisfaction des clients. Ceci nécessite, en particulier, de disposer d'outils informatiques permettant notamment le routage pour acheminer les courriels vers le destinataire concerné et l'automatisation de réponses. Nous nous attachons à traiter dans cette étude des problèmes posés par le routage précis de courriels. Après un processus puissant de filtrage et de lemmatisation, nous utilisons la représentation vectorielle de textes avant d'effectuer la classification par des approches supervisées, semi supervisées et non supervisées. Nous avons trouvé, par ailleurs, une initialisation semi supervisée qui optimise l'apprentissage non supervisé. Lors des tests préli-minaires, nous avons obtenu de très bonnes performances sur des corpus réalistes.

Research paper thumbnail of Système du LIA pour la campagne DEFT’10: datation et localisation d’articles de presse francophones

Research paper thumbnail of E-Gen: Profilage automatique de candidatures

La croissance exponentielle de l'Internet a permis le développement de sites d'offres d'emploi en... more La croissance exponentielle de l'Internet a permis le développement de sites d'offres d'emploi en ligne. Le système E-Gen (Traitement automatique d'offres d'emploi) a pour but de permettre l'analyse et la catégorisation d'offres d'emploi ainsi qu'une analyse et classification des réponses des candidats (Lettre de motivation et CV). Nous présentons les travaux réalisés afin de résoudre la seconde partie : on utilise une représentation vectorielle de texte pour effectuer une classification des pièces jointes contenus dans le mail à l'aide de SVM. Par la suite, une évaluation de la candidature est effectuée à l'aide de différents classifieurs (SVM et n-grammes de mots).

Research paper thumbnail of Finding salient dates for building thematic timelines

We present an approach for detecting salient (important) dates in texts in order to automatically... more We present an approach for detecting salient (important) dates in texts in order to automatically build event timelines from a search query (e.g. the name of an event or person, etc.). This work was carried out on a corpus of newswire texts in English provided by the Agence France Presse (AFP). In order to extract salient dates that warrant inclusion in an event timeline, we first recognize and normalize temporal expressions in texts and then use a machine-learning approach to extract salient dates that relate to a particular topic. We focused only on extracting the dates and not the events to which they are related.

Research paper thumbnail of Classification Thématique De Courriels Avec Apprentissage Supervisé, Semi Supervisé et Non Supervisé

Les nouvelles formes de communication écrite (courriers électroniques, forums, chats, SMS, etc.) ... more Les nouvelles formes de communication écrite (courriers électroniques, forums, chats, SMS, etc.) présentent des défis considérables pour leur traitement automatique. Nous présentons des recherches destinées à créer des outils et des ressources génériques pour la classification de courriels. La capacité d'une entreprise de gérer efficacement, rapidement et à moindre coût, ces flux d'informations devient un enjeu majeur pour la satisfaction des clients. Ceci nécessite, en particulier, de disposer d'outils informatiques permettant notamment le routage pour acheminer les courriels vers le destinataire concerné et l'automatisation de réponses. Nous nous attachons à traiter dans cette étude des problèmes posés par le routage précis de courriels. Après un processus puissant de filtrage et de lemmatisation, nous utilisons la représentation vectorielle de textes avant d'effectuer la classification par des approches supervisées, semi supervisées et non supervisées. Nous avons trouvé, par ailleurs, une initialisation semi supervisée qui optimise l'apprentissage non supervisé. Lors des tests préli-minaires, nous avons obtenu de très bonnes performances sur des corpus réalistes.

Research paper thumbnail of E-Gen : traitement automatique d'informations de ressources humaines

Document Numerique, Feb 1, 2011

Research paper thumbnail of E-Gen : traitement automatique des offres d'emploi

The exponential growth of the Internet has made the development of a market of on-line job search... more The exponential growth of the Internet has made the development of a market of on-line job search sites possible. This paper aims at presenting the E-Gen system (Automatic Job Offer Processing system for Human Resources). E-Gen will implement two complex tasks: an analysis and categorisation of job postings, which are unstructured text documents (e-mails of job listings, possibly with an attached document), an analysis and a relevance ranking of the candidate's answers (cover letter and curriculum vitae). This paper aims to present a strategy to resolve the first task: after a process of filtering and lemmatisation, we use vectorial representation before generating a classification with Support Vector Machines and n-grams of words. This first classification is then transmitted to a "corrective" post-process (with the Markov model and a Branch&Bound algorithm for pruning the tree) which improves the quality of the solution.

Research paper thumbnail of Pré-traitements classiques ou par analyse distributionnelle : application aux méthodes de classification automatique déployées pour DEFT08

Research paper thumbnail of Expérimentations et évaluations en fouille de textes : Un panorama des campagnes DEFT

Research paper thumbnail of Automatic Profiling System for Ranking Candidates Answers in Human Resources

Lecture Notes in Computer Science, 2008

The exponential growth of Internet allowed the development of a market of online job search sites... more The exponential growth of Internet allowed the development of a market of online job search sites. This work aims at presenting the E-Gen system (Automatic Job Offer Processing system for Human Resources). E-Gen will implement several complex tasks: an analysis and categorization of jobs offers which are unstructured text documents (e-mails of job offers possibly with an attached document), an analysis and a relevance ranking of the candidate answers. We present a strategy to resolve the last task: After a process of filtering and lemmatisation, we use vectorial representation and different similarity measures. The quality of ranking obtained is evaluated using ROC curves.

Research paper thumbnail of E-Gen: Automatic Job Offer Processing System for Human Resources

Lecture Notes in Computer Science, 2007

The exponential growth of the Internet has allowed the development of a market of on-line job sea... more The exponential growth of the Internet has allowed the development of a market of on-line job search sites. This paper aims at presenting the E-Gen system (Automatic Job Offer Processing system for Human Resources). E-Gen will implement two complex tasks: an analysis and categorisation of job postings, which are unstructured text documents (e-mails of job listings possibly with an attached document), an analysis and a relevance ranking of the candidate answers (cover letter and curriculum vitae). This paper aims to present a strategy to resolve the first task: after a process of filtering and lemmatisation, we use vectorial representation before generating a classification with Support Vector Machines. This first classification is afterwards transmitted to a �correc-tive� post-process which improves the quality of the solution.

Research paper thumbnail of Classification automatique de courriers électroniques par des méthodes mixtes d'apprentissage

Ingénierie des systèmes d'information, 2006

Les nouvelles formes de communication écrite (courriels, forums, chats, SMS, etc.) ont introduit ... more Les nouvelles formes de communication écrite (courriels, forums, chats, SMS, etc.) ont introduit des défis considérables pour leur traitement automatique. Ces données présentent des phénomènes linguistiques bien particuliers : messages trop courts, très bruités... Nous présentons des recherches destinées à créer des outils et des ressources génériques pour la classification de courriels. Nous nous attachons à traiter dans cette étude des problèmes posés par le routage précis de courriels. Après un processus de filtrage et de lemmatisation, nous utilisons la représentation vectorielle de textes avant d'effectuer la classification par des approches supervisées, semi-supervisées et non supervisées. Lors des tests, nous avons obtenu de très bonnes performances sur des corpus réalistes. ABSTRACT. New forms of written communication (electronic mail, forum, chat, SMS, etc.) are new challenges for Natural Language Processing methods. These data present very particular linguistic phenomena: too short and very noised messages... This paper focuses on the development of generic tools and resources for e-mails classification. This study deals with the problems of the precise routing of e-mails. After a filtering and lemmatization step, vectorial representation of texts is used for classification purpose by means of supervised, semi-supervised and unsupervised learning techniques. Very good results are presented on realistic corpora. MOTS-CLÉS : apprentissage supervisé et non supervisé, machines à vecteurs de support (SVM), fuzzy k-means, classification de textes, routage automatique de courriels.

Research paper thumbnail of Extraction de dates saillantes pour la construction de chronologies thématiques

ABSTRACT We present an approach for detecting salient (important) dates in texts in order to auto... more ABSTRACT We present an approach for detecting salient (important) dates in texts in order to automatically build event timelines from a search query (e.g. the name of an event or person, etc.). This work was carried out on a corpus of newswire texts in English provided by the Agence France Presse (AFP). In order to extract salient dates that warrant inclusion in an event timeline, we first recognize and normalize temporal expressions in texts and then use a machine-learning approach to extract salient dates that relate to a particular topic. For the time being, we have focused only on extracting the d ates and not the events to which they are related.

Research paper thumbnail of Encore des mots, toujours des mots: fouille de textes et visualisation de l’information pour l’exploration et l’analyse d’une collection de chansons en français

Research paper thumbnail of E-Gen : traitement automatique d'informations de ressources humaines

Research paper thumbnail of Job Offer Management: How Improve the Ranking of Candidates

Lecture Notes in Computer Science, 2009

The market of online job search sites grows exponentially. This implies volumes of information (m... more The market of online job search sites grows exponentially. This implies volumes of information (mostly in the form of free text) become manually impossible to process. An analysis and assisted categorization seems relevant to address this issue. We present E-Gen, a system which aims to perform assisted analysis and categorization of job offers and of the responses of candidates. This

Research paper thumbnail of A hybrid approach to managing job offers and candidates

Information Processing & Management, 2012

ABSTRACT The evolution of the job market has resulted in traditional methods of recruitment becom... more ABSTRACT The evolution of the job market has resulted in traditional methods of recruitment becoming insufficient. As it is now necessary to handle volumes of information (mostly in the form of free text) that are impossible to process manually, an analysis and assisted categorization are essential to address this issue. In this paper, we present a combination of the E-Gen and Cortex systems. E-Gen aims to perform analysis and categorization of job offers together with the responses given by the candidates. E-Gen system strategy is based on vectorial and probabilistic models to solve the problem of profiling applications according to a specific job offer. Cortex is a statistical automatic summarization system. In this work, E-Gen uses Cortex as a powerful filter to eliminate irrelevant information contained in candidate answers. Our main objective is to develop a system to assist a recruitment consultant and the results obtained by the proposed combination surpass those of E-Gen in standalone mode on this task.

Research paper thumbnail of E-Gen: traitement automatique des offres d'emploi

The exponential growth of the Internet has made the development of a market of on-line job search... more The exponential growth of the Internet has made the development of a market of on-line job search sites possible. This paper aims at presenting the E-Gen system (Automatic Job Offer Processing system for Human Resources). E-Gen will implement two complex tasks: an analysis and categorisation of job postings, which are unstructured text documents (e-mails of job listings, possibly with an attached document), an analysis and a relevance ranking of the candidate's answers (cover letter and curriculum vitae). This paper aims to present a strategy to resolve the first task: after a process of filtering and lemmatisation, we use vectorial representation before generating a classification with Support Vector Machines and n-grams of words. This first classification is then transmitted to a "corrective" post-process (with the Markov model and a Branch&Bound algorithm for pruning the tree) which improves the quality of the solution.

Research paper thumbnail of E-Gen: automatic profiling system for ranking candidates answers in Human Resources

Research paper thumbnail of Profilage de candidatures assisté par relevance Feedback

Le marché d'offres d'emploi et des candidatures sur Internet a eu une croissance exponentielle. C... more Le marché d'offres d'emploi et des candidatures sur Internet a eu une croissance exponentielle. Ceci implique des volumes d'information (majoritairement sous la forme de texte libre) intraitables manuellement. Une analyse et catégorisation assistés nous semble pertinente pour répondre à cette problématique. Nous proposons E-Gen, système qui a pour but l'analyse et catégorisation assistés d'offres d'emploi et des réponses des candidats. Dans cet article nous présentons plusieurs stratégies, reposant sur les modèles vectoriel et probabiliste, afin de résoudre la problématique du profilage des candidatures en fonction d'une offre précise. Nous avons évalué une palette de mesures de similarité afin d'effectuer un classement pertinent des candidatures au moyen des courbes ROC. L'utilisation de relevance feedback a permis de surpasser nos résultats sur ce problème difficile, divers et sujet à une grande subjectivité.

Research paper thumbnail of Classification thématique de courriels avec apprentissage supervisé, semi-supervisé et non supervisé

Les nouvelles formes de communication écrite (courriers électroniques, forums, chats, SMS, etc.) ... more Les nouvelles formes de communication écrite (courriers électroniques, forums, chats, SMS, etc.) présentent des défis considérables pour leur traitement automatique. Nous présentons des recherches destinées à créer des outils et des ressources génériques pour la classification de courriels. La capacité d'une entreprise de gérer efficacement, rapidement et à moindre coût, ces flux d'informations devient un enjeu majeur pour la satisfaction des clients. Ceci nécessite, en particulier, de disposer d'outils informatiques permettant notamment le routage pour acheminer les courriels vers le destinataire concerné et l'automatisation de réponses. Nous nous attachons à traiter dans cette étude des problèmes posés par le routage précis de courriels. Après un processus puissant de filtrage et de lemmatisation, nous utilisons la représentation vectorielle de textes avant d'effectuer la classification par des approches supervisées, semi supervisées et non supervisées. Nous avons trouvé, par ailleurs, une initialisation semi supervisée qui optimise l'apprentissage non supervisé. Lors des tests préli-minaires, nous avons obtenu de très bonnes performances sur des corpus réalistes.

Research paper thumbnail of Système du LIA pour la campagne DEFT’10: datation et localisation d’articles de presse francophones

Research paper thumbnail of E-Gen: Profilage automatique de candidatures

La croissance exponentielle de l'Internet a permis le développement de sites d'offres d'emploi en... more La croissance exponentielle de l'Internet a permis le développement de sites d'offres d'emploi en ligne. Le système E-Gen (Traitement automatique d'offres d'emploi) a pour but de permettre l'analyse et la catégorisation d'offres d'emploi ainsi qu'une analyse et classification des réponses des candidats (Lettre de motivation et CV). Nous présentons les travaux réalisés afin de résoudre la seconde partie : on utilise une représentation vectorielle de texte pour effectuer une classification des pièces jointes contenus dans le mail à l'aide de SVM. Par la suite, une évaluation de la candidature est effectuée à l'aide de différents classifieurs (SVM et n-grammes de mots).