Laurent Kevers | University of Corsica (original) (raw)
Papers by Laurent Kevers
The current situation regarding the existence of natural language processing (NLP) resources and ... more The current situation regarding the existence of natural language processing (NLP) resources and tools for Corsican reveals their virtual non-existence. Our inventory contains only a few rare digital resources, lexical or corpus databases, requiring adaptation work. Our objective is to use the Banque de Données Langue Corse project (BDLC) to improve the availability of resources and tools for the Corsican language and, in the long term, provide a complete Basic Language Ressource Kit (BLARK). We have defined a roadmap setting out the actions to be undertaken: the collection of corpora and the setting up of a consultation interface (concordancer), and of a language detection tool, an electronic dictionary and a part-of-speech tagger. The first achievements regarding these topics have already been reached and are presented in this article. Some elements are also available on our project page (http://bdlc.univ-corse.fr/tal/).
Anyone trying to gather linguistic resources for Natural Language Processing (NLP) will sooner or... more Anyone trying to gather linguistic resources for Natural Language Processing (NLP) will sooner or later be facing the legal aspects, mainly related to copyright, that arise from this activity. These difficulties often occur when collecting corpora, which is generally among the top priorities for processing less-resourced languages. While the current legislative framework is not adequate, it seems that positive developments are emerging. Various actions can also be considered to support this evolution.
Actes de la 26e conférence sur le Traitement automatique des langues naturelles (TALN). Toulouse, 2019
Nos recherches sur la langue corse nous amènent naturellement à envisager l'utilisation d'outils ... more Nos recherches sur la langue corse nous amènent naturellement à envisager l'utilisation d'outils pour le traitement automatique du langage. Après une brève introduction sur le corse et sur le projet qui constitue notre cadre de travail, nous proposons un état des lieux concernant l'application du TAL aux langues peu dotées, dont le corse. Nous définissons ensuite les actions qui peuvent être entreprises, ainsi que la manière dont elles peuvent s'intégrer dans le cadre de notre projet, afin de progresser vers la constitution de ressources et la construction d'outils pour le TAL corse.
ABSTRACT Tooling up a less-resourced language with NLP : the example of Corsican and BDLC Our research on the Corsican language naturally leads us to consider the use of NLP tools. After a brief introduction on Corsican and the project that constitutes our working environment, we propose an overview about the use of NLP for less-resourced languages, including Corsican. We then define the actions that can be undertaken, as well as how they can be integrated into our project, in order to progress towards the constitution of resources and the construction of tools for Corsican NLP.
Within our information society and economy, access to the growing bulk of electronic documents is... more Within our information society and economy, access to the growing bulk of electronic documents is a major concern. Surprisingly, information retrieval tools often only work on a classical search scheme, based on words. But, as a matter of fact, the relation between words and concepts can not always be reduced to a single link. A concept can be named by several expressions (« unemployed person » and « job-seeker »), and conversely one word can sometimes depict more than one concept (« carrot » as a vegetable or in geology). To cope with this difficulty, it might be interesting to represent documents in a concepts space in place of a words space. In this thesis we are proposing 3 methods designed to complete the documents representation with semantic data, which should allow for an improved access to the information. First, a (semi) automatic classification method was set up to index documents, using a set of defined categories (supervised classification). These categories, generally ...
Dans le contexte actuel d'une société et d'une économie centrées sur l'information, l'accès à la ... more Dans le contexte actuel d'une société et d'une économie centrées sur l'information, l'accès à la masse grandissante de documents électroniques est devenu un enjeu capital. De nombreux outils de recherche d'informations se contentent cependant d'un scénario de recherche classique, basé sur les mots. Pourtant, la relation entre un concept et son expression ne se limite pas toujours à un lien unique. Ainsi, un concept peut souvent être désigné par plusieurs expressions (« chômeur » et « demandeur d'emploi »), et inversement, un mot peut aussi parfois désigner plusieurs concepts différents (« carotte » en tant que légume ou en géologie). Afin de gérer cette difficulté, il peut être intéressant de représenter les documents non plus dans un espace de mots, mais dans un espace de concepts.
Dans cette thèse, nous proposons trois façons d'apporter des éléments de sens à la représentation des documents : une méthode de classification supervisée (semi-)automatique de documents, la prise en compte de manière particulière de certains éléments d'informations, comme le temps, et finalement un système d'indexation thématico-temporel qui montre l'intérêt, et les perspectives en termes applicatifs, de cette approche multidimensionnelle et sémantique de l'accès à l'information.
(EN) ”Semantic access to databases of documents. Natural language processing with symbolic techniques for thematic indexation and temporal information extraction”.
Within our information society and economy, access to the growing bulk of electronic documents is a major concern. Surprisingly, information retrieval tools often only work on a classical search scheme, based on words. But, as a matter of fact, the relation between words and concepts can not always be reduced to a single link. A concept can be named by several expressions (« unemployed person » and « job-seeker »), and conversely one word can sometimes depict more than one concept (« carrot » as a vegetable or in geology). To cope with this difficulty, it might be interesting to represent documents in a concepts space in place of a words space.
In this thesis we are proposing 3 methods designed to complete the documents representation with semantic data : a (semi) automatic supervised classification method was set up to index documents, the specific processing of some information items, such as time, and finally a thematic and temporal indexing system that outlines interest and perspectives for applications within this multidimensional and semantic approach.
10th International Conference on statistical analysis of textual data (JADT 2010), Jan 1, 2010
Dans le contexte de l'indexation semi-automatique de textes, nous présentons la comparaison et l... more Dans le contexte de l'indexation semi-automatique de textes, nous présentons la comparaison et la combinaison de deux méthodes de classification mettant en oeuvre des approches différentes : analyse par une méthode originale à forte composante linguistique que nous nommons motifs lexicaux étendus (MLE) d'une part et apprentissage artificiel SVM d'autre part. La classification est de type supervisée car elle exploite un ensemble de catégories définies par un thésaurus documentaire. Dans un premier temps, les deux systèmes sont appliqués et évalués séparément sur un même jeu de données réelles, des textes de type législatif et parlementaire en français. De manière quelque peu inattendue, la méthode MLE permet d'atteindre des performances tout à fait compétitives par rapport à la technique state-of-the-art que constitue SVM. Les méthodes sont ensuite combinées dans le but d'obtenir une performance finale supérieure aux performances individuelles. Le gain obtenu indique une complémentarité entre les deux méthodes.
Advances in Natural Language Processing, Jan 1, 2010
Abstract. This paper addresses the issue of semi-automatic patient dis-charge summaries encoding ... more Abstract. This paper addresses the issue of semi-automatic patient dis-charge summaries encoding into medical classifications such as ICD-9-CM. The methods detailed in this paper focus on symbolic approaches which allow the processing of unannotated corpora without any machine ...
… de CORIA09 (Sixième Conférence Francophone en …, Jan 1, 2009
Extraction et gestion des connaissances (EGC'2007), Namur, Belgique. Revue des Nouvelles Technologies de l'Information, RNTI-E-9, p. 373--378, 2007
Le projet B-Ontology a pour but l’extraction, l’organisati on et l’exploitation de connaissances ... more Le projet B-Ontology a pour but l’extraction, l’organisati on et l’exploitation de connaissances biographiques à partir de dépê ches de presse. Sa réalisation requiert l’intégration de diverses technolog ies, principalement l’extraction d’information, les ontologies et bases de connais sances, les techniques de data mining. Cet article propose un aperçu des choix réali sés dans le cadre du projet. Cette démarche permet également de définir un enviro nnement d’outils utiles pour les applications d’extraction et de gestion de c onnaissances.
Actes des 7èmes Journées …, Jan 1, 2007
Corpus et pragmatique. L'interaction verbale dans son contexte situationnel à la lumière des corp... more Corpus et pragmatique. L'interaction verbale dans son contexte situationnel à la lumière des corpus et des bases de données Université Albert-Ludwig de Fribourg en Brisgau |
L’extraction et la valorisation de données biographiques contenues dans les dépêches de presse es... more L’extraction et la valorisation de données biographiques contenues dans les dépêches de presse est un processus complexe. Pour l’appréhender correctement, une définition complète, précise et fonctionnelle de cette information est nécessaire. Or, la difficulté que l’on rencontre lors de l’analyse préalable de la tâche d’extraction réside dans l’absence d’une telle définition. Nous proposons ici des conventions dans le but d’en développer une. Le principal concept utilisé pour son expression est la structuration de l’information sous forme de triplets sujet, relation, objet. Le début de définition ainsi construit est exploité lors de l’étape d’extraction d’informations par transducteurs à états finis. Il permet également de suggérer une solution d’implémentation pour l’organisation des données extraites en base de connaissances.
Verbum ex machina: actes de la 13e Conférence sur …, Jan 1, 2006
Lingvisticae investigationes, Jan 1, 2005
RefDoc Bienvenue - Welcome. Refdoc est un service / is powered by. ...
Lingvisticae Investigationes, 2005
L'objectif de la recherche rapportee ici est de developper une technique d'extraction d&#... more L'objectif de la recherche rapportee ici est de developper une technique d'extraction d'information permettant de determiner automatiquement la valence affective de phrases qui mentionnent des noms de personnalites ou de societes. Pour ce faire un extracteur d'entites nommees est associe a un programme d'analyse lexicale faisant appel a des dictionnaires de valence affective. Un corpus de reference est etabli pour mesurer les performances du systeme propose en les comparant a des jugements humains.
The current situation regarding the existence of natural language processing (NLP) resources and ... more The current situation regarding the existence of natural language processing (NLP) resources and tools for Corsican reveals their virtual non-existence. Our inventory contains only a few rare digital resources, lexical or corpus databases, requiring adaptation work. Our objective is to use the Banque de Données Langue Corse project (BDLC) to improve the availability of resources and tools for the Corsican language and, in the long term, provide a complete Basic Language Ressource Kit (BLARK). We have defined a roadmap setting out the actions to be undertaken: the collection of corpora and the setting up of a consultation interface (concordancer), and of a language detection tool, an electronic dictionary and a part-of-speech tagger. The first achievements regarding these topics have already been reached and are presented in this article. Some elements are also available on our project page (http://bdlc.univ-corse.fr/tal/).
Anyone trying to gather linguistic resources for Natural Language Processing (NLP) will sooner or... more Anyone trying to gather linguistic resources for Natural Language Processing (NLP) will sooner or later be facing the legal aspects, mainly related to copyright, that arise from this activity. These difficulties often occur when collecting corpora, which is generally among the top priorities for processing less-resourced languages. While the current legislative framework is not adequate, it seems that positive developments are emerging. Various actions can also be considered to support this evolution.
Actes de la 26e conférence sur le Traitement automatique des langues naturelles (TALN). Toulouse, 2019
Nos recherches sur la langue corse nous amènent naturellement à envisager l'utilisation d'outils ... more Nos recherches sur la langue corse nous amènent naturellement à envisager l'utilisation d'outils pour le traitement automatique du langage. Après une brève introduction sur le corse et sur le projet qui constitue notre cadre de travail, nous proposons un état des lieux concernant l'application du TAL aux langues peu dotées, dont le corse. Nous définissons ensuite les actions qui peuvent être entreprises, ainsi que la manière dont elles peuvent s'intégrer dans le cadre de notre projet, afin de progresser vers la constitution de ressources et la construction d'outils pour le TAL corse.
ABSTRACT Tooling up a less-resourced language with NLP : the example of Corsican and BDLC Our research on the Corsican language naturally leads us to consider the use of NLP tools. After a brief introduction on Corsican and the project that constitutes our working environment, we propose an overview about the use of NLP for less-resourced languages, including Corsican. We then define the actions that can be undertaken, as well as how they can be integrated into our project, in order to progress towards the constitution of resources and the construction of tools for Corsican NLP.
Within our information society and economy, access to the growing bulk of electronic documents is... more Within our information society and economy, access to the growing bulk of electronic documents is a major concern. Surprisingly, information retrieval tools often only work on a classical search scheme, based on words. But, as a matter of fact, the relation between words and concepts can not always be reduced to a single link. A concept can be named by several expressions (« unemployed person » and « job-seeker »), and conversely one word can sometimes depict more than one concept (« carrot » as a vegetable or in geology). To cope with this difficulty, it might be interesting to represent documents in a concepts space in place of a words space. In this thesis we are proposing 3 methods designed to complete the documents representation with semantic data, which should allow for an improved access to the information. First, a (semi) automatic classification method was set up to index documents, using a set of defined categories (supervised classification). These categories, generally ...
Dans le contexte actuel d'une société et d'une économie centrées sur l'information, l'accès à la ... more Dans le contexte actuel d'une société et d'une économie centrées sur l'information, l'accès à la masse grandissante de documents électroniques est devenu un enjeu capital. De nombreux outils de recherche d'informations se contentent cependant d'un scénario de recherche classique, basé sur les mots. Pourtant, la relation entre un concept et son expression ne se limite pas toujours à un lien unique. Ainsi, un concept peut souvent être désigné par plusieurs expressions (« chômeur » et « demandeur d'emploi »), et inversement, un mot peut aussi parfois désigner plusieurs concepts différents (« carotte » en tant que légume ou en géologie). Afin de gérer cette difficulté, il peut être intéressant de représenter les documents non plus dans un espace de mots, mais dans un espace de concepts.
Dans cette thèse, nous proposons trois façons d'apporter des éléments de sens à la représentation des documents : une méthode de classification supervisée (semi-)automatique de documents, la prise en compte de manière particulière de certains éléments d'informations, comme le temps, et finalement un système d'indexation thématico-temporel qui montre l'intérêt, et les perspectives en termes applicatifs, de cette approche multidimensionnelle et sémantique de l'accès à l'information.
(EN) ”Semantic access to databases of documents. Natural language processing with symbolic techniques for thematic indexation and temporal information extraction”.
Within our information society and economy, access to the growing bulk of electronic documents is a major concern. Surprisingly, information retrieval tools often only work on a classical search scheme, based on words. But, as a matter of fact, the relation between words and concepts can not always be reduced to a single link. A concept can be named by several expressions (« unemployed person » and « job-seeker »), and conversely one word can sometimes depict more than one concept (« carrot » as a vegetable or in geology). To cope with this difficulty, it might be interesting to represent documents in a concepts space in place of a words space.
In this thesis we are proposing 3 methods designed to complete the documents representation with semantic data : a (semi) automatic supervised classification method was set up to index documents, the specific processing of some information items, such as time, and finally a thematic and temporal indexing system that outlines interest and perspectives for applications within this multidimensional and semantic approach.
10th International Conference on statistical analysis of textual data (JADT 2010), Jan 1, 2010
Dans le contexte de l'indexation semi-automatique de textes, nous présentons la comparaison et l... more Dans le contexte de l'indexation semi-automatique de textes, nous présentons la comparaison et la combinaison de deux méthodes de classification mettant en oeuvre des approches différentes : analyse par une méthode originale à forte composante linguistique que nous nommons motifs lexicaux étendus (MLE) d'une part et apprentissage artificiel SVM d'autre part. La classification est de type supervisée car elle exploite un ensemble de catégories définies par un thésaurus documentaire. Dans un premier temps, les deux systèmes sont appliqués et évalués séparément sur un même jeu de données réelles, des textes de type législatif et parlementaire en français. De manière quelque peu inattendue, la méthode MLE permet d'atteindre des performances tout à fait compétitives par rapport à la technique state-of-the-art que constitue SVM. Les méthodes sont ensuite combinées dans le but d'obtenir une performance finale supérieure aux performances individuelles. Le gain obtenu indique une complémentarité entre les deux méthodes.
Advances in Natural Language Processing, Jan 1, 2010
Abstract. This paper addresses the issue of semi-automatic patient dis-charge summaries encoding ... more Abstract. This paper addresses the issue of semi-automatic patient dis-charge summaries encoding into medical classifications such as ICD-9-CM. The methods detailed in this paper focus on symbolic approaches which allow the processing of unannotated corpora without any machine ...
… de CORIA09 (Sixième Conférence Francophone en …, Jan 1, 2009
Extraction et gestion des connaissances (EGC'2007), Namur, Belgique. Revue des Nouvelles Technologies de l'Information, RNTI-E-9, p. 373--378, 2007
Le projet B-Ontology a pour but l’extraction, l’organisati on et l’exploitation de connaissances ... more Le projet B-Ontology a pour but l’extraction, l’organisati on et l’exploitation de connaissances biographiques à partir de dépê ches de presse. Sa réalisation requiert l’intégration de diverses technolog ies, principalement l’extraction d’information, les ontologies et bases de connais sances, les techniques de data mining. Cet article propose un aperçu des choix réali sés dans le cadre du projet. Cette démarche permet également de définir un enviro nnement d’outils utiles pour les applications d’extraction et de gestion de c onnaissances.
Actes des 7èmes Journées …, Jan 1, 2007
Corpus et pragmatique. L'interaction verbale dans son contexte situationnel à la lumière des corp... more Corpus et pragmatique. L'interaction verbale dans son contexte situationnel à la lumière des corpus et des bases de données Université Albert-Ludwig de Fribourg en Brisgau |
L’extraction et la valorisation de données biographiques contenues dans les dépêches de presse es... more L’extraction et la valorisation de données biographiques contenues dans les dépêches de presse est un processus complexe. Pour l’appréhender correctement, une définition complète, précise et fonctionnelle de cette information est nécessaire. Or, la difficulté que l’on rencontre lors de l’analyse préalable de la tâche d’extraction réside dans l’absence d’une telle définition. Nous proposons ici des conventions dans le but d’en développer une. Le principal concept utilisé pour son expression est la structuration de l’information sous forme de triplets sujet, relation, objet. Le début de définition ainsi construit est exploité lors de l’étape d’extraction d’informations par transducteurs à états finis. Il permet également de suggérer une solution d’implémentation pour l’organisation des données extraites en base de connaissances.
Verbum ex machina: actes de la 13e Conférence sur …, Jan 1, 2006
Lingvisticae investigationes, Jan 1, 2005
RefDoc Bienvenue - Welcome. Refdoc est un service / is powered by. ...
Lingvisticae Investigationes, 2005
L'objectif de la recherche rapportee ici est de developper une technique d'extraction d&#... more L'objectif de la recherche rapportee ici est de developper une technique d'extraction d'information permettant de determiner automatiquement la valence affective de phrases qui mentionnent des noms de personnalites ou de societes. Pour ce faire un extracteur d'entites nommees est associe a un programme d'analyse lexicale faisant appel a des dictionnaires de valence affective. Un corpus de reference est etabli pour mesurer les performances du systeme propose en les comparant a des jugements humains.