Jean-Luc Minel | Université Paris Nanterre (original) (raw)
Papers by Jean-Luc Minel
La originalidad de nuestro proyecto consiste en darse los medios para acceder al contenido semánt... more La originalidad de nuestro proyecto consiste en darse los medios para acceder al contenido semántico de los textos con el objetivo de extraer secuencias particularmente pertinentes orientadas según un perfil de usuario. A esos efectos nos proponemos explotar conocimientos de naturaleza puramente lingüística, y más precisamente semántica, apoyándonos en el método de exploración contextual. La plataforma ContextO está actualmente operativa sobre textos en español y en francés tratando textos con un límite superior de 250 páginas.
... Page 6. 366 Figure 4 : Les différents composants de ContextO Références [ADAM 90] ADAM,JEAN-M... more ... Page 6. 366 Figure 4 : Les différents composants de ContextO Références [ADAM 90] ADAM,JEAN-MICHEL. (1990 ). Éléments de linguistique textuelle, Mardaga, Liège. ... Sfax, Tunisie. [MINEL 97] MINEL , JEAN-LUC, SYLVAINE NUGIER, GERALD PIAT. (1997). ...
In this paper we address the problem of accessing text information by text navigation. We present... more In this paper we address the problem of accessing text information by text navigation. We present an approach to text navigation conceived as a cognitive process exploiting linguistic information present in texts. We claim that the navigational knowledge involved in this process can be modeled in a declarative way with the Sextant language. Since this language refers exhaustively to specific linguistic phenomena, we define a customized text representation. These different components have been implemented in the text navigation system NaviTexte. NaviLire, an application of NaviTexte is described.
Sur le plan de la Linguistique, ou tout du moins dans le domaine du Traitement Automatique du Lan... more Sur le plan de la Linguistique, ou tout du moins dans le domaine du Traitement Automatique du Langage Naturel, et plus spécifiquement dans le domaine du résumé automatique, un constat s'est imposé ces dernières années. Il s'agit de la nécessité de construire les ressources linguistiques qui sont indispensables à tout traitement automatique. Mais il ne suffit pas de disposer de ressources génériques, comme l'équivalent de WordNet, par exemple, mais plutôt de ressources spécialisées et exhaustives dans le repérage ce certains « objets textuels » [JAC 02, POR 01]. Ces ressources peuvent aussi bien être des descriptions lexicales que des logiciels ou des composants « textuels ».
L'originalité de notre projet est de se donner les moyens d'accéder au contenu sémantique des tex... more L'originalité de notre projet est de se donner les moyens d'accéder au contenu sémantique des textes, pour mieux les cibler et en extraire certaines séquences particulièrement pertinentes. A cet effet, nous nous proposons d'exploiter un savoir de nature purement linguistique, et plus précisément sémantique, en nous appuyant sur la technique d'exploration contextuelle. Le modèle conceptuel et le langage de description des connaissances linguistiques de la plate-forme FilText sont présentés, ainsi que son implémentation logicielle ContextO. Un exemple d'utilisation de ContextO, la production de résumé automatique, est détaillé. ABSTRACT : Our project aims to provide means to identify semantics in texts in order to extract relevant sequences. We present the contextual exploration method which exploits this kind of linguistic knowledge. The conceptual model and the descriptive language used in FilText are presented as well as the workstation ContextO. As an example of the use of ContextO, automatic summarization by semantic labeling is detailed. MOTS-CLÉS : Ingénierie linguistique, étiquetage sémantique, résumé et filtrage automatique, exploration contextuelle, connaissances causales, énoncés structurants.
Cet article présente tout d'abord une analyse linguistique des cadres organisationnels et son imp... more Cet article présente tout d'abord une analyse linguistique des cadres organisationnels et son implémentation informatique. Puis à partir de ce travail, une modélisation généralisable à l'ensemble des cadres de discours est proposée. Enfin, nous discutons du concept d'indicateur proposé dans le cadre théorique de l'exploration contextuelle.
This paper presents a model of representation of linguistic knowledge and tools to manipulate and... more This paper presents a model of representation of linguistic knowledge and tools to manipulate and to maintain such knowledge. The system BDContext which supports linguistic data acquisition is described as well as the language Ltext. This language dedicated to identifying complex patterns combines lexical markers and text structure constraints. Some applications for text filtering are succinctly described.
For the SERAPHIN project, we set up two assessment protocols in order to be able to more accurate... more For the SERAPHIN project, we set up two assessment protocols in order to be able to more accurately assess the quality of abstracts -the FAN protocol and the MLUCE protocol, for which we provide the results. The FAN protocol assesses the legibility of an abstract, independently from the source text. The MLUCE protocol is designed to allow users of automatic abstracts to assess their quality. These protocols were applied to a corpus of 27 texts which varied in length from between three and twelve pages. These texts were randomly chosen from EDF archives. They include both scientific and general press articles, extracts from books, and internal EDF notes. The results of the FAN protocol demonstrate the difficulty of using surface linguistic indicators to assess the quality of an abstract; the results of the MLUCE protocol illustrate the importance of user expectations.
... sémantiques"; iii) un ensemble d'agents spécialisés dotés d'IHM et de connaiss... more ... sémantiques"; iii) un ensemble d'agents spécialisés dotés d'IHM et de connaissances qui exploitent ... Page 7. Modèle d'exploration contextuelle pour l'analyse sémantique de textes ... Les données linguistiques sont capitalisées dans un système de gestion de bases de données ...
L'extraction des données à partir des sources web suscite un intérêt particulier ces dernières an... more L'extraction des données à partir des sources web suscite un intérêt particulier ces dernières années. Cependant il n'existe aucun standard, car les sources d'information Web restent très hétérogènes. Il y a quand même un point commun -elles sont toutes disponibles en format HTML pour être visualisées dans le navigateur client. Cet article présente une méthodologie et les outils associés d'extraction de données à partir de documents HTML. Notre approche est basée sur des technologies XML pour effectuer l'extraction des données, notamment XHTML et XSLT. Afin de valider notre méthodologie, nous avons créé une application nommée XPFE WRAPPER, un générateur semiautomatique de «wrappers 1 » qui a été développé sur la plate-forme XPFE de Mozilla [1].
The process of data extraction from internet sources have been originating the interest of the sc... more The process of data extraction from internet sources have been originating the interest of the scientific society for the past years. However there are still no well established standards because of the heterogeneous nature of the information in the Global Network. Nevertheless there is still something in common -all the data is available in HTML format for compatibility reasons. This article presents our methodology and the prototype system we've created to extract data from HTML pages. We use XPath as data extraction language and have developed a methodology for visual wrapper generation. Our approach takes advantage of the implicit correlation between the data and the surrounding structure. Some evaluation tests are given also in order justify our methods.
La originalidad de nuestro proyecto consiste en darse los medios para acceder al contenido semánt... more La originalidad de nuestro proyecto consiste en darse los medios para acceder al contenido semántico de los textos con el objetivo de extraer secuencias particularmente pertinentes orientadas según un perfil de usuario. A esos efectos nos proponemos explotar conocimientos de naturaleza puramente lingüística, y más precisamente semántica, apoyándonos en el método de exploración contextual. La plataforma ContextO está actualmente operativa sobre textos en español y en francés tratando textos con un límite superior de 250 páginas.
... Page 6. 366 Figure 4 : Les différents composants de ContextO Références [ADAM 90] ADAM,JEAN-M... more ... Page 6. 366 Figure 4 : Les différents composants de ContextO Références [ADAM 90] ADAM,JEAN-MICHEL. (1990 ). Éléments de linguistique textuelle, Mardaga, Liège. ... Sfax, Tunisie. [MINEL 97] MINEL , JEAN-LUC, SYLVAINE NUGIER, GERALD PIAT. (1997). ...
In this paper we address the problem of accessing text information by text navigation. We present... more In this paper we address the problem of accessing text information by text navigation. We present an approach to text navigation conceived as a cognitive process exploiting linguistic information present in texts. We claim that the navigational knowledge involved in this process can be modeled in a declarative way with the Sextant language. Since this language refers exhaustively to specific linguistic phenomena, we define a customized text representation. These different components have been implemented in the text navigation system NaviTexte. NaviLire, an application of NaviTexte is described.
Sur le plan de la Linguistique, ou tout du moins dans le domaine du Traitement Automatique du Lan... more Sur le plan de la Linguistique, ou tout du moins dans le domaine du Traitement Automatique du Langage Naturel, et plus spécifiquement dans le domaine du résumé automatique, un constat s'est imposé ces dernières années. Il s'agit de la nécessité de construire les ressources linguistiques qui sont indispensables à tout traitement automatique. Mais il ne suffit pas de disposer de ressources génériques, comme l'équivalent de WordNet, par exemple, mais plutôt de ressources spécialisées et exhaustives dans le repérage ce certains « objets textuels » [JAC 02, POR 01]. Ces ressources peuvent aussi bien être des descriptions lexicales que des logiciels ou des composants « textuels ».
L'originalité de notre projet est de se donner les moyens d'accéder au contenu sémantique des tex... more L'originalité de notre projet est de se donner les moyens d'accéder au contenu sémantique des textes, pour mieux les cibler et en extraire certaines séquences particulièrement pertinentes. A cet effet, nous nous proposons d'exploiter un savoir de nature purement linguistique, et plus précisément sémantique, en nous appuyant sur la technique d'exploration contextuelle. Le modèle conceptuel et le langage de description des connaissances linguistiques de la plate-forme FilText sont présentés, ainsi que son implémentation logicielle ContextO. Un exemple d'utilisation de ContextO, la production de résumé automatique, est détaillé. ABSTRACT : Our project aims to provide means to identify semantics in texts in order to extract relevant sequences. We present the contextual exploration method which exploits this kind of linguistic knowledge. The conceptual model and the descriptive language used in FilText are presented as well as the workstation ContextO. As an example of the use of ContextO, automatic summarization by semantic labeling is detailed. MOTS-CLÉS : Ingénierie linguistique, étiquetage sémantique, résumé et filtrage automatique, exploration contextuelle, connaissances causales, énoncés structurants.
Cet article présente tout d'abord une analyse linguistique des cadres organisationnels et son imp... more Cet article présente tout d'abord une analyse linguistique des cadres organisationnels et son implémentation informatique. Puis à partir de ce travail, une modélisation généralisable à l'ensemble des cadres de discours est proposée. Enfin, nous discutons du concept d'indicateur proposé dans le cadre théorique de l'exploration contextuelle.
This paper presents a model of representation of linguistic knowledge and tools to manipulate and... more This paper presents a model of representation of linguistic knowledge and tools to manipulate and to maintain such knowledge. The system BDContext which supports linguistic data acquisition is described as well as the language Ltext. This language dedicated to identifying complex patterns combines lexical markers and text structure constraints. Some applications for text filtering are succinctly described.
For the SERAPHIN project, we set up two assessment protocols in order to be able to more accurate... more For the SERAPHIN project, we set up two assessment protocols in order to be able to more accurately assess the quality of abstracts -the FAN protocol and the MLUCE protocol, for which we provide the results. The FAN protocol assesses the legibility of an abstract, independently from the source text. The MLUCE protocol is designed to allow users of automatic abstracts to assess their quality. These protocols were applied to a corpus of 27 texts which varied in length from between three and twelve pages. These texts were randomly chosen from EDF archives. They include both scientific and general press articles, extracts from books, and internal EDF notes. The results of the FAN protocol demonstrate the difficulty of using surface linguistic indicators to assess the quality of an abstract; the results of the MLUCE protocol illustrate the importance of user expectations.
... sémantiques"; iii) un ensemble d'agents spécialisés dotés d'IHM et de connaiss... more ... sémantiques"; iii) un ensemble d'agents spécialisés dotés d'IHM et de connaissances qui exploitent ... Page 7. Modèle d'exploration contextuelle pour l'analyse sémantique de textes ... Les données linguistiques sont capitalisées dans un système de gestion de bases de données ...
L'extraction des données à partir des sources web suscite un intérêt particulier ces dernières an... more L'extraction des données à partir des sources web suscite un intérêt particulier ces dernières années. Cependant il n'existe aucun standard, car les sources d'information Web restent très hétérogènes. Il y a quand même un point commun -elles sont toutes disponibles en format HTML pour être visualisées dans le navigateur client. Cet article présente une méthodologie et les outils associés d'extraction de données à partir de documents HTML. Notre approche est basée sur des technologies XML pour effectuer l'extraction des données, notamment XHTML et XSLT. Afin de valider notre méthodologie, nous avons créé une application nommée XPFE WRAPPER, un générateur semiautomatique de «wrappers 1 » qui a été développé sur la plate-forme XPFE de Mozilla [1].
The process of data extraction from internet sources have been originating the interest of the sc... more The process of data extraction from internet sources have been originating the interest of the scientific society for the past years. However there are still no well established standards because of the heterogeneous nature of the information in the Global Network. Nevertheless there is still something in common -all the data is available in HTML format for compatibility reasons. This article presents our methodology and the prototype system we've created to extract data from HTML pages. We use XPath as data extraction language and have developed a methodology for visual wrapper generation. Our approach takes advantage of the implicit correlation between the data and the surrounding structure. Some evaluation tests are given also in order justify our methods.