Jean-Luc Minel | Université Paris Nanterre (original) (raw)

Papers by Jean-Luc Minel

Research paper thumbnail of ContextO: una plataforma informática para la extracción de información y el resumen automático de textos

La originalidad de nuestro proyecto consiste en darse los medios para acceder al contenido semánt... more La originalidad de nuestro proyecto consiste en darse los medios para acceder al contenido semántico de los textos con el objetivo de extraer secuencias particularmente pertinentes orientadas según un perfil de usuario. A esos efectos nos proponemos explotar conocimientos de naturaleza puramente lingüística, y más precisamente semántica, apoyándonos en el método de exploración contextual. La plataforma ContextO está actualmente operativa sobre textos en español y en francés tratando textos con un límite superior de 250 páginas.

Research paper thumbnail of ContextO, un outil du projet FilText orientée vers le filtrage sémantique de textes

... Page 6. 366 Figure 4 : Les différents composants de ContextO Références [ADAM 90] ADAM,JEAN-M... more ... Page 6. 366 Figure 4 : Les différents composants de ContextO Références [ADAM 90] ADAM,JEAN-MICHEL. (1990 ). Éléments de linguistique textuelle, Mardaga, Liège. ... Sfax, Tunisie. [MINEL 97] MINEL , JEAN-LUC, SYLVAINE NUGIER, GERALD PIAT. (1997). ...

Research paper thumbnail of Text Linguistics and Navigation

In this paper we address the problem of accessing text information by text navigation. We present... more In this paper we address the problem of accessing text information by text navigation. We present an approach to text navigation conceived as a cognitive process exploiting linguistic information present in texts. We claim that the navigational knowledge involved in this process can be modeled in a declarative way with the Sextant language. Since this language refers exhaustively to specific linguistic phenomena, we define a customized text representation. These different components have been implemented in the text navigation system NaviTexte. NaviLire, an application of NaviTexte is described.

Research paper thumbnail of Quelques éléments pour une synthèse

Sur le plan de la Linguistique, ou tout du moins dans le domaine du Traitement Automatique du Lan... more Sur le plan de la Linguistique, ou tout du moins dans le domaine du Traitement Automatique du Langage Naturel, et plus spécifiquement dans le domaine du résumé automatique, un constat s'est imposé ces dernières années. Il s'agit de la nécessité de construire les ressources linguistiques qui sont indispensables à tout traitement automatique. Mais il ne suffit pas de disposer de ressources génériques, comme l'équivalent de WordNet, par exemple, mais plutôt de ressources spécialisées et exhaustives dans le repérage ce certains « objets textuels » [JAC 02, POR 01]. Ces ressources peuvent aussi bien être des descriptions lexicales que des logiciels ou des composants « textuels ».

Research paper thumbnail of Le résumé automatique de textes: solutions et perspectives

Research paper thumbnail of Medium - Conception, réalisation et exploitation d'une base de données

Research paper thumbnail of Résumé automatique par filtrage sémantique d'informations dans des textes

L'originalité de notre projet est de se donner les moyens d'accéder au contenu sémantique des tex... more L'originalité de notre projet est de se donner les moyens d'accéder au contenu sémantique des textes, pour mieux les cibler et en extraire certaines séquences particulièrement pertinentes. A cet effet, nous nous proposons d'exploiter un savoir de nature purement linguistique, et plus précisément sémantique, en nous appuyant sur la technique d'exploration contextuelle. Le modèle conceptuel et le langage de description des connaissances linguistiques de la plate-forme FilText sont présentés, ainsi que son implémentation logicielle ContextO. Un exemple d'utilisation de ContextO, la production de résumé automatique, est détaillé. ABSTRACT : Our project aims to provide means to identify semantics in texts in order to extract relevant sequences. We present the contextual exploration method which exploits this kind of linguistic knowledge. The conceptual model and the descriptive language used in FilText are presented as well as the workstation ContextO. As an example of the use of ContextO, automatic summarization by semantic labeling is detailed. MOTS-CLÉS : Ingénierie linguistique, étiquetage sémantique, résumé et filtrage automatique, exploration contextuelle, connaissances causales, énoncés structurants.

Research paper thumbnail of Designing Tasks of Idenfitication of Complex Patterns Used for Text Semantic Filtering

Research paper thumbnail of L'identification des structures discursives engendrées par les cadres organisationnels

Cet article présente tout d'abord une analyse linguistique des cadres organisationnels et son imp... more Cet article présente tout d'abord une analyse linguistique des cadres organisationnels et son implémentation informatique. Puis à partir de ce travail, une modélisation généralisable à l'ensemble des cadres de discours est proposée. Enfin, nous discutons du concept d'indicateur proposé dans le cadre théorique de l'exploration contextuelle.

Research paper thumbnail of Designing Tasks of Identification of Complex Linguistic Patterns used for Text Semantic Filtering

This paper presents a model of representation of linguistic knowledge and tools to manipulate and... more This paper presents a model of representation of linguistic knowledge and tools to manipulate and to maintain such knowledge. The system BDContext which supports linguistic data acquisition is described as well as the language Ltext. This language dedicated to identifying complex patterns combines lexical markers and text structure constraints. Some applications for text filtering are succinctly described.

Research paper thumbnail of Filtrage sémantique. Du résumé à la fouille de textes

Research paper thumbnail of SEMANTIC FILTERING OF TEXTS. ISSUES, DESIGN AND ACHIEVEMENT OF A WORKSTATION

Research paper thumbnail of Interfaces dynamiques de fouilles textuelles: vers une plate-forme de navigation textuelle

Research paper thumbnail of How to Appreciate the Quality of Automatic Text Summarization? Examples of FAN and MLUCE Protocols and their Results on SERAPHIN

For the SERAPHIN project, we set up two assessment protocols in order to be able to more accurate... more For the SERAPHIN project, we set up two assessment protocols in order to be able to more accurately assess the quality of abstracts -the FAN protocol and the MLUCE protocol, for which we provide the results. The FAN protocol assesses the legibility of an abstract, independently from the source text. The MLUCE protocol is designed to allow users of automatic abstracts to assess their quality. These protocols were applied to a corpus of 27 texts which varied in length from between three and twelve pages. These texts were randomly chosen from EDF archives. They include both scientific and general press articles, extracts from books, and internal EDF notes. The results of the FAN protocol demonstrate the difficulty of using surface linguistic indicators to assess the quality of an abstract; the results of the MLUCE protocol illustrate the importance of user expectations.

Research paper thumbnail of Modèle d'exploration contextuelle pour l'analyse sémantique des textes

... sémantiques"; iii) un ensemble d'agents spécialisés dotés d'IHM et de connaiss... more ... sémantiques"; iii) un ensemble d'agents spécialisés dotés d'IHM et de connaissances qui exploitent ... Page 7. Modèle d'exploration contextuelle pour l'analyse sémantique de textes ... Les données linguistiques sont capitalisées dans un système de gestion de bases de données ...

Research paper thumbnail of Dynamic Interfaces for textual mining

Research paper thumbnail of Extraction de données à partir de pages HTML par création semi-automatique de règles XSLT

L'extraction des données à partir des sources web suscite un intérêt particulier ces dernières an... more L'extraction des données à partir des sources web suscite un intérêt particulier ces dernières années. Cependant il n'existe aucun standard, car les sources d'information Web restent très hétérogènes. Il y a quand même un point commun -elles sont toutes disponibles en format HTML pour être visualisées dans le navigateur client. Cet article présente une méthodologie et les outils associés d'extraction de données à partir de documents HTML. Notre approche est basée sur des technologies XML pour effectuer l'extraction des données, notamment XHTML et XSLT. Afin de valider notre méthodologie, nous avons créé une application nommée XPFE WRAPPER, un générateur semiautomatique de «wrappers 1 » qui a été développé sur la plate-forme XPFE de Mozilla [1].

Research paper thumbnail of Réflexions autour de l'identification, la modélisation et la visualisation de certaines organisations textuelles

Research paper thumbnail of NaviLire, Teaching French by Navigating in Texts

Research paper thumbnail of Supervised Data Extraction

The process of data extraction from internet sources have been originating the interest of the sc... more The process of data extraction from internet sources have been originating the interest of the scientific society for the past years. However there are still no well established standards because of the heterogeneous nature of the information in the Global Network. Nevertheless there is still something in common -all the data is available in HTML format for compatibility reasons. This article presents our methodology and the prototype system we've created to extract data from HTML pages. We use XPath as data extraction language and have developed a methodology for visual wrapper generation. Our approach takes advantage of the implicit correlation between the data and the surrounding structure. Some evaluation tests are given also in order justify our methods.

Research paper thumbnail of ContextO: una plataforma informática para la extracción de información y el resumen automático de textos

La originalidad de nuestro proyecto consiste en darse los medios para acceder al contenido semánt... more La originalidad de nuestro proyecto consiste en darse los medios para acceder al contenido semántico de los textos con el objetivo de extraer secuencias particularmente pertinentes orientadas según un perfil de usuario. A esos efectos nos proponemos explotar conocimientos de naturaleza puramente lingüística, y más precisamente semántica, apoyándonos en el método de exploración contextual. La plataforma ContextO está actualmente operativa sobre textos en español y en francés tratando textos con un límite superior de 250 páginas.

Research paper thumbnail of ContextO, un outil du projet FilText orientée vers le filtrage sémantique de textes

... Page 6. 366 Figure 4 : Les différents composants de ContextO Références [ADAM 90] ADAM,JEAN-M... more ... Page 6. 366 Figure 4 : Les différents composants de ContextO Références [ADAM 90] ADAM,JEAN-MICHEL. (1990 ). Éléments de linguistique textuelle, Mardaga, Liège. ... Sfax, Tunisie. [MINEL 97] MINEL , JEAN-LUC, SYLVAINE NUGIER, GERALD PIAT. (1997). ...

Research paper thumbnail of Text Linguistics and Navigation

In this paper we address the problem of accessing text information by text navigation. We present... more In this paper we address the problem of accessing text information by text navigation. We present an approach to text navigation conceived as a cognitive process exploiting linguistic information present in texts. We claim that the navigational knowledge involved in this process can be modeled in a declarative way with the Sextant language. Since this language refers exhaustively to specific linguistic phenomena, we define a customized text representation. These different components have been implemented in the text navigation system NaviTexte. NaviLire, an application of NaviTexte is described.

Research paper thumbnail of Quelques éléments pour une synthèse

Sur le plan de la Linguistique, ou tout du moins dans le domaine du Traitement Automatique du Lan... more Sur le plan de la Linguistique, ou tout du moins dans le domaine du Traitement Automatique du Langage Naturel, et plus spécifiquement dans le domaine du résumé automatique, un constat s'est imposé ces dernières années. Il s'agit de la nécessité de construire les ressources linguistiques qui sont indispensables à tout traitement automatique. Mais il ne suffit pas de disposer de ressources génériques, comme l'équivalent de WordNet, par exemple, mais plutôt de ressources spécialisées et exhaustives dans le repérage ce certains « objets textuels » [JAC 02, POR 01]. Ces ressources peuvent aussi bien être des descriptions lexicales que des logiciels ou des composants « textuels ».

Research paper thumbnail of Le résumé automatique de textes: solutions et perspectives

Research paper thumbnail of Medium - Conception, réalisation et exploitation d'une base de données

Research paper thumbnail of Résumé automatique par filtrage sémantique d'informations dans des textes

L'originalité de notre projet est de se donner les moyens d'accéder au contenu sémantique des tex... more L'originalité de notre projet est de se donner les moyens d'accéder au contenu sémantique des textes, pour mieux les cibler et en extraire certaines séquences particulièrement pertinentes. A cet effet, nous nous proposons d'exploiter un savoir de nature purement linguistique, et plus précisément sémantique, en nous appuyant sur la technique d'exploration contextuelle. Le modèle conceptuel et le langage de description des connaissances linguistiques de la plate-forme FilText sont présentés, ainsi que son implémentation logicielle ContextO. Un exemple d'utilisation de ContextO, la production de résumé automatique, est détaillé. ABSTRACT : Our project aims to provide means to identify semantics in texts in order to extract relevant sequences. We present the contextual exploration method which exploits this kind of linguistic knowledge. The conceptual model and the descriptive language used in FilText are presented as well as the workstation ContextO. As an example of the use of ContextO, automatic summarization by semantic labeling is detailed. MOTS-CLÉS : Ingénierie linguistique, étiquetage sémantique, résumé et filtrage automatique, exploration contextuelle, connaissances causales, énoncés structurants.

Research paper thumbnail of Designing Tasks of Idenfitication of Complex Patterns Used for Text Semantic Filtering

Research paper thumbnail of L'identification des structures discursives engendrées par les cadres organisationnels

Cet article présente tout d'abord une analyse linguistique des cadres organisationnels et son imp... more Cet article présente tout d'abord une analyse linguistique des cadres organisationnels et son implémentation informatique. Puis à partir de ce travail, une modélisation généralisable à l'ensemble des cadres de discours est proposée. Enfin, nous discutons du concept d'indicateur proposé dans le cadre théorique de l'exploration contextuelle.

Research paper thumbnail of Designing Tasks of Identification of Complex Linguistic Patterns used for Text Semantic Filtering

This paper presents a model of representation of linguistic knowledge and tools to manipulate and... more This paper presents a model of representation of linguistic knowledge and tools to manipulate and to maintain such knowledge. The system BDContext which supports linguistic data acquisition is described as well as the language Ltext. This language dedicated to identifying complex patterns combines lexical markers and text structure constraints. Some applications for text filtering are succinctly described.

Research paper thumbnail of Filtrage sémantique. Du résumé à la fouille de textes

Research paper thumbnail of SEMANTIC FILTERING OF TEXTS. ISSUES, DESIGN AND ACHIEVEMENT OF A WORKSTATION

Research paper thumbnail of Interfaces dynamiques de fouilles textuelles: vers une plate-forme de navigation textuelle

Research paper thumbnail of How to Appreciate the Quality of Automatic Text Summarization? Examples of FAN and MLUCE Protocols and their Results on SERAPHIN

For the SERAPHIN project, we set up two assessment protocols in order to be able to more accurate... more For the SERAPHIN project, we set up two assessment protocols in order to be able to more accurately assess the quality of abstracts -the FAN protocol and the MLUCE protocol, for which we provide the results. The FAN protocol assesses the legibility of an abstract, independently from the source text. The MLUCE protocol is designed to allow users of automatic abstracts to assess their quality. These protocols were applied to a corpus of 27 texts which varied in length from between three and twelve pages. These texts were randomly chosen from EDF archives. They include both scientific and general press articles, extracts from books, and internal EDF notes. The results of the FAN protocol demonstrate the difficulty of using surface linguistic indicators to assess the quality of an abstract; the results of the MLUCE protocol illustrate the importance of user expectations.

Research paper thumbnail of Modèle d'exploration contextuelle pour l'analyse sémantique des textes

... sémantiques"; iii) un ensemble d'agents spécialisés dotés d'IHM et de connaiss... more ... sémantiques"; iii) un ensemble d'agents spécialisés dotés d'IHM et de connaissances qui exploitent ... Page 7. Modèle d'exploration contextuelle pour l'analyse sémantique de textes ... Les données linguistiques sont capitalisées dans un système de gestion de bases de données ...

Research paper thumbnail of Dynamic Interfaces for textual mining

Research paper thumbnail of Extraction de données à partir de pages HTML par création semi-automatique de règles XSLT

L'extraction des données à partir des sources web suscite un intérêt particulier ces dernières an... more L'extraction des données à partir des sources web suscite un intérêt particulier ces dernières années. Cependant il n'existe aucun standard, car les sources d'information Web restent très hétérogènes. Il y a quand même un point commun -elles sont toutes disponibles en format HTML pour être visualisées dans le navigateur client. Cet article présente une méthodologie et les outils associés d'extraction de données à partir de documents HTML. Notre approche est basée sur des technologies XML pour effectuer l'extraction des données, notamment XHTML et XSLT. Afin de valider notre méthodologie, nous avons créé une application nommée XPFE WRAPPER, un générateur semiautomatique de «wrappers 1 » qui a été développé sur la plate-forme XPFE de Mozilla [1].

Research paper thumbnail of Réflexions autour de l'identification, la modélisation et la visualisation de certaines organisations textuelles

Research paper thumbnail of NaviLire, Teaching French by Navigating in Texts

Research paper thumbnail of Supervised Data Extraction

The process of data extraction from internet sources have been originating the interest of the sc... more The process of data extraction from internet sources have been originating the interest of the scientific society for the past years. However there are still no well established standards because of the heterogeneous nature of the information in the Global Network. Nevertheless there is still something in common -all the data is available in HTML format for compatibility reasons. This article presents our methodology and the prototype system we've created to extract data from HTML pages. We use XPath as data extraction language and have developed a methodology for visual wrapper generation. Our approach takes advantage of the implicit correlation between the data and the surrounding structure. Some evaluation tests are given also in order justify our methods.