Gilles Hubert - Academia.edu (original) (raw)
Papers by Gilles Hubert
The powerful and democratic activity of social tagging allows the wide set of Web users to add fr... more The powerful and democratic activity of social tagging allows the wide set of Web users to add free annotations on resources. Tags express user interests, preferences and needs, but also automatically generate folksonomies. They can be considered as gold mine, especially for e-commerce applications, in order to provide effective recommendations. Thus, several recommender systems exploit folksonomies in this context. Folksonomies have also been involved in many information retrieval approaches. In considering that information retrieval and recommender systems are siblings, we notice that few works deal with the integration of their approaches, concepts and techniques to improve recommendation. This paper is a first attempt in this direction. We propose a trail through recommender systems, social Web, e-commerce and social commerce, tags and information retrieval: an overview on the methodologies, and a survey on folksonomy-based information retrieval from recommender systems point of view, delineating a set of open and new perspectives.
Les systèmes décisionnels reposent sur des bases de données multidimensionnelles qui offrent un c... more Les systèmes décisionnels reposent sur des bases de données multidimensionnelles qui offrent un cadre adéquat aux analyses OLAP. L'article présente un nouvel opérateur OLAP nommé « BLEND » rendant possible des analyses multigraduelles. Il s'agit de transformer la structuration multidimensionnelle lors des interrogations pour analyser les mesures selon des niveaux de granularité différents recombinées comme un même paramètre. Nous menons une étude des combinaisons valides de l'opération dans le contexte des hiérarchies strictes. Enfin, une première série d'expérimentations implante l'opération dans le contexte R-OLAP en montrant le faible coût de l'opération.
Lecture Notes in Computer Science, 2005
This paper describes the retrieval approach proposed by the SIG/EVI group of the IRIT research ce... more This paper describes the retrieval approach proposed by the SIG/EVI group of the IRIT research centre in INEX’2004 evaluation. The approach uses a voting method coupled with some processes to answer content only and content and structure queries. This approach is based on previous works we leaded in the context of automatic text categorization.
Lecture Notes in Computer Science, 2007
... Previous INEX Testbeds Gilles Hubert ... 187195. Springer, Heidelberg (2006) [10] Mihajlović... more ... Previous INEX Testbeds Gilles Hubert ... 187195. Springer, Heidelberg (2006) [10] Mihajlović, V., Ramírez, G., Westerveld, T., Hiemstra, D., Blok, HE, de Vries, AP: TIJAH Scratches INEX 2005: Vague Element Selection, Image Search, Overlap, and Relevance Feedback. ...
International Conference on Enterprise Information Systems, 2007
This paper explores information retrieval system variability and takes advantage of the fact two ... more This paper explores information retrieval system variability and takes advantage of the fact two systems can retrieve different documents for a given query. More precisely, our approach is based on data fusion (fusion of system results) by taking into account local performances of each system. Our method considers the relevance of the very first documents retrieved by different systems and from this information selects the system that will perform the retrieval for the user. We found that this principle improves the performances of about 9%. Evaluation is based on different years of TREC evaluation program (TREC 3, 5, 6 and 7), TREC-adhoc tracks. It considers the two and five best systems that participate to TREC the corresponding year.
Nous démontrons que l'utilisation d'une ontologie normée selon le domaine d'application permet d'... more Nous démontrons que l'utilisation d'une ontologie normée selon le domaine d'application permet d'améliorer significativement la Classification automatique de textes (CAT). Nous utilisons le Extensible Business Reporting Language (XBRL) pour définir une ontologie normée et comparons la performance d'un engin de CAT (IBM Classification Module v.8.6) face à 2 autres listes de concepts, soient simple et hiérarchique. Notre échantillon de nouvelles financières est tiré du Reuters Corpus Volume 1 (RCV1), où 2 experts en finance nous aident à coder 1 000 des 45 000 nouvelles portant sur les fusions et acquisitions. Nous rapportons le rappel, la précision, la mesure F, et en plus une mesure dite hiérarchique ajustée pour la pertinence de classification au niveau des classes parents, ainsi qu'une mesure plus détaillée évaluant l'amélioration de la classification au niveau de chaque texte.
Lecture Notes in Computer Science, 1995
This paper presents a conceptual object-oriented model which allows to describe, in a unified fra... more This paper presents a conceptual object-oriented model which allows to describe, in a unified framework, objects, object versions and class versions. Three kinds of classes are used for such a modeling: object classes, version classes and versionable classes. This paper approaches, in greater details, the outcomes of representing links between these different kinds of classes. The considered links are inheritance,
Lecture Notes in Computer Science, 1998
Résumé Le développement des technologies du web sémantique laissent entrevoir de nombreuses appli... more Résumé Le développement des technologies du web sémantique laissent entrevoir de nombreuses applications avec, parmi une des plus importantes la recherche d'information (RI) sémantique. La RI sémantique s'appuie en particulier sur la représentation de connaissances de domaines formalisée sous forme de ressources terminologiques, de thésaurus ou d'ontologies. L'interopérabilité des systèmes et la réutilisation des ressources impliquent cependant d'adopter un format commun, ce qui n'est actuellement pas le cas. Cet article apporte une première solution à cette problématique. Après avoir présenté une méthodologie de transformation de thésaurus en ontologie légère, nous proposons des solutions techniques pour la mettre en oeuvre. Les thésaurus supportés peuvent être hétérogènes dans leur structure syntaxique pourvu qu'ils respectent les normes en vigueur.
Mots-clés : Recherche d'information, détection de la nouveauté, analyse de résultats, typolog... more Mots-clés : Recherche d'information, détection de la nouveauté, analyse de résultats, typologie de requêtes Key words : Information retrieval, novelty detection, analysis of IR results, typology of queries Palabras claves : Recuperación de datos, detección de la novedad, análisis de resultados, tipología de preguntas Résumé Les systèmes de recherche d'information visent à restituer l'information répondant à un besoin d'information que l'utilisateur exprime au travers d'une requête. Dans cet article, nous nous intéressons à la tâche de détection de la nouveauté dans les textes. Nous présentons les éléments d'une première étude sur les résultats de l'évaluation d'un ensemble de systèmes répondant à cette tâche dans le cadre du programme d'évaluation Text Retrieval Conference.
tél: 05 61 55 63 22 RÉSUMÉ. Cet article présente une méthode de catégorisation automatique de tex... more tél: 05 61 55 63 22 RÉSUMÉ. Cet article présente une méthode de catégorisation automatique de textes à partir de hiérarchies de concepts décrivant un domaine. Cette catégorisation se base sur deux composants essentiels : -la définition de représentants de catégories basée sur des principes d'apprentissage, -un mécanisme de vote qui permet de déterminer la ou les catégories les plus adéquates pour un document donné. Nous avons étudié l'influence de différents paramètres sur les résultats obtenus, en particulier les fonctions de choix des représentants des catégories. Les mécanismes proposés ainsi que les résultats obtenus sur la collection Reuters-21578 sont présentés dans cet article. ABSTRACT. This paper deals with a method for automatic categorisation of texts according to concept hierarchies that describe a domain. This categorisation is based upon two principal components: -the definition of category representatives resulting from learning, -a voting mechanism in order to determine the most suitable categories for a given document. We evaluate the influence of different parameters on the results including the methods used to select the terms to be added to the category representation. The performances that have been obtained using the Reuters-21578 corpus are reported in this paper. MOTS-CLÉS : Recherche d'information, hiérarchies de concepts, catégorisation automatique.
The powerful and democratic activity of social tagging allows the wide set of Web users to add fr... more The powerful and democratic activity of social tagging allows the wide set of Web users to add free annotations on resources. Tags express user interests, preferences and needs, but also automatically generate folksonomies. They can be considered as gold mine, especially for e-commerce applications, in order to provide effective recommendations. Thus, several recommender systems exploit folksonomies in this context. Folksonomies have also been involved in many information retrieval approaches. In considering that information retrieval and recommender systems are siblings, we notice that few works deal with the integration of their approaches, concepts and techniques to improve recommendation. This paper is a first attempt in this direction. We propose a trail through recommender systems, social Web, e-commerce and social commerce, tags and information retrieval: an overview on the methodologies, and a survey on folksonomy-based information retrieval from recommender systems point of view, delineating a set of open and new perspectives.
Les systèmes décisionnels reposent sur des bases de données multidimensionnelles qui offrent un c... more Les systèmes décisionnels reposent sur des bases de données multidimensionnelles qui offrent un cadre adéquat aux analyses OLAP. L'article présente un nouvel opérateur OLAP nommé « BLEND » rendant possible des analyses multigraduelles. Il s'agit de transformer la structuration multidimensionnelle lors des interrogations pour analyser les mesures selon des niveaux de granularité différents recombinées comme un même paramètre. Nous menons une étude des combinaisons valides de l'opération dans le contexte des hiérarchies strictes. Enfin, une première série d'expérimentations implante l'opération dans le contexte R-OLAP en montrant le faible coût de l'opération.
Lecture Notes in Computer Science, 2005
This paper describes the retrieval approach proposed by the SIG/EVI group of the IRIT research ce... more This paper describes the retrieval approach proposed by the SIG/EVI group of the IRIT research centre in INEX’2004 evaluation. The approach uses a voting method coupled with some processes to answer content only and content and structure queries. This approach is based on previous works we leaded in the context of automatic text categorization.
Lecture Notes in Computer Science, 2007
... Previous INEX Testbeds Gilles Hubert ... 187195. Springer, Heidelberg (2006) [10] Mihajlović... more ... Previous INEX Testbeds Gilles Hubert ... 187195. Springer, Heidelberg (2006) [10] Mihajlović, V., Ramírez, G., Westerveld, T., Hiemstra, D., Blok, HE, de Vries, AP: TIJAH Scratches INEX 2005: Vague Element Selection, Image Search, Overlap, and Relevance Feedback. ...
International Conference on Enterprise Information Systems, 2007
This paper explores information retrieval system variability and takes advantage of the fact two ... more This paper explores information retrieval system variability and takes advantage of the fact two systems can retrieve different documents for a given query. More precisely, our approach is based on data fusion (fusion of system results) by taking into account local performances of each system. Our method considers the relevance of the very first documents retrieved by different systems and from this information selects the system that will perform the retrieval for the user. We found that this principle improves the performances of about 9%. Evaluation is based on different years of TREC evaluation program (TREC 3, 5, 6 and 7), TREC-adhoc tracks. It considers the two and five best systems that participate to TREC the corresponding year.
Nous démontrons que l'utilisation d'une ontologie normée selon le domaine d'application permet d'... more Nous démontrons que l'utilisation d'une ontologie normée selon le domaine d'application permet d'améliorer significativement la Classification automatique de textes (CAT). Nous utilisons le Extensible Business Reporting Language (XBRL) pour définir une ontologie normée et comparons la performance d'un engin de CAT (IBM Classification Module v.8.6) face à 2 autres listes de concepts, soient simple et hiérarchique. Notre échantillon de nouvelles financières est tiré du Reuters Corpus Volume 1 (RCV1), où 2 experts en finance nous aident à coder 1 000 des 45 000 nouvelles portant sur les fusions et acquisitions. Nous rapportons le rappel, la précision, la mesure F, et en plus une mesure dite hiérarchique ajustée pour la pertinence de classification au niveau des classes parents, ainsi qu'une mesure plus détaillée évaluant l'amélioration de la classification au niveau de chaque texte.
Lecture Notes in Computer Science, 1995
This paper presents a conceptual object-oriented model which allows to describe, in a unified fra... more This paper presents a conceptual object-oriented model which allows to describe, in a unified framework, objects, object versions and class versions. Three kinds of classes are used for such a modeling: object classes, version classes and versionable classes. This paper approaches, in greater details, the outcomes of representing links between these different kinds of classes. The considered links are inheritance,
Lecture Notes in Computer Science, 1998
Résumé Le développement des technologies du web sémantique laissent entrevoir de nombreuses appli... more Résumé Le développement des technologies du web sémantique laissent entrevoir de nombreuses applications avec, parmi une des plus importantes la recherche d'information (RI) sémantique. La RI sémantique s'appuie en particulier sur la représentation de connaissances de domaines formalisée sous forme de ressources terminologiques, de thésaurus ou d'ontologies. L'interopérabilité des systèmes et la réutilisation des ressources impliquent cependant d'adopter un format commun, ce qui n'est actuellement pas le cas. Cet article apporte une première solution à cette problématique. Après avoir présenté une méthodologie de transformation de thésaurus en ontologie légère, nous proposons des solutions techniques pour la mettre en oeuvre. Les thésaurus supportés peuvent être hétérogènes dans leur structure syntaxique pourvu qu'ils respectent les normes en vigueur.
Mots-clés : Recherche d'information, détection de la nouveauté, analyse de résultats, typolog... more Mots-clés : Recherche d'information, détection de la nouveauté, analyse de résultats, typologie de requêtes Key words : Information retrieval, novelty detection, analysis of IR results, typology of queries Palabras claves : Recuperación de datos, detección de la novedad, análisis de resultados, tipología de preguntas Résumé Les systèmes de recherche d'information visent à restituer l'information répondant à un besoin d'information que l'utilisateur exprime au travers d'une requête. Dans cet article, nous nous intéressons à la tâche de détection de la nouveauté dans les textes. Nous présentons les éléments d'une première étude sur les résultats de l'évaluation d'un ensemble de systèmes répondant à cette tâche dans le cadre du programme d'évaluation Text Retrieval Conference.
tél: 05 61 55 63 22 RÉSUMÉ. Cet article présente une méthode de catégorisation automatique de tex... more tél: 05 61 55 63 22 RÉSUMÉ. Cet article présente une méthode de catégorisation automatique de textes à partir de hiérarchies de concepts décrivant un domaine. Cette catégorisation se base sur deux composants essentiels : -la définition de représentants de catégories basée sur des principes d'apprentissage, -un mécanisme de vote qui permet de déterminer la ou les catégories les plus adéquates pour un document donné. Nous avons étudié l'influence de différents paramètres sur les résultats obtenus, en particulier les fonctions de choix des représentants des catégories. Les mécanismes proposés ainsi que les résultats obtenus sur la collection Reuters-21578 sont présentés dans cet article. ABSTRACT. This paper deals with a method for automatic categorisation of texts according to concept hierarchies that describe a domain. This categorisation is based upon two principal components: -the definition of category representatives resulting from learning, -a voting mechanism in order to determine the most suitable categories for a given document. We evaluate the influence of different parameters on the results including the methods used to select the terms to be added to the category representation. The performances that have been obtained using the Reuters-21578 corpus are reported in this paper. MOTS-CLÉS : Recherche d'information, hiérarchies de concepts, catégorisation automatique.