Document Structure Research Papers - Academia.edu (original) (raw)

2025, Automation in Construction

Portal del coneixement obert de la UPC Aquesta és una còpia de la versió author's final draft d'un article publicat a la revista Automation in Construction. URL d'aquest document a UPCommons E-prints:

2025, Computer Networks

The growing acceptance of XML as a standard for semi-structured documents on the Web opens up challenging opportunities for Web query languages. In this paper we introduce XML-GL, a graphical query language for XML documents. The use of a... more

The growing acceptance of XML as a standard for semi-structured documents on the Web opens up challenging opportunities for Web query languages. In this paper we introduce XML-GL, a graphical query language for XML documents. The use of a visual formalism for representing both the content of XML documents (and of their DTDs) and the syntax and semantics of queries enables an intuitive expression of queries, even when they are rather complex. XML-GL is inspired by G-log, a general purpose, logic-based language for querying structured and semi-structured data. The paper presents the basic capabilities of XML-GL through a sequence of examples of increasing complexity.

2025, arXiv (Cornell University)

We show that, given a finitely generated group G as the coordinate group of a finite system of equations over a torsion-free hyperbolic group Γ, there is an algorithm which constructs a canonical solution diagram by constructing canonical... more

We show that, given a finitely generated group G as the coordinate group of a finite system of equations over a torsion-free hyperbolic group Γ, there is an algorithm which constructs a canonical solution diagram by constructing canonical (corrective extensions of) Γ-NTQ-groups. These groups are toral relatively hyperbolic Γ-limit groups. The diagram encodes all homomorphisms from G to Γ as compositions of factorizations through Γ-limit quotients (constructed by defining their generators inside canonical NTQ groups) and canonical automorphisms induced on the freely indecomposable factors of these quotients by canonical automorphisms of the corresponding NTQ-subgroups. Additionally, we show that a group is a Γ-limit group if and only if it is an iterated generalized double over Γ.

2025, Lecture Notes in Computer Science

In this paper, we present a method for the automatic extraction of numerical fields (zip codes, phone numbers, etc.) from incoming mail documents. The approach is based on a segmentation-driven recognition that aims at locating isolated... more

In this paper, we present a method for the automatic extraction of numerical fields (zip codes, phone numbers, etc.) from incoming mail documents. The approach is based on a segmentation-driven recognition that aims at locating isolated and touching digits among the textual information. A syntactical analysis is then performed on each line of text in order to filter the sequences that respect a particular syntax (number of digits, presence of separators) known by the system. We evaluate the performance of our system by means of the recall precision trade-off on a real incoming mail document database.

2025, Cyber Security - Indonesia

Cross-Site Scripting (XSS) remains one of the most prevalent web application security vulnerabilities despite decades of research and awareness. This paper presents a comprehensive analysis of XSS vulnerabilities, examining their... more

Cross-Site Scripting (XSS) remains one of the most prevalent web application security vulnerabilities despite decades of research and awareness. This paper presents a comprehensive analysis of XSS vulnerabilities, examining their evolution from simple attack vectors to sophisticated exploitation techniques that bypass modern defenses. Through systematic investigation of 120 real-world XSS vulnerabilities discovered between 2020-2024, we identify emerging patterns in attack methodologies and defense evasion techniques. This research introduces a novel classification framework for XSS vulnerabilities based on both attack delivery mechanisms and defensive context, allowing for more precise threat modeling. Additionally, we propose an enhanced Content Security Policy (CSP) implementation framework that demonstrated a 97.8% reduction in successful XSS exploitation during controlled testing across diverse web applications. Our findings indicate that while the fundamental nature of XSS vulnerabilities has remained consistent, the exploitation techniques and attack surfaces have evolved significantly, necessitating adaptive defense strategies that combine code-level protections with robust runtime enforcement mechanisms. This paper contributes to the security literature by bridging the gap between theoretical XSS defense models and practical implementation challenges in modern web applications.

2025, Lecture Notes in Computer Science

We propose an approach for efficient word retrieval from printed documents belonging to Digital Libraries. The approach combines word image clustering (based on Self Organizing Maps, SOM) with Principal Component Analysis. The combination... more

We propose an approach for efficient word retrieval from printed documents belonging to Digital Libraries. The approach combines word image clustering (based on Self Organizing Maps, SOM) with Principal Component Analysis. The combination of these methods allows us to efficiently retrieve the matching words from large documents collections without the need for a direct comparison of the query word with each indexed word.

2025

This note includes supporting material for Guilbault’s one-hour talk summarized elsewhere in these proceedings. We supply the group theory necessary to argue that Guilbault’s tame ends cannot be pseudocollared. In particular, we show that... more

This note includes supporting material for Guilbault’s one-hour talk summarized elsewhere in these proceedings. We supply the group theory necessary to argue that Guilbault’s tame ends cannot be pseudocollared. In particular, we show that certain groups (the interated Baumslag-Solitar groups) cannot have any non-trivial perfect subgroups. The absence of non-trivial perfect subgroups, in turn, eliminates the possibility of non-trivial homotopy equivalences. In contrast, we include an example of a pseudo-collared end based on groups (the interated Adam’s groups) that are somewhat similar to the Baumslag-Solitar groups. We close with a discussion of a homotopy theoretic approach to this construction.

2025, International Journal of Computer Applications

XML is recognized as a standard for data storage and exchange for web applications. This is because it has certain unique features like it is self describing, extensible and it is stored in the form of text document. In spite of all these... more

XML is recognized as a standard for data storage and exchange for web applications. This is because it has certain unique features like it is self describing, extensible and it is stored in the form of text document. In spite of all these unique features XML has an inherent limitation of verbosity. Because of the strong presence of XML in database technology and its inherent verbosity there is ever increasing need to design compact storage for XML which can be effectively utilized for efficient indexing and querying of XML. The proposed technique creates a structure index which is a compact summarization of the XML document and data index which groups and stores the contents of all similar paths at one place. Based on this compact storage a novel query algorithm is proposed which can answer xpath queries very efficiently. This approach dramatically reduces the storage requirement for XML coupled with efficient processing of xpath queries. The implementation of this technique and com...

2025, Proceedings of the London Mathematical Society

This paper generalizes our work on the structure of sets of solutions to systems of equations in a free group, projections of such sets, and the structure of elementary sets defined over a free group, to a general torsion-free (Gromov)... more

This paper generalizes our work on the structure of sets of solutions to systems of equations in a free group, projections of such sets, and the structure of elementary sets defined over a free group, to a general torsion-free (Gromov) hyperbolic group. In particular, we show that every definable set over such a group is in the Boolean algebra generated by AE sets, prove that hyperbolicity is a first order invariant of a finitely generated group, and obtain a classification of the elementary equivalence classes of torsion-free hyperbolic groups. Finally, we present an effective procedure to decide if two given torsion-free hyperbolic groups are elementarily equivalent.

2025, Israel Journal of Mathematics

This paper is the second in a series on the structure of sets of solutions to systems of equations in a free group, projections of such sets, and the structure of elementary sets defined over a free group. In the second paper we... more

This paper is the second in a series on the structure of sets of solutions to systems of equations in a free group, projections of such sets, and the structure of elementary sets defined over a free group. In the second paper we generalize Merzlyakov's theorem on the existence of a formal solution associated with a positive sentence [Me]. We first construct a formal solution to a general AE sentence which is known to be true over some variety, and then develop tools that enable us to analyze the collection of all such formal solutions.

2025, Lecture Notes in Computer Science

There are obvious ways in which text and diagrams within a document should be coordinated: for instance, the placement of a diagram might influence the wording of the text. However, there is a more subtle interaction between text and... more

There are obvious ways in which text and diagrams within a document should be coordinated: for instance, the placement of a diagram might influence the wording of the text. However, there is a more subtle interaction between text and diagrams, which has emerged from work on generating technical documents that make extensive use of layout. Constituents that would normally be classified as textual may contain diagrammatic features (e.g., when multiple indenting is used); conversely, non-pictorial diagrams usually contain short strings of text (e.g., labels within boxes). We argue that text and diagrams really lie on a continuum, and that for generating documents of this kind we need a descriptive framework that combines linguistic and graphical features in the same representation.

2025, Computational Linguistics

We argue the case for abstract document structure as a separate descriptive level in the analysis and generation of written texts. The purpose of this representation is to mediate between the message of a text (i.e., its discourse... more

We argue the case for abstract document structure as a separate descriptive level in the analysis and generation of written texts. The purpose of this representation is to mediate between the message of a text (i.e., its discourse structure) and its physical presentation (i.e., its organization into graphical constituents like sections, paragraphs, sentences, bulleted lists, figures, and footnotes). document structure can be seen as an extension of Nunberg's “text-grammar” it is also closely related to “logical” markup in languages like HTML and LaTEX. We show that by using this intermediate representation, several subtasks in language generation and language understanding can be defined more cleanly.

2025, Traitement Automatique des Langues

To produce coherent linear documents, Natural Language Generation systems have traditionally exploited the structuring role of textual discourse markers such as relational and referential phrases. These coherence markers of the... more

To produce coherent linear documents, Natural Language Generation systems have traditionally exploited the structuring role of textual discourse markers such as relational and referential phrases. These coherence markers of the traditional notion of text, however, do not work in non-linear documents: a new set of graphical devices is needed together with formation rules to govern their usage, supported by sound theoretical frameworks. If in linear documents graphical devices such as layout and formatting complement textual devices in ...

2025, Text REtrieval Conference

This study investigated the effect on retrieval performance of two methods of combination of multiple representations of TREC topics. Five separate Boolean queries for each of the 50 TREC routing topics and 25 of the TREC ad hoc topics... more

This study investigated the effect on retrieval performance of two methods of combination of multiple representations of TREC topics. Five separate Boolean queries for each of the 50 TREC routing topics and 25 of the TREC ad hoc topics were generated by 75 experienced online searchers. Using the INQUERY retrieval system, these queries were both combined into single queries, and used to produce five separate retrieval results, for each topic. In the former case, results indicate that progressive combination of queries leads to progressively improving retrieval performance, significantly better than that of single queries, and at least as good as the best individual single query formulations. In the latter case, data fusion of the ranked lists also led to performance better than that of any single list.

2025, International Conference on Computational Linguistics

This demo presents the TextCoop platform and the Dislog language, based on logic programming, which have primarily been designed for discourse processing. The linguistic architecture and the basics of discourse analysis in TextCoop are... more

This demo presents the TextCoop platform and the Dislog language, based on logic programming, which have primarily been designed for discourse processing. The linguistic architecture and the basics of discourse analysis in TextCoop are introduced. Application demos include: argument mining in opinon texts, dialog analysis, and procedural and requirement texts analysis. Via prototypes in the industry, this framework has now reached the TRL5 level.

2025

Une universite abrite differents acteurs qui ont recours a des systemes de ressources documentaires, des systemes de production d'information, des systemes de recherche d'information. Le recours a l'entrepot de donnees(ED)... more

Une universite abrite differents acteurs qui ont recours a des systemes de ressources documentaires, des systemes de production d'information, des systemes de recherche d'information. Le recours a l'entrepot de donnees(ED) permet de proposer des solutions pour faire evoluer un Systeme d'Information(SI) en un Systeme d'Information Strategique (SIS). La prise en compte de notre modele de representation de l'utilisateur RU=(T, F, B, A) est traduit par des meta donnees. Nous elaborons egalement les meta donnees propres a l'(ED) qui definissent les meta donnees structurelles et d'accessibilite propres au systeme de pilotage. Afin de proceder au mieux au developpement de notre contribution au (SIS), la meta modelisation de l'(ED) permet d'elaborer un schema directeur pour la construction de l'(ED).

2025

RÉSUMÉ Une université abrite différents acteurs qui ont recours à des systèmes de ressources documentaires, des systèmes de production d'information, des systèmes de recherche d'information. Le recours à l'entrepôt de... more

RÉSUMÉ Une université abrite différents acteurs qui ont recours à des systèmes de ressources documentaires, des systèmes de production d'information, des systèmes de recherche d'information. Le recours à l'entrepôt de données(ED) permet de proposer des solutions pour faire évoluer un Système d'Information(SI) en un Système d'Information Stratégique (SIS). La prise en compte de notre modèle de représentation de l'utilisateur RU=(T, F, B, A) est traduit par des méta données. Nous élaborons également les méta données propres à l'(ED) qui définissent les méta données structurelles et d'accessibilité propres au système de pilotage. Afin de procéder au mieux au développement de notre contribution au (SIS), la méta modélisation de l'(ED) permet d'élaborer un schéma directeur pour la construction de l'(ED). ABSTRACT . A university have various actors who use systems of documentary resources, systems of production of information, systems of informa...

2025

Une université abrite différents acteurs qui ont recours à des systèmes de ressources documentaires, des systèmes de production d'information, des systèmes de recherche d'information. Au sein de cette même université, cohabitent de... more

Une université abrite différents acteurs qui ont recours à des systèmes de ressources documentaires, des systèmes de production d'information, des systèmes de recherche d'information. Au sein de cette même université, cohabitent de nombreux Systèmes d'Information (SI) spécifiques aux besoins des composantes qui la constituent. Ces (SI) éparses abritent des informations qui peuvent être utiles aux composantes voisines. Le recours à l'entrepôt de données permet de proposer des solutions pour faire évoluer un Système d'Information en un Système d'Information Stratégique (SIS) voire en un Système d'Information Décisionnel (SID). Nous nous intéressons plus particulièrement à la classification des acteurs de l'université basée sur leurs activités pour la construction des bases métiers et d'un entrepôt de données. Dans notre cas, il s'agit de mettre à disposition des décideurs de l'université des informations synthétiques autour d'indicateurs choisis par eux, pour leur permettre de réaliser des tableaux de bord, afin de procéder à des constats, des suivis d'opérations et de prévisions ou pour mettre en évidence des causes de certains faits. L'analyse des rôles des différents acteurs, en situation de recherche d'information, nous permet de dresser des métadonnées, afin de prendre en compte le comportement des utilisateurs lors de la constitution de l'entrepôt de données et l'amélioration du Système d'Information.

2025

Meta datos, sistemas de información estratégica, almacén de datos, modelado de Meta. Les sources documentaires sous forme d'informations primaires, d'informations secondaires, d'informations tertiaires et d'informations à valeur ajoutée... more

Meta datos, sistemas de información estratégica, almacén de datos, modelado de Meta. Les sources documentaires sous forme d'informations primaires, d'informations secondaires, d'informations tertiaires et d'informations à valeur ajoutée sont désormais disponibles par les nouvelles technologies d'information. Pour caractériser correctement les informations issues de base de données et permettre de produire de la connaissance, une première étape, communément admise, est de caractériser les données par des métas données c'est-à-dire des données sur les données. Une vision intéressante dans l'approche du décisionnel consiste à mettre l'acteur du système d'informations (SI) au centre du problème. La méta modélisation permet de décrire les objectifs de l'utilisateur, ses différentes activités et ses besoins dans la modélisation d'un système -d'informations stratégiques (S-IS). Les métas connaissances pour la représentation des connaissances du domaine d'application relèvent de la méta base chargée de contenir les structures des bases métiers. Ces bases métiers sont utilisées pour l'exploration des contenus des bases et pour des analyses décisionnelles. Les connaissances ou les informations contenues dans la méta base portent sur les attributs nécessaires pour les explorations et les analyses multidimensionnelles. Dans cet article nous explicitons les trois niveaux se modélisation d'un SIS et des acteurs impliqués dans le SIS.

2025

Our study relates to the constitution of a pole of documentary resources, within a teaching framework intended for the training and research taking account the user. From the EQuA²te model, elaborated within the SITE team, we observe... more

Our study relates to the constitution of a pole of documentary resources, within a teaching framework intended for the training and research taking account the user. From the EQuA²te model, elaborated within the SITE team, we observe several processes in information search activities, from which we will benefit for building our datamarts. We propose a system of investigation based on the activities of university actors where the decision-making is allocated to the user.

2025

Nous abordons une nouvelle gouvernance des universites en empruntant le processus d'intelligence economique pour faire evoluer un systeme d'information universitaire en un systeme d'information strategique universitaire. Le... more

Nous abordons une nouvelle gouvernance des universites en empruntant le processus d'intelligence economique pour faire evoluer un systeme d'information universitaire en un systeme d'information strategique universitaire. Le transfert d'un systeme d'information en systeme d'information decisionnel repose sur les bases metiers orientees vers les acteurs de l'universite par la prise en compte de la modelisation des utilisateurs. Le developpement d'un systeme d'information global de l'universite doit tenir compte de l'evolutivite du contexte de l'universite et de la prise en compte des systemes d'information alternatifs. Par notre contribution, nous etudions les processus propres a l'organisation, les processus propres a l'enseignant et les processus propres a l'etudiant pour modeliser les utilisateurs d'un systeme d'information strategique universitaire. La description des ressources electroniques inspiree en parti...

2025

Le transfert d'un système d'information en système d'information décisionnel repose sur les bases métiers orientées vers les acteurs de l'université par la prise en compte de la modélisation des utilisateurs. Le développement d'un portail... more

Le transfert d'un système d'information en système d'information décisionnel repose sur les bases métiers orientées vers les acteurs de l'université par la prise en compte de la modélisation des utilisateurs. Le développement d'un portail de l'université tient compte de l'évolutivité du contexte de l'université et de la prise en compte des systèmes d'information alternatifs. La description des ressources électroniques et la modélisation des acteurs montrent aujourd'hui la complémentarité de deux univers : les mondes de l'indexation et les mondes du décisionnel reliés par les entrepôts de données. A partir d'une expérimentation pour aider l'acteur «enseignant-chercheur» à enrichir un état de l'art par une fouille de données à partir d'un entrepôt de données, nous montrons les possibilités d'exploitation de données qui font partie de la partie immergée d'un système d'information universitaire. Nous portons les résultats de l'expérimentation au travers d'une application développée à partir d'un produit en open source Openi pour enrichir un espace numérique de travail d'un service d'analyses multidimensionnelles adaptées aux différents acteurs du portail de l'université.

2025

Résumé. Nous abordons une nouvelle gouvernance des universités pour faire évoluer un système d'information universitaire en un système d'information stratégique universitaire. Le transfert d'un système d'information en... more

Résumé. Nous abordons une nouvelle gouvernance des universités pour faire évoluer un système d'information universitaire en un système d'information stratégique universitaire. Le transfert d'un système d'information en système d'information décisionnel repose sur les bases métiers orientées vers les acteurs de l'université par la prise en compte de la modélisation des utilisateurs. Le développement d'un système d'information global de l'université doit tenir compte de l'évolutivité du contexte de l'université et de la prise en compte des systèmes d'information alternatifs. La question «Comment intégrer la représentation de l'utilisateur dans un Système d'Information Stratégique ?» guide notre démarche. Notre modèle «RUBICUBE» sert de point d'ancrage pour une expérimentation qui met en relief les difficultés techniques et organisationnelles qu'implique la construction d'un entrepôt avec la prise en compte du contexte...

2025

Le transfert d'un système d'information en système d'information décisionnel repose sur les bases métiers orientées vers les acteurs de l'université par la prise en compte de la modélisation des utilisateurs. Le développement d'un portail... more

Le transfert d'un système d'information en système d'information décisionnel repose sur les bases métiers orientées vers les acteurs de l'université par la prise en compte de la modélisation des utilisateurs. Le développement d'un portail de l'université tient compte de l'évolutivité du contexte de l'université et de la prise en compte des systèmes d'information alternatifs. La description des ressources électroniques et la modélisation des acteurs montrent aujourd'hui la complémentarité de deux univers : les mondes de l'indexation et les mondes du décisionnel reliés par les entrepôts de données. A partir d'une expérimentation pour aider l'acteur «enseignant-chercheur» à enrichir un état de l'art par une fouille de données à partir d'un entrepôt de données, nous montrons les possibilités d'exploitation de données qui font partie de la partie immergée d'un système d'information universitaire. Nous portons les résultats de l'expérimentation au travers d'une application développée à partir d'un produit en open source Openi pour enrichir un espace numérique de travail d'un service d'analyses multidimensionnelles adaptées aux différents acteurs du portail de l'université.

2025

Une université abrite différents acteurs qui ont recours à des systèmes de ressources documentaires, des systèmes de production d'information, des systèmes de recherche d'information. L'intérêt que nous portons à la classification des... more

Une université abrite différents acteurs qui ont recours à des systèmes de ressources documentaires, des systèmes de production d'information, des systèmes de recherche d'information. L'intérêt que nous portons à la classification des acteurs de l'université, fondée sur notre modèle de représentation de l'utilisateur RU=(T, F, B, A), pour la construction d'un entrepôt de données et des bases métiers associées, permet de faire évoluer un système d'information en un système d'information stratégique. Nous réfléchissons à la conception d'un entrepôt de données de ressources documentaires dans un cadre pédagogique intégrant la modélisation de l'utilisateur. La description de ressources, en vue de leur réutilisation dans des parcours de formation, évoquent les difficultés rencontrées et formulent des propositions pour combler des manques dans les normes existantes et rendre plus opérationnels certains descriptifs. La modélisation des acteurs d'une part et des types de documents d'autre part, permettent d'élaborer des corrélations afin d'améliorer les réponses. La mise en relation des acteurs et des documents est possible par les méta données de l'entrepôt de données et la méta modélisation de l'entrepôt de données. Université, système d'information stratégique, entrepôt de données, entrepôt de ressources documentaires, classification des utilisateurs, modèle de l'utilisateur, modèle de document électronique, méta données, méta modélisation.

2025

Siemens Aktiengesellschaft Chairman of the Supervisory Board: Karl-Hermann Baumann Managing Board: Heinrich v. Pierer, Chairman, President and Chief Executive Officer · Members: Johannes Feldmayer, Thomas Ganswindt, Volker Jung, Klaus... more

Siemens Aktiengesellschaft Chairman of the Supervisory Board: Karl-Hermann Baumann Managing Board: Heinrich v. Pierer, Chairman, President and Chief Executive Officer · Members: Johannes Feldmayer, Thomas Ganswindt, Volker Jung, Klaus Kleinfeld, Edward G. Krubasik, Rudi Lamprecht, Heinz-Joachim Neubürger, Peter Pribilla, Jürgen Radomski, Erich R. Reinhardt, Uriel J. Sharef, Claus Weyrich, Klaus Wucherer

2025, International Journal of Web Engineering and Technology

An increasing part of research in the Semantic Web has been directed at making data become the main concept of the web. Plenty of languages and specifications support this transition and work by inserting additional (semantic) markup into... more

An increasing part of research in the Semantic Web has been directed at making data become the main concept of the web. Plenty of languages and specifications support this transition and work by inserting additional (semantic) markup into web documents. Yet, little attention is being paid to the possibility of expressing the actual structures of the documents in a form suitable for the semantic web. EARMARK is a model for explicitly expressing structural assertions of markup and documents, allowing a straightforward integration of the semantics of the markup and the semantics of the content. The well-formedness of a hierarchy, for instance, becomes an explicit assertion and similarly the analysis of the validity of markup structures become matter for further semantic analysis. This paper describes EARMARK and shows a framework for using OWL ontologies, that implement particular markup properties, to demonstrate the compliance of EARMARK documents with those properties.

2025, HAL (Le Centre pour la Communication Scientifique Directe)

We present an analysis of the operations related to the commitment in enunciation within direct reported speech. We go on to distinguish between two enunciation levels ; one relating to the enunciator and his co-enunciator and the other... more

We present an analysis of the operations related to the commitment in enunciation within direct reported speech. We go on to distinguish between two enunciation levels ; one relating to the enunciator and his co-enunciator and the other relating to the speaker and his co-speaker. We then proceed to treating the cases of commitment of the values of "truth" or of "plausibility" , the cases of commitment of intersubjective modalities or of appreciative modalities and so on. For each category explored, the linguistic markers in Arabic and in French are presented along with examples.

2025, International Journal of Advance Research and Innovative Ideas in Education

Generally, textual data sets are represented by using different models. But, sometimes it does not capture the text arrangement as it is. Vector space model is also recognized as the bag of word model. To represent textual document using... more

Generally, textual data sets are represented by using different models. But, sometimes it does not capture the text arrangement as it is. Vector space model is also recognized as the bag of word model. To represent textual document using vector space model is based on most text mining methods. This model cannot maintain the text structure as it is. encoding technique wherein an image pixel contains the values of RGB. So, it greatly reduces the size of the document. Each pixel value assigns an equivalent English letter of the same byte value where each pixel contains 3 letters. To reduce the size of text documents, For getting the lossless compression, Encodes the text document in term of image format.

2025, Human Reproduction

. Carriership of a chromosome anomaly confers a risk for an unbalanced chromosome comple-

2024, HAL (Le Centre pour la Communication Scientifique Directe)

In this paper we present a method for accurate and precise recognition of personal names implemented for Serbian. It is based on development of comprehensive e-dictionaries of Serbian personal names, as well as foreign personal names... more

In this paper we present a method for accurate and precise recognition of personal names implemented for Serbian. It is based on development of comprehensive e-dictionaries of Serbian personal names, as well as foreign personal names transcribed to Serbian. In order to obtain high precision, the set of finite state automata (FSA) were developed to model various constraints. The same automata are also used to extract from a text personal names not yet covered by e-dictionaries.

2024, arXiv (Cornell University)

We prove that non-abelian free groups of finite rank at least 3 or of countable rank are not ∀-homogeneous. We answer three open questions from Kharlampovich, Myasnikov, and Sklinos regarding whether free groups, finitely generated... more

We prove that non-abelian free groups of finite rank at least 3 or of countable rank are not ∀-homogeneous. We answer three open questions from Kharlampovich, Myasnikov, and Sklinos regarding whether free groups, finitely generated elementary free groups, and non-abelian limit groups form special kinds of Fraïssé classes in which embeddings must preserve ∀-formulas. We also provide interesting examples of countable non-finitely generated elementary free groups.

2024, arXiv (Cornell University)

This note provides a brief guide to the current state of the literature on Tarski's problems with emphasis on features that distinguish the approach based on combinatorial and algorithmic group theory from the topological approach to... more

This note provides a brief guide to the current state of the literature on Tarski's problems with emphasis on features that distinguish the approach based on combinatorial and algorithmic group theory from the topological approach to Tarski's problem. We use this note to provide corrections to some typos and to address some misconceptions from the recent report by Z. Sela about the relations between the concepts and results in the approaches to the Tarski problems. We were forced to read Sela's papers to be able to address some of his comments, and found errors in his papers 6, 3 and 4 on Diophantine Geometry published in GAFA and Israel J. Math. which we mention in Section 4. His proceedings of the ICM 2002 paper also contains wrong Theorem 6 (to make it correct one has to change the definition of non-elementary hyperbolic ω-residually free towers to make them equivalent to our coordinate groups of regular NTQ systems.

2024, arXiv (Cornell University)

Serre laid down the fundamentals of the theory of groups acting on simplicial trees. In particular, Bass-Serre theory makes it possible to extract information about the structure of a group from its action on a simplicial tree. Serre's... more

Serre laid down the fundamentals of the theory of groups acting on simplicial trees. In particular, Bass-Serre theory makes it possible to extract information about the structure of a group from its action on a simplicial tree. Serre's original motivation was to understand the structure of certain algebraic groups whose Bruhat-Tits buildings are trees. In this survey we will discuss the following generalizations of ideas from [125]: the theory of isometric group actions on Λ-trees and the theory of lattices in the product of trees where we describe in more detail results on arithmetic groups acting on a product of trees.

2024, 2011 7th International Conference on Natural Language Processing and Knowledge Engineering

This paper studies how granularity of machine translation evaluation can be extended from sentence to document level. While most state-of-the-art evaluation metrics focus on the sentence level, we emphasize the importance of document... more

This paper studies how granularity of machine translation evaluation can be extended from sentence to document level. While most state-of-the-art evaluation metrics focus on the sentence level, we emphasize the importance of document structure, showing that lexical cohesion is a critical feature to highlight the superior quality of human translation to machine translation, which uses cohesive devices to tie salient words between sentences together as a text. An experiment shows that this feature can bring forth a 3-5% improvement in the correlation of automatic evaluation results with human judgments of machine translation outputs at the document level.

2024, The Visual Computer

2024, Proceeding of the 18th ACM conference on Information and knowledge management - CIKM '09

Keyphrases are short phrases that reflect the main topic of a document. Because manually annotating documents with keyphrases is a time-consuming process, several automatic approaches have been developed. Typically, candidate phrases are... more

Keyphrases are short phrases that reflect the main topic of a document. Because manually annotating documents with keyphrases is a time-consuming process, several automatic approaches have been developed. Typically, candidate phrases are extracted using features such as position or frequency in the document text. Document structure may contain useful information about which parts or phrases of a document are important, but has rarely been considered as a source of information for keyphrase extraction. We address this issue in the context of keyphrase extraction from scientific literature. We introduce a new, large corpus that consists of full-text journal articles, where the rich collection and document structure available at the publishing stage is explicitly annotated. We explore features based on the XML tags contained in the documents, and based on generic section types derived using position and cue words in section titles. For XML tags we find sections, abstract, and title to perform best, but many smaller elements may be beneficial in combination with other features. Of the generic section types, the discussion section is found to be the most useful for keyphrase extraction.

2024

La régularité de structure des articles en information scientifique et technique nous a permis de définir des propriétés de caractérisation des parties de discours, nous les appelons unités documentaires. Nous avons choisi de les décrire... more

La régularité de structure des articles en information scientifique et technique nous a permis de définir des propriétés de caractérisation des parties de discours, nous les appelons unités documentaires. Nous avons choisi de les décrire selon leur type (introduction, résultats, conclusion ...), leur forme discursive (argumentatif, narratif, ...) ou leur style de présentation (littéraire, données numériques, schéma, ...). Ces propriétés utilisées dans le cadre du projet Profil-Doc, permettent de construire une base de données où l'information extraite lors d'une interrogation est filtrée selon une fonction d'usage pour l'utilisateur. L'article suivant propose des résultats expérimentaux sur la caractérisation d'une telle base de données. Nous avons en particulier cherché à vérifier s'il existe (ou non) une régularité des propriétés des unités documentaires ainsi que d'éventuelles corrélations entre elles. Cette analyse s'appuie sur une étude stati...

2024, HAL (Le Centre pour la Communication Scientifique Directe)

Dans une perspective de conception d'un vigiciel ou système d'information intégré spécifiquement dédié à la veille technologique, notre réflexion s'attache à définir les besoins propres à ce type d'application en termes de contraintes... more

Dans une perspective de conception d'un vigiciel ou système d'information intégré spécifiquement dédié à la veille technologique, notre réflexion s'attache à définir les besoins propres à ce type d'application en termes de contraintes liées aux données manipulées et aux utilisateurs concernés. Elle s'inscrit dans un thème émergent de recherche et de développement : la modélisation de la qualité d'une information par l'intégration de plus de sémantique dans la gestion des données formelles et informelles. Explorant les techniques actuelles de "découverte" et d'analyse d'information qui tendent à se spécialiser (recherche d'information IR, filtrage IF, extraction IE, gestion de données structurées / non structurées), on ébauche une évaluation de leur applicabilité au vigiciel. Dans ce cadre, notre article présente une analyse des besoins en terme de modélisation de l'information de veille, des meta-données associées et des différents modes de recherche correspondants.

2024

Dans une perspective de conception d'un vigiciel ou systeme d'information integre specifiquement dedie a la veille technologique, notre reflexion s'attache a definir les besoins propres a ce type d'application en termes de... more

Dans une perspective de conception d'un vigiciel ou systeme d'information integre specifiquement dedie a la veille technologique, notre reflexion s'attache a definir les besoins propres a ce type d'application en termes de contraintes liees aux donnees manipulees et aux utilisateurs concernes. Elle s'inscrit dans un theme emergent de recherche et de developpement : la modelisation de la qualite d'une information par l'integration de plus de semantique dans la gestion des donnees formelles et informelles. Explorant les techniques actuelles de "decouverte" et d'analyse d'information qui tendent a se specialiser (recherche d'information IR, filtrage IF, extraction IE, gestion de donnees structurees / non structurees), on ebauche une evaluation de leur applicabilite au vigiciel. Dans ce cadre, notre article presente une analyse des besoins en terme de modelisation de l'information de veille, des meta-donnees associees et des differen...

2024, Korea-Chile IT Cooperation Center ITCC, Technical report

Executive Summary This report summarizes the results of a comparison between the characteristics of two public Web spaces: the pages under the. KR (South Korea) domain, and the pages under the. CL (Chile) domain. We show several... more

Executive Summary This report summarizes the results of a comparison between the characteristics of two public Web spaces: the pages under the. KR (South Korea) domain, and the pages under the. CL (Chile) domain. We show several similarities that contribute to validate more general models for the characteristics of the Web, specially in terms of link structure.

2024

Les Systèmes d’Information sont au cœur des organisations. Nous nous appuyons sur la modélisation de la dimension humaine représentée par les différents acteurs pour concevoir un Système d’Information Décisionnel. Nos travaux font émerger... more

Les Systèmes d’Information sont au cœur des organisations. Nous nous appuyons sur la modélisation de la dimension humaine représentée par les différents acteurs pour concevoir un Système d’Information Décisionnel. Nos travaux font émerger des besoins, des fonctions et des activités propres à des types d’acteurs d’un système d’information. Nous proposons de représenter l’utilisateur ainsi : RU = (T,B,F,A) où T est le type d’acteur, B sont les besoins, F sont les fonctions et A sont les activités des acteurs pour aboutir au modèle RUBI3 {Représentation des Utilisateurs et de leurs Besoins en Information lors de l’Interrogation après Identification}. Notre cadre d’étude est l’université et nous adoptons notre modèle au «Professeur» et à l’«Etudiant». Nous procédons à des analyses multidimensionnelles à partir de notre modèle au travers d’une application en open source qui offre des perspectives innovantes Notre application permet la récupération de données pour faire le recensement des...

2024

In this paper we describe two approaches to integrating standalone information processing techniques into a semantic application capable of acquiring and maintaining knowledge. We distinguish between integration through aggregation and... more

In this paper we describe two approaches to integrating standalone information processing techniques into a semantic application capable of acquiring and maintaining knowledge. We distinguish between integration through aggregation and through choreographing, and argue that the latter is not only simpler to realize but also provides greater benefits. The benefits were, in our experiment, related to developing a capability of maintaining and validating knowledge through an integration of down-and upstream knowledge processing tools. We describe the principles of integration and relate them to pragmatic challenges for the semantic web and to strategic directions of its evolution.

2024, Bulletin of the Association for Information Science and Technology

EDITOR'S SUMMARYScientific papers are routinely structured in sections for introduction, methods, research and discussion, a standard since the 1970s. Citations originating within each section serve different purposes and can be... more

EDITOR'S SUMMARYScientific papers are routinely structured in sections for introduction, methods, research and discussion, a standard since the 1970s. Citations originating within each section serve different purposes and can be meaningfully classified according to position, shedding light on an author's purpose for the citation. Furthermore, words near the citations in the various sections differ, providing the basis for lexical and semantic analysis of citation contexts. Approximately 50,000 scientific papers from seven PLOS journals published between 2009 and 2012 were analyzed for citation use within the identifiable document structure and for verbs used in the context of the citations. Frequencies of verbs in the four section types demonstrate the predominant use of certain words by section. Introduction sections showed greater variety of verbs, while a more limited range of verbs was seen in Methods sections. The lexical distribution process may be applied to other con...

2024

We define grounding in terms of shared public commitments, and link public commitments to other, private, attitudes within a decidable dynamic logic for computing implicatures and predicting an agent's next dialogue move.