Codage et classification non supervisée d'un corpus maya: extraire des contextes pour situer l'inconnu par rapport au connu (original) (raw)
Related papers
De l'interprétation des liens entre vivants et morts dans l'espace habité maya Classique
Bulletins et mémoires de la Société d’Anthropologie de Paris, 2022
Il n’est pas toujours possible de distinguer, au sein d’un ensemble funéraire apparemment homogène, l’existence de différences statutaires entre les défunts. Pourtant, lorsqu’elles existent, celles-ci définissent souvent la manière dont les vivants interagissent avec les morts : comment ils les inhument, combien de temps ils s’en souviennent, quel pouvoir ils leur attribuent. Comment identifier archéologiquement ces distinctions et, surtout, leur donner du sens ? Les pratiques funéraires mayas, étroitement liées aux habitats dans lesquels les morts sont inhumés, obéissent à une grammaire spatiale dont on perçoit aujourd’hui encore les échos parmi leurs descendants. En associant observations archéologiques issues de cas concrets et données ethnographiques, il est possible de rendre partiellement aux défunts leur place dans une hiérarchie funéraire plus nuancée que la figure parfois omniprésente des “ancêtres” ne le laisse envisager.
Ecriture et divination: l’exemple des Mayas
2004
International audienceCet article a pour objectif de montrer les relations fondamentales entre écriture et divination chez les Mayas à partir notamment d'un travail sur la philosophie et la mythologie des Mayas d'aujourd'hui.L'expression ak'ab ts'ib, écriture-dessin obscure ou de la nuit, qui désigne en maya yucatèque l'écriture glyphique, est étonnamment absente de la plupart des travaux sur le déchiffrement de cette écriture. Elle donne d'emblée le ton: a)L'écriture ne peut être séparée du dessin; b) l'écriture est obscure, nocturne, elle n'a pas pour objet de dévoiler mais de voiler le monde, de dire en masquant car la nature du monde est énigmatique et le moyen d'en rendre compte n'est pas de le clarifier
Les Mayas classiques: lettrés artisans de haut rang
Techniques et Culture 46 : 217-229
Les cas archéologiques d'ateliers produisant des outils de silex ou d'obsidienne, de la céramique utilitaire et d'autres produits courants trouvés dans les habitats mayas classiques modestes sont très peu nombreux. On manque d'indices de fortes « spécialisations artisanales », que ce soit dans l'espace ou dans les techniques. Même une intensification de certaines activités (par exemple la taille lithique vis-à-vis de l'agriculture) ne paraît pas évidente. Par contre, on commence à connaître quelques cas archéologiques d'ateliers de céramique peinte, de coquillage travaillé, peut-être aussi de textile dans les groupes de grandes maisons nobles, où cet « artisanat de luxe » est manifestement lié (entre autres) aux connaissances et compétences particulières d' une partie de l' élite (lettrée). Ces récentes découvertes ouvrent de nouvelles perspectives de recherche en introduisant un concept de production artisanale « enchâssée » dans les unités sociales dominées par ces maisons nobles.
2015
Cet article aborde la question de l'anonymisation automatique des corpus oraux afin de permettre leur utilisation et diffusion sur la Toile. Nous proposons une analyse des elements constituant un « faisceau d'indices » qui, dans un certain contexte, contribue a l'identification. Ces indices depassent par leur diversite et leur heterogeneite les entites nommees. Nous decrivons ensuite une experimentation du reperage automatique de ce faisceau d'indices dans les transcriptions. Abstract. Recognizing clues leading to identification: anonymizing the transcriptions of the ESLO speech corpus This article tackles the question of oral corpus anonymization in preparation for its diffusion on the Web. We first analyze elements constituting a « clues set » which contribute to the identification. Those clues exceed named entities by their diversity and heterogeneity. Then we describe an experiment based on a module of automatic recognition of its clues in the transcriptions.
Catégorisation d'un corpus hétérogène de français médiéval
2000
We have undertaken a morpho-syntactic tagging of the 2 millions words of our corpora of medieval texts. The external and internal heterogeneity of the texts make this task a difficult one. As a result, we had to resort to a double strategy. Since there is actually no tool adapted to our corpora, we had first to rely on a programmable tagger in order to categorize a first text. As a second step, and building on the results obtained with the first text, we produced a tagger based on contextal rule learning. Using this latter tool we subsequently tagged a second, quite "similar" (in terms of external criteria) text. The success rate was 95%. This two-step process was then used once again to tag additional texts. The next phase will be to evaluate the heterogeneity of texts according to internal criteria. This task involves the measurement of morpho-syntactic and semantic variation in accordance with statistical methods. It will enable us to correlate internal and external heterogeneity in order to elaborate a "fine-grained" typology of texts.
Résumé – Abstract Nous présentons les résultats d'expérimentations visant à introduire des ressources lexico-syntaxiques génériques dans un analyseur syntaxique de corpus à base endogène (SYNTEX) pour la résolution d'ambiguïtés de rattachement prépositionnel. Les données de sous-catégorisation verbale sont élaborées à partir du lexique-grammaire et d'une acquisition en corpus (journal Le Monde). Nous présentons la stratégie endogène de désambiguïsation, avant d'y intégrer les ressources construites. Ces stratégies sont évaluées sur trois corpus (scientifique, juridique et journalistique). La stratégie mixte augmente le taux de rappel (+15% sur les trois corpus cumulés) sans toutefois modifier le taux de précision (~ 85%). Nous discutons ces performances, notamment à la lumière des résultats obtenus par ailleurs sur la préposition de. We report the results of experiments aimed at integrating general lexico-syntactic resources into a corpus syntactic parser (SYNTEX) ba...