Eszter Simon - Academia.edu (original) (raw)

Papers by Eszter Simon

Research paper thumbnail of A históriás énekek számítógépes elemzésének módszertani kérdései

Seláf Levente (szerk.): A históriás ének: poétikai és filológiai kérdések , 2023

Research paper thumbnail of GYDER: maxent metonymy resolution

Though the GYDER system has achieved the highest accuracy scores for the metonymy resolution shar... more Though the GYDER system has achieved the highest accuracy scores for the metonymy resolution shared task at SemEval-2007 in all six subtasks, we don’t consider the results (72.80 % accuracy for org, 84.36 % for loc) particularly impressive, and argue that metonymy resolution needs more features. 1

Research paper thumbnail of Automatically generated NE tagged corpora for English and Hungarian

Supervised Named Entity Recognizers require large amounts of annotated text. Since manual annotat... more Supervised Named Entity Recognizers require large amounts of annotated text. Since manual annotation is a highly costly procedure, reducing the annotation cost is essential. We present a fully automatic method to build NE annotated corpora from Wikipedia. In contrast to recent work, we apply a new method, which maps the DBpedia classes into CoNLL NE types. Since our method is mainly language-independent, we used it to generate corpora for English and Hungarian. The corpora are freely available.

Research paper thumbnail of Morphdb.hu: Hungarian lexical database and morphological grammar

This paper describes morphdb.hu, a Hungarian lexical database and morphological grammar. Morphdb.... more This paper describes morphdb.hu, a Hungarian lexical database and morphological grammar. Morphdb.hu is the outcome of a several-year collaborative effort and represents the resource with the widest coverage and broadest range of applicability presently available for Hungarian. The grammar resource is the formalization of well-founded theoretical decisions handling inflection and productive derivation. The lexical database was created by merging three independent lexical databases, and the resulting resource was further extended.

Research paper thumbnail of Report on the Second International Workshop on Computational Linguistics for Uralic Languages

The Second International Workshop on Computational Linguistics for Uralic Languages (SIWCLUL) was... more The Second International Workshop on Computational Linguistics for Uralic Languages (SIWCLUL) was held in Szeged in January 20⒗ The goals of the conference series include increased co-operation between the researchers, universities and research centres working on Uralic languages. The event gathered a number of participants from all over Eurasia, including Finland, Hungary, Estonia, Ireland, Germany, Austria and Norway among others. The conference also marked a start of an Association for Computational Linguistics’ Special Interest Group for Uralic Languages (ACLSIGUR).

Research paper thumbnail of Approaches to Hungarian Named Entity Recognition

Research paper thumbnail of Gradual expansion in the use of the definite article Checking a theory against the Old Hungarian Corpus

Research paper thumbnail of Az NYTK-NerKor több szempontú kiértékelése

XVIII. Magyar Számítógépes Nyelvészeti Konferencia, 2022

Cikkünkben az NYTK-NerKor korpusz kiértékelését mutatjukbe több rendszer segítségével. Azt vizsgá... more Cikkünkben az NYTK-NerKor korpusz kiértékelését mutatjukbe több rendszer segítségével. Azt vizsgáljuk, hogy az egymillió tokenttartalmazó, műfajilag heterogén, szabadon elérhető gold standard adat-halmaz mennyire használható magyar nyelvű tulajdonnév-felismerő rend-szerek fejlesztéséhez. A kiértékeléshez négy különböző rendszert hasz-náltunk: a CRFsuite-ot, a magyar spaCy-t, a Stanzát és azemBERT-et.Cikkünkben ismertetjük az egyes rendszerek által elért eredményeket,melyeket össze is hasonlítunk. Az eredmények azt mutatják, hogy azNYTK-NerKor és a Szeged NER korpusz együttes használata még sta-bilabb modelleket eredményezhet, valamint hogy az NYTK-NerKorontanítva a rendszerek nagyobb általánosító képességgel rendelkeznek, amiahhoz kell, hogy egy azelőtt nem látott szövegben jól azonosítsák a ne-veket.

Research paper thumbnail of Introducing NYTK-NerKor, a Gold Standard Hungarian Named Entity Annotated Corpus

TSD2021, 2021

Here we present NYTK-NerKor, a gold standard Hungarian named entity annotated corpus containing 1... more Here we present NYTK-NerKor, a gold standard Hungarian named entity annotated corpus containing 1 million tokens. This is the largest corpus ever in its kind. It contains balanced text selection from five genres: fiction, legal, news, web, and Wikipedia. A ca. 200,000 tokens subcorpus contains gold standard morphological annotation besides NE labels. We provide official train, development and test datasets in a proportion of 80%-10%-10%. All sets provide a balanced selection from all genres and sources, while the morphologically annotated subcorpus is also represented in all sets in a balanced way. The format of data files are CoNLL-U Plus, in which the NE annotation follows the CoNLL2002 labelling standard, while morphological information is encoded using the well-known Universal Dependencies POS tags and morphosyntactic features. The novelty of NYTK-NerKor as opposed to similar existing corpora is that it is: by an order of magnitude larger, freely available for any purposes, containing text material from different genres and sources, and following international standards in its format and tagset. The corpus is available under the license CC-BY-SA 4.

Research paper thumbnail of K�nyvismertet�sek

Research paper thumbnail of A metaforikus nyelvhasználat egy korpuszalapú elemzése

Research paper thumbnail of A Párhuzamos Bibliakorpusz és Bibliaolvasó fejlesztése

Általános Nyelvészeti Tanulmányok 32., 2020

A nyelvi kulturális örökség elérhetővé tételében kulcsfontosságú szerep jut a nyelvtechnológiának... more A nyelvi kulturális örökség elérhetővé tételében kulcsfontosságú szerep jut a nyelvtechnológiának, melynek módszereivel a kutatók egységes, következetes, nyelvi információval ellátott adatbázisokhoz juthatnak. A nyelvtörténészek és nyelvtechnológusok egyik legfontosabb együttműködési terepe a történeti korpuszok építése, melyek kiváló alapanyagot szolgáltatnak az elméleti kutatásoknak. A jelen cikkben bemutatott korpusz, a Párhuzamos Bibliakorpusz, az Ómagyar Korpusz anyagára támaszkodik, és tartalmazza mindazokat az ó-és középmagyar kori magyar nyelvű bibliafordításokat, amelyek abban szerepelnek. A Párhuzamos Bibliakorpuszra épülő keresőalkalmazás, a Párhuzamos Bibliaolvasó pedig kiegészíti az Ómagyar Korpuszhoz készült Régi Magyar Konkordancia nevű korpuszlekérdező felületet, ugyanis míg abban konkrét nyelvi elemekre, tulajdonságaikra és környezetükre lehet keresni, itt bibliai helyekre tudunk rákeresni és a kapott találatokon összehasonlító vizsgálatokat végezni. A Párhuzamos Bibliaolvasó elérhető a http://parallelbible.nytud.hu URL-en keresztül, míg a Párhuzamos Bibliakorpusz anyaga letölthető a https://github.com/dlt-rilmta/parallelbible GitHub repozitóriumból. A weboldal és a repozitórium tartalma angolul is olvasható.

Research paper thumbnail of Creating automatic dictionaries for Finno-Ugric minority languages

Multilingualism and Plurilingualism in Europe, 2019

In this paper, we present a project whose objective is to provide linguistically-based support fo... more In this paper, we present a project whose objective is to provide linguistically-based support for several Finno-Ugric digital communities in generating online content. By applying automatic dictionary-creating methods, we created bilingual dictionaries for six small Finno-Ugric languages (Udmurt, Komi-Permyak, Komi-Zyrian, Hill Mari, Meadow Mari, and Northern Sami) paired with four thriving languages which are important for these small communities (English, Finnish, Hungarian, and Russian). Since these minority languages are under-resourced languages, and standard dictionary-building methods require a large amount of pre-processed data, we had to find alternative methods. In a thorough evaluation, we compare the results for each method, focusing on the language pairs where Northern Sami is the source language. By generating online content, we aim to promote multilingualism and help revitalize the digital functions of these Finno-Ugric languages.

Research paper thumbnail of Bevezetés a nyelvtechnológiába & A Szöveglabor bemutatása

Előadások a Petőfi Irodalmi Múzeumban 2020. szeptember 23-án.

Research paper thumbnail of The Definition of Named Entities

K + K = 120: Papers dedicated to L. Kálmán & A. Kornai on the occasion of their 60th birthdays, 2019

Named Entity Recognition (NER) is one of the most intensively studied tasks of computational ling... more Named Entity Recognition (NER) is one of the most intensively studied tasks of computational linguistics. It has two substeps: first, locating the Named Entities (NEs) in unstructured texts, and second, classifying them into pre-defined categories. A key issue is how to define NEs. This issue interconnects with the issue of selection of classes and the annotation schemes applied in the field of NER. The major standard guidelines do not give an exact definition of NEs, but rather list examples and counterexamples. For getting a usable definition of NEs, we investigate the approach taken in the philosophy of language and linguistics, and we map our findings to the NER task. We do not wish to give a complete description of the theory and typology of proper names but to find a plausible way to define linguistic units relevant to the NER task.

Research paper thumbnail of Újabb fejlemények az e-magyar háza táján

XVI. Magyar Számítógépes Nyelvészeti Konferencia, 2020

A cikkben az e-magyar nyelvfeldolgozó eszközlánc új verzióján, az emtsv-n végrehajtott fejlesztés... more A cikkben az e-magyar nyelvfeldolgozó eszközlánc új verzióján, az emtsv-n végrehajtott fejlesztéseket mutatjuk be. Az emtsv fő tulajdonságai közé tartozik a teljes modularitás, amit az egységes formátum és keretrendszer tesz lehetővé. Ebből következik, hogy az emtsv-be könnyen lehet új modulokat integrálni, valamint az egyes elemzési lépéseknél be- és kiszállni. Ezt illusztrálandó egyrészt már létező eszközöket integráltunk (UDPipe, Hunspell), másrészt új modulokat fejlesztettünk (emTerm, emDiff, emZero), harmadrészt a már meglévő modulokat fejlesztettük tovább (detokenizálási funkció az emToken-ben). A cikkben ezeket mutatjuk be, továbbá az emtsv-t teljesítmény és gyorsaság szempontjából összehasonlítjuk hasonló funkcionalitásokkal bíró magyar nyelvfeldolgozó eszközláncokkal, mint a UDPipe, a huspaCy és a Magyarlánc. Az emtsv LGPL 3.0 licenc alatt elérhető a https://github. com/dlt-rilmta/emtsv GitHub repozitóriumból.

Research paper thumbnail of Magyar nyelvű történeti korpuszok

Beszéd-és nyelvelemző szoftverek a versenyképességért és az esélyegyenlőségért – HunCLARIN korpuszok és nyelvtechnológiai eszközök a bölcsészet-és társadalomtudományokban, 2019

Research paper thumbnail of One format to rule them all -- The emtsv pipeline for Hungarian

ACL LAW ws, 2019

We present a more efficient version of the e-magyar NLP pipeline for Hungarian called emtsv. It i... more We present a more efficient version of the e-magyar NLP pipeline for Hungarian called emtsv. It integrates Hungarian NLP tools in a framework whose individual modules can be developed or replaced independently and allows new ones to be added. The design also allows convenient investigation and manual correction of the data flow from one module to another. The improvements we publish include effective communication between the modules and support of the use of individual modules both in the chain and standing alone. Our goals are accomplished using extended tsv (tab separated values) files, a simple, uniform, generic and self-documenting input/output format. Our vision is maintaining the system for a long time and making it easier for external developers to fit their own modules into the system, thus sharing existing competencies in the field of processing Hungarian, a mid-resourced language. The source code is available under LGPL 3.0 license at https://github.com/dlt-rilmta/emtsv .

Research paper thumbnail of Konverterek magyar morfológiai címkekészletek között

MSZNY2019, 2019

A magyarra alkalmazott morfológiai annotációs sémák és címkekészletek sokszínűsége és eltérő doku... more A magyarra alkalmazott morfológiai annotációs sémák és címkekészletek sokszínűsége és eltérő dokumentáltsága ösztönzött minket abban a munkában, amelynek első lépéseit mutatja be ez a cikk. A munka két fő részből áll: egyrészt összegyűjtjük és közzétesszük a magyarra alkalmazott morfológiai annotációs sémákkal és címkekészletekkel kapcsolatos elérhető információkat, másrészt konvertereket írunk a címkekészletek között. Ebben a cikkben három konvertert ismertetünk.

Research paper thumbnail of emTSV -- Egy formátum mind felett

MSZNY2019, 2019

Az e-magyar nyelvfeldolgozó rendszer elkészülése óta több ízben felmerült az igény a hatékonyságá... more Az e-magyar nyelvfeldolgozó rendszer elkészülése óta több ízben felmerült az igény a hatékonyságának növelésére és használhatóságának egyszerűsítésére, melyek figyelembevételével továbbfejlesztettük a meglévő szövegfeldolgozó rendszert. Célunk a modulok közötti hatékony kommunikáció megvalósítása, valamint az egyes modulok láncba építésének és önálló használatának egyenrangú támogatása. Ezt egy nemzetközi szabványokkal összeegyeztethető, egyszerű, egységes és általános be- és kimeneti formátum használatával valósítjuk meg. Ez terveink szerint hosszú időre jövőállóvá teszi a rendszert, valamint még szélesebbre tárja a külső fejlesztők előtt a kaput, hogy saját moduljaikat a rendszerünkhöz tudják illeszteni, megosztva a meglévő kompetenciákat a magyar nyelv számítógépes feldolgozásának területén. A cikkben bemutatjuk az e-magyar új verzióját, az emtsv elnevezésű rendszert.

Research paper thumbnail of A históriás énekek számítógépes elemzésének módszertani kérdései

Seláf Levente (szerk.): A históriás ének: poétikai és filológiai kérdések , 2023

Research paper thumbnail of GYDER: maxent metonymy resolution

Though the GYDER system has achieved the highest accuracy scores for the metonymy resolution shar... more Though the GYDER system has achieved the highest accuracy scores for the metonymy resolution shared task at SemEval-2007 in all six subtasks, we don’t consider the results (72.80 % accuracy for org, 84.36 % for loc) particularly impressive, and argue that metonymy resolution needs more features. 1

Research paper thumbnail of Automatically generated NE tagged corpora for English and Hungarian

Supervised Named Entity Recognizers require large amounts of annotated text. Since manual annotat... more Supervised Named Entity Recognizers require large amounts of annotated text. Since manual annotation is a highly costly procedure, reducing the annotation cost is essential. We present a fully automatic method to build NE annotated corpora from Wikipedia. In contrast to recent work, we apply a new method, which maps the DBpedia classes into CoNLL NE types. Since our method is mainly language-independent, we used it to generate corpora for English and Hungarian. The corpora are freely available.

Research paper thumbnail of Morphdb.hu: Hungarian lexical database and morphological grammar

This paper describes morphdb.hu, a Hungarian lexical database and morphological grammar. Morphdb.... more This paper describes morphdb.hu, a Hungarian lexical database and morphological grammar. Morphdb.hu is the outcome of a several-year collaborative effort and represents the resource with the widest coverage and broadest range of applicability presently available for Hungarian. The grammar resource is the formalization of well-founded theoretical decisions handling inflection and productive derivation. The lexical database was created by merging three independent lexical databases, and the resulting resource was further extended.

Research paper thumbnail of Report on the Second International Workshop on Computational Linguistics for Uralic Languages

The Second International Workshop on Computational Linguistics for Uralic Languages (SIWCLUL) was... more The Second International Workshop on Computational Linguistics for Uralic Languages (SIWCLUL) was held in Szeged in January 20⒗ The goals of the conference series include increased co-operation between the researchers, universities and research centres working on Uralic languages. The event gathered a number of participants from all over Eurasia, including Finland, Hungary, Estonia, Ireland, Germany, Austria and Norway among others. The conference also marked a start of an Association for Computational Linguistics’ Special Interest Group for Uralic Languages (ACLSIGUR).

Research paper thumbnail of Approaches to Hungarian Named Entity Recognition

Research paper thumbnail of Gradual expansion in the use of the definite article Checking a theory against the Old Hungarian Corpus

Research paper thumbnail of Az NYTK-NerKor több szempontú kiértékelése

XVIII. Magyar Számítógépes Nyelvészeti Konferencia, 2022

Cikkünkben az NYTK-NerKor korpusz kiértékelését mutatjukbe több rendszer segítségével. Azt vizsgá... more Cikkünkben az NYTK-NerKor korpusz kiértékelését mutatjukbe több rendszer segítségével. Azt vizsgáljuk, hogy az egymillió tokenttartalmazó, műfajilag heterogén, szabadon elérhető gold standard adat-halmaz mennyire használható magyar nyelvű tulajdonnév-felismerő rend-szerek fejlesztéséhez. A kiértékeléshez négy különböző rendszert hasz-náltunk: a CRFsuite-ot, a magyar spaCy-t, a Stanzát és azemBERT-et.Cikkünkben ismertetjük az egyes rendszerek által elért eredményeket,melyeket össze is hasonlítunk. Az eredmények azt mutatják, hogy azNYTK-NerKor és a Szeged NER korpusz együttes használata még sta-bilabb modelleket eredményezhet, valamint hogy az NYTK-NerKorontanítva a rendszerek nagyobb általánosító képességgel rendelkeznek, amiahhoz kell, hogy egy azelőtt nem látott szövegben jól azonosítsák a ne-veket.

Research paper thumbnail of Introducing NYTK-NerKor, a Gold Standard Hungarian Named Entity Annotated Corpus

TSD2021, 2021

Here we present NYTK-NerKor, a gold standard Hungarian named entity annotated corpus containing 1... more Here we present NYTK-NerKor, a gold standard Hungarian named entity annotated corpus containing 1 million tokens. This is the largest corpus ever in its kind. It contains balanced text selection from five genres: fiction, legal, news, web, and Wikipedia. A ca. 200,000 tokens subcorpus contains gold standard morphological annotation besides NE labels. We provide official train, development and test datasets in a proportion of 80%-10%-10%. All sets provide a balanced selection from all genres and sources, while the morphologically annotated subcorpus is also represented in all sets in a balanced way. The format of data files are CoNLL-U Plus, in which the NE annotation follows the CoNLL2002 labelling standard, while morphological information is encoded using the well-known Universal Dependencies POS tags and morphosyntactic features. The novelty of NYTK-NerKor as opposed to similar existing corpora is that it is: by an order of magnitude larger, freely available for any purposes, containing text material from different genres and sources, and following international standards in its format and tagset. The corpus is available under the license CC-BY-SA 4.

Research paper thumbnail of K�nyvismertet�sek

Research paper thumbnail of A metaforikus nyelvhasználat egy korpuszalapú elemzése

Research paper thumbnail of A Párhuzamos Bibliakorpusz és Bibliaolvasó fejlesztése

Általános Nyelvészeti Tanulmányok 32., 2020

A nyelvi kulturális örökség elérhetővé tételében kulcsfontosságú szerep jut a nyelvtechnológiának... more A nyelvi kulturális örökség elérhetővé tételében kulcsfontosságú szerep jut a nyelvtechnológiának, melynek módszereivel a kutatók egységes, következetes, nyelvi információval ellátott adatbázisokhoz juthatnak. A nyelvtörténészek és nyelvtechnológusok egyik legfontosabb együttműködési terepe a történeti korpuszok építése, melyek kiváló alapanyagot szolgáltatnak az elméleti kutatásoknak. A jelen cikkben bemutatott korpusz, a Párhuzamos Bibliakorpusz, az Ómagyar Korpusz anyagára támaszkodik, és tartalmazza mindazokat az ó-és középmagyar kori magyar nyelvű bibliafordításokat, amelyek abban szerepelnek. A Párhuzamos Bibliakorpuszra épülő keresőalkalmazás, a Párhuzamos Bibliaolvasó pedig kiegészíti az Ómagyar Korpuszhoz készült Régi Magyar Konkordancia nevű korpuszlekérdező felületet, ugyanis míg abban konkrét nyelvi elemekre, tulajdonságaikra és környezetükre lehet keresni, itt bibliai helyekre tudunk rákeresni és a kapott találatokon összehasonlító vizsgálatokat végezni. A Párhuzamos Bibliaolvasó elérhető a http://parallelbible.nytud.hu URL-en keresztül, míg a Párhuzamos Bibliakorpusz anyaga letölthető a https://github.com/dlt-rilmta/parallelbible GitHub repozitóriumból. A weboldal és a repozitórium tartalma angolul is olvasható.

Research paper thumbnail of Creating automatic dictionaries for Finno-Ugric minority languages

Multilingualism and Plurilingualism in Europe, 2019

In this paper, we present a project whose objective is to provide linguistically-based support fo... more In this paper, we present a project whose objective is to provide linguistically-based support for several Finno-Ugric digital communities in generating online content. By applying automatic dictionary-creating methods, we created bilingual dictionaries for six small Finno-Ugric languages (Udmurt, Komi-Permyak, Komi-Zyrian, Hill Mari, Meadow Mari, and Northern Sami) paired with four thriving languages which are important for these small communities (English, Finnish, Hungarian, and Russian). Since these minority languages are under-resourced languages, and standard dictionary-building methods require a large amount of pre-processed data, we had to find alternative methods. In a thorough evaluation, we compare the results for each method, focusing on the language pairs where Northern Sami is the source language. By generating online content, we aim to promote multilingualism and help revitalize the digital functions of these Finno-Ugric languages.

Research paper thumbnail of Bevezetés a nyelvtechnológiába & A Szöveglabor bemutatása

Előadások a Petőfi Irodalmi Múzeumban 2020. szeptember 23-án.

Research paper thumbnail of The Definition of Named Entities

K + K = 120: Papers dedicated to L. Kálmán & A. Kornai on the occasion of their 60th birthdays, 2019

Named Entity Recognition (NER) is one of the most intensively studied tasks of computational ling... more Named Entity Recognition (NER) is one of the most intensively studied tasks of computational linguistics. It has two substeps: first, locating the Named Entities (NEs) in unstructured texts, and second, classifying them into pre-defined categories. A key issue is how to define NEs. This issue interconnects with the issue of selection of classes and the annotation schemes applied in the field of NER. The major standard guidelines do not give an exact definition of NEs, but rather list examples and counterexamples. For getting a usable definition of NEs, we investigate the approach taken in the philosophy of language and linguistics, and we map our findings to the NER task. We do not wish to give a complete description of the theory and typology of proper names but to find a plausible way to define linguistic units relevant to the NER task.

Research paper thumbnail of Újabb fejlemények az e-magyar háza táján

XVI. Magyar Számítógépes Nyelvészeti Konferencia, 2020

A cikkben az e-magyar nyelvfeldolgozó eszközlánc új verzióján, az emtsv-n végrehajtott fejlesztés... more A cikkben az e-magyar nyelvfeldolgozó eszközlánc új verzióján, az emtsv-n végrehajtott fejlesztéseket mutatjuk be. Az emtsv fő tulajdonságai közé tartozik a teljes modularitás, amit az egységes formátum és keretrendszer tesz lehetővé. Ebből következik, hogy az emtsv-be könnyen lehet új modulokat integrálni, valamint az egyes elemzési lépéseknél be- és kiszállni. Ezt illusztrálandó egyrészt már létező eszközöket integráltunk (UDPipe, Hunspell), másrészt új modulokat fejlesztettünk (emTerm, emDiff, emZero), harmadrészt a már meglévő modulokat fejlesztettük tovább (detokenizálási funkció az emToken-ben). A cikkben ezeket mutatjuk be, továbbá az emtsv-t teljesítmény és gyorsaság szempontjából összehasonlítjuk hasonló funkcionalitásokkal bíró magyar nyelvfeldolgozó eszközláncokkal, mint a UDPipe, a huspaCy és a Magyarlánc. Az emtsv LGPL 3.0 licenc alatt elérhető a https://github. com/dlt-rilmta/emtsv GitHub repozitóriumból.

Research paper thumbnail of Magyar nyelvű történeti korpuszok

Beszéd-és nyelvelemző szoftverek a versenyképességért és az esélyegyenlőségért – HunCLARIN korpuszok és nyelvtechnológiai eszközök a bölcsészet-és társadalomtudományokban, 2019

Research paper thumbnail of One format to rule them all -- The emtsv pipeline for Hungarian

ACL LAW ws, 2019

We present a more efficient version of the e-magyar NLP pipeline for Hungarian called emtsv. It i... more We present a more efficient version of the e-magyar NLP pipeline for Hungarian called emtsv. It integrates Hungarian NLP tools in a framework whose individual modules can be developed or replaced independently and allows new ones to be added. The design also allows convenient investigation and manual correction of the data flow from one module to another. The improvements we publish include effective communication between the modules and support of the use of individual modules both in the chain and standing alone. Our goals are accomplished using extended tsv (tab separated values) files, a simple, uniform, generic and self-documenting input/output format. Our vision is maintaining the system for a long time and making it easier for external developers to fit their own modules into the system, thus sharing existing competencies in the field of processing Hungarian, a mid-resourced language. The source code is available under LGPL 3.0 license at https://github.com/dlt-rilmta/emtsv .

Research paper thumbnail of Konverterek magyar morfológiai címkekészletek között

MSZNY2019, 2019

A magyarra alkalmazott morfológiai annotációs sémák és címkekészletek sokszínűsége és eltérő doku... more A magyarra alkalmazott morfológiai annotációs sémák és címkekészletek sokszínűsége és eltérő dokumentáltsága ösztönzött minket abban a munkában, amelynek első lépéseit mutatja be ez a cikk. A munka két fő részből áll: egyrészt összegyűjtjük és közzétesszük a magyarra alkalmazott morfológiai annotációs sémákkal és címkekészletekkel kapcsolatos elérhető információkat, másrészt konvertereket írunk a címkekészletek között. Ebben a cikkben három konvertert ismertetünk.

Research paper thumbnail of emTSV -- Egy formátum mind felett

MSZNY2019, 2019

Az e-magyar nyelvfeldolgozó rendszer elkészülése óta több ízben felmerült az igény a hatékonyságá... more Az e-magyar nyelvfeldolgozó rendszer elkészülése óta több ízben felmerült az igény a hatékonyságának növelésére és használhatóságának egyszerűsítésére, melyek figyelembevételével továbbfejlesztettük a meglévő szövegfeldolgozó rendszert. Célunk a modulok közötti hatékony kommunikáció megvalósítása, valamint az egyes modulok láncba építésének és önálló használatának egyenrangú támogatása. Ezt egy nemzetközi szabványokkal összeegyeztethető, egyszerű, egységes és általános be- és kimeneti formátum használatával valósítjuk meg. Ez terveink szerint hosszú időre jövőállóvá teszi a rendszert, valamint még szélesebbre tárja a külső fejlesztők előtt a kaput, hogy saját moduljaikat a rendszerünkhöz tudják illeszteni, megosztva a meglévő kompetenciákat a magyar nyelv számítógépes feldolgozásának területén. A cikkben bemutatjuk az e-magyar új verzióját, az emtsv elnevezésű rendszert.

Research paper thumbnail of A webaratásból származó szövegek automatikus feldolgozása

404 Not Found konferencia, 2023

A webaratásból a sok egyéb formátum mellett nagy mennyiségű szöveges anyag is keletkezik. Ezen az... more A webaratásból a sok egyéb formátum mellett nagy mennyiségű szöveges anyag is keletkezik. Ezen az anyagon a természetesnyelv-feldolgozás (natural language processing, NLP) eszközeit alkalmazva egy hatalmas méretű szövegkorpusz jön létre, amiből egyrészt sok hasznos és érdekes adatot lehet kinyerni, másrészt bemenete és segédeszköze lehet további nyelvfeldolgozó lépéseknek. Előadásomban a webaratásból származó szövegek feldolgozásának lépéseit mutatom be, valamint felvázolom azokat a jövőbeli fejlesztési irányokat, amelyeket tervezünk a webarchívumon csinálni. Utóbbiak közé tartozik az automatikus tárgyszavazás és topikmodellezés, valamint nagy nyelvi modellek (large language models, LLMs) tanítása is.

Research paper thumbnail of dHUpla: a kézirattól az automatikus nyelvfeldolgozásig

Hagyományok és kihívások XI. konferencia, 2023

Előadásunkban azt a munkafolyamatot ismertetjük, amelynek során eljutunk a kézzel írt levelektől ... more Előadásunkban azt a munkafolyamatot ismertetjük, amelynek során eljutunk a kézzel írt levelektől a TEI XML fájlokig. Ennek során a közönség olyan lépésekkel ismerkedhet meg, mint az automatikus kézírásfelismerés, a TEI XMl publikáció, illetve a természetesnyelv-feldolgozás egyes szintjei, mint a morfológiai elemzés vagy a tulajdonnév-felismerés. A munkafolyamatot egy példalevélen tervezzük bemutatni. A felület, amelyen publikáljuk az elektronikusan elérhető forrásokat, a Digitális Bölcsészeti Platform: https://dhupla.hu.

Research paper thumbnail of Szöveglabor a PIM DBK digitális bölcsészeti platformjában

Research paper thumbnail of A PIM DBK bemutatkozik – PIM Múzeumi Műhely

A Digitális Bölcsészeti Központ a Petőfi Irodalmi Múzeum tavaly újonnan alakult szervezeti egység... more A Digitális Bölcsészeti Központ a Petőfi Irodalmi Múzeum tavaly újonnan alakult szervezeti egysége. Feladata a hazai közgyűjteményekben zajló digitalizáció, tartalom- és szolgáltatásfejlesztések támogatása, koordinálása és dinamizálása. Az előadásban bemutatjuk az egyes szakterületeken folyó munkát, a közgyűjteményekben való hasznosulását, valamint a jövőre tervezett projekteket.

Résztvevők:
A Digitális Bölcsészeti Központ munkatársai (Digitális bölcsészet: Mihály Eszter, Simon Eszter, Kalcsó Gyula, Szűcs Kata, Vétek Bence, Cséve Anna, Humáninformatika: Mohay Anikó, Hubay Miklós, Palyik Katalin, Dancs Szabolcs, Kasza Zsófia)

Research paper thumbnail of Automatikus szótárépítés kevés erőforrással rendelkező nyelvekre

Előadás a 2018-as Magyar Tudomány Ünnepén A változó nyelv kisebbségi finnugor nyelvi közösségekbe... more Előadás a 2018-as Magyar Tudomány Ünnepén A változó nyelv kisebbségi finnugor nyelvi közösségekben című konferencián.

Research paper thumbnail of Magyar nyelvű történeti korpuszok -- Pécs

Előadás az A számítógépes és kísérletes nyelvészet új útjai és korszerű eszközei című workshopon ... more Előadás az A számítógépes és kísérletes nyelvészet új útjai és korszerű eszközei című workshopon Pécsen, 2019. május 2-án.

Research paper thumbnail of Magyar nyelvű történeti korpuszok (Debrecen)

Előadás a Korpuszok, nyelvtechnológiai eszközök és kísérletes módszerek a bölcsészet- és társadal... more Előadás a Korpuszok, nyelvtechnológiai eszközök és kísérletes módszerek a bölcsészet- és társadalomtudományokban című workshopon, 2019. február 7-én, Debrecenben.

Research paper thumbnail of Automatikus szótárépítés kevés erőforrással rendelkező nyelvekre

Research paper thumbnail of Magyar nyelvű történeti korpuszok

A nyelvi kulturális örökség elérhetővé tételében kulcsfontosságú szerep jut a nyelvtechnológiának... more A nyelvi kulturális örökség elérhetővé tételében kulcsfontosságú szerep jut a nyelvtechnológiának, melynek módszereivel a kutatók egységes, következetes, nyelvi információval ellátott adatbázisokhoz juthatnak. A nyelvtörténészek és nyelvtechnológusok egyik legfontosabb
együttműködési terepe a történeti korpuszok építése, melyek kiváló alapanyagot szolgáltatnak az elméleti és történeti nyelvészeti kutatásoknak. Az elmúlt évtizedekben számos történeti korpuszt fejlesztettek – elsősorban indoeurópai nyelvekre, de a magyarra is készült néhány. Időrendi sorrendben haladva ezek a következők. Az Ómagyar Korpusz tartalmazza az összes ómagyar korból fennmaradt szövegemléket és néhány középmagyar kori bibliafordítást is. A Történeti Magánéleti Korpusz az ó- és középmagyar kor magánéleti nyelvi regiszteréhez közelebb álló műfajokat tartalmazza: 1772 előtti magánlevelekből és peres eljárások jegyzőkönyveiből épül fel. A Magyar Történeti Szövegtár pedig 1772-től, vagyis az újmagyar kor kezdetétől egészen a 20. század végéig tartalmaz szövegeket. Előadásomban ezeket a korpuszokat és a hozzájuk tartozó lekérdezőfelületeket fogom ismertetni, és néhány példán keresztül
azt is illusztrálom, hogy milyen kutatási kérdésekre hogyan tudunk választ kapni ezeknek az adatbázisoknak a segítségével.

Research paper thumbnail of "Ez atkozot ńelv carhoztata engo̗met… " Nyelvelmélet és nyelvtechnológia találkozása egy nyelvtörténeti kutatásban

Előadás a Fiatal Kutatók Klubjában, 2013. szeptember 18-án, az MTA Nyelvtudományi Intézetben, Ege... more Előadás a Fiatal Kutatók Klubjában, 2013. szeptember 18-án, az MTA Nyelvtudományi Intézetben, Egedi Barbarával és Hegedűs Veronikával közösen.

Research paper thumbnail of A nyelvtechnológia alkalmazási területei – Az információkinyeréstől a történeti korpuszokig

Meghívott előadás a Piliscsabai Nyelvészkörben, 2012. október 5-én Piliscsabán.

Research paper thumbnail of A Nyelv- és Beszédtechnológiai Platform Megvalósítási Terve

Research paper thumbnail of Digitális revitalizáció és automatikus szótárépítés

Research paper thumbnail of Az Ómagyar Korpusz bemutatása

Research paper thumbnail of Hatás alatt álló nyelvek -- Az URaLUID adatbázis bemutatása

Research paper thumbnail of Introducing the UraLUID Database -- Uralic Languages Under the Influence Database

Research paper thumbnail of Magyar nyelvtechnológiai infrastruktúra a társadalomtudományok szolgálatában

Research paper thumbnail of Szekvenciális elemzők: a hunner és a hunchunk

Research paper thumbnail of A hun* eszközlánc szószintű feldolgozó eszközei

Research paper thumbnail of Silver standard korpuszok tulajdonnév-felismeréshez

Research paper thumbnail of A históriás énekek számítógépes elemzésének módszertani kérdései

A históriás ének: poétikai és filológiai kérdések konferencia 2022. június 10. Az előadás az ELTE... more A históriás ének: poétikai és filológiai kérdések konferencia 2022. június 10. Az előadás az ELTE BTK MIKTI OTKA K135631 kutatócsoport keretében valósult meg.

Research paper thumbnail of Az NYTK-NerKor több szempontú kiértékelése

MSZNY2022, 2022

Előadás a 2022-es MSZNY-en.

Research paper thumbnail of Újabb fejlemények az e-magyar háza táján

Research paper thumbnail of Az e-magyar szövegfeldolgozó eszközlánc bemutatása

Előadás a TransLinguistica 5. konferencián, 2019. május 30., Marosvásárhely.

Research paper thumbnail of Finnugor nyelvű közösségek nyelvtechnológiai támogatása online tartalmak létrehozásában

Az előadásban bemutatott folyamatban levő projekt célja, hogy kisebb finnugor nyelvekre állítson ... more Az előadásban bemutatott folyamatban levő projekt célja, hogy kisebb finnugor nyelvekre állítson elő nyelvi erőforrásokat, amelyekkel revitalizálni lehet ezeket a veszélyeztett nyelvi közösségeket. A projekt során párhuzamos és összevethető korpuszokból kétnyelvű protoszótárakat állítunk elő, melyeket anyanyelvi beszélők fognak ellenőrizni. A különböző nyelvű, egymásnak megfeleltetett szóalakok morfológiai, lexikai, etimológiai információkkal kibővítve kerülnek majd feltöltésre a Wiktionarybe. A projekt során számolnunk kell azzal a nehézséggel, hogy nyelvtechnológiai erőforrások a kisebb finnugor nyelvekre kevéssé állnak rendelkezésre, ezért a szövegfeldolgozás során nyelvfüggetlen gépi tanulási módszereket alkalmazunk. A projekt összes melléktermékét (modellek, korpuszok, szövegfeldolgozó eszközláncok, elemzett szövegek) nyilvánosan elérhetővé tesszük.

Research paper thumbnail of Lexikai erőforrások automatikus előállítása kisebbségi finnugor nyelvekre

XIV. Magyar Számítógépes Nyelvészeti Konferencia

Research paper thumbnail of Normo: Egy automatikus normalizáló eszköz középmagyar szövegekhez

XIV. Magyar Számítógépes Nyelvészeti Konferencia

Research paper thumbnail of Négy hatás alatt álló nyelv -- Korpuszépítés kis uráli nyelvekre

XIII. Magyar Számítógépes Nyelvészeti Konferencia

Research paper thumbnail of Korpuszépítés ómagyar kódexekből

Research paper thumbnail of Korpuszépítés középmagyar bibliafordításokból – különös tekintettel a Károli-féle Bibliára

Korpuszépítés középmagyar bibliafordításokból – különös tekintettel a Károli-féle Bibliára , Oct 18, 2017

Research paper thumbnail of UraLUID: Supporting data-driven (prosodic) research

2nd workshop on Uralic Prosody, Sep 28, 2017

Research paper thumbnail of Language technology support for Finno-Ugric digital communities

Research paper thumbnail of Automatically generated NE tagged corpora for English and Hungarian

Research paper thumbnail of Automatikus korpuszépítés tulajdonnév-felismerés céljára

Research paper thumbnail of Gradual expansion in the use of the definite article Checking a theory against the Old Hungarian Corpus

Research paper thumbnail of Metaforák és metonímiák kezelése a számítógépes nyelvészetben

Research paper thumbnail of Languages under the Influence: Building a Database of Uralic Languages

Research paper thumbnail of Uralic Languages Under the Influence Database (UraLUID)

Research paper thumbnail of Az Európai Médiafigyelő (EMM) magyar változata

Research paper thumbnail of Automatic creation of bilingual dictionaries for Finno-Ugric minority languages