Eszter Simon - Academia.edu (original) (raw)

Papers by Eszter Simon

Seláf Levente (szerk.): A históriás ének: poétikai és filológiai kérdések , 2023

Though the GYDER system has achieved the highest accuracy scores for the metonymy resolution shar... more Though the GYDER system has achieved the highest accuracy scores for the metonymy resolution shared task at SemEval-2007 in all six subtasks, we don’t consider the results (72.80 % accuracy for org, 84.36 % for loc) particularly impressive, and argue that metonymy resolution needs more features. 1

Supervised Named Entity Recognizers require large amounts of annotated text. Since manual annotat... more Supervised Named Entity Recognizers require large amounts of annotated text. Since manual annotation is a highly costly procedure, reducing the annotation cost is essential. We present a fully automatic method to build NE annotated corpora from Wikipedia. In contrast to recent work, we apply a new method, which maps the DBpedia classes into CoNLL NE types. Since our method is mainly language-independent, we used it to generate corpora for English and Hungarian. The corpora are freely available.

This paper describes morphdb.hu, a Hungarian lexical database and morphological grammar. Morphdb.... more This paper describes morphdb.hu, a Hungarian lexical database and morphological grammar. Morphdb.hu is the outcome of a several-year collaborative effort and represents the resource with the widest coverage and broadest range of applicability presently available for Hungarian. The grammar resource is the formalization of well-founded theoretical decisions handling inflection and productive derivation. The lexical database was created by merging three independent lexical databases, and the resulting resource was further extended.

The Second International Workshop on Computational Linguistics for Uralic Languages (SIWCLUL) was... more The Second International Workshop on Computational Linguistics for Uralic Languages (SIWCLUL) was held in Szeged in January 20⒗ The goals of the conference series include increased co-operation between the researchers, universities and research centres working on Uralic languages. The event gathered a number of participants from all over Eurasia, including Finland, Hungary, Estonia, Ireland, Germany, Austria and Norway among others. The conference also marked a start of an Association for Computational Linguistics’ Special Interest Group for Uralic Languages (ACLSIGUR).

XVIII. Magyar Számítógépes Nyelvészeti Konferencia, 2022

Cikkünkben az NYTK-NerKor korpusz kiértékelését mutatjukbe több rendszer segítségével. Azt vizsgá... more Cikkünkben az NYTK-NerKor korpusz kiértékelését mutatjukbe több rendszer segítségével. Azt vizsgáljuk, hogy az egymillió tokenttartalmazó, műfajilag heterogén, szabadon elérhető gold standard adat-halmaz mennyire használható magyar nyelvű tulajdonnév-felismerő rend-szerek fejlesztéséhez. A kiértékeléshez négy különböző rendszert hasz-náltunk: a CRFsuite-ot, a magyar spaCy-t, a Stanzát és azemBERT-et.Cikkünkben ismertetjük az egyes rendszerek által elért eredményeket,melyeket össze is hasonlítunk. Az eredmények azt mutatják, hogy azNYTK-NerKor és a Szeged NER korpusz együttes használata még sta-bilabb modelleket eredményezhet, valamint hogy az NYTK-NerKorontanítva a rendszerek nagyobb általánosító képességgel rendelkeznek, amiahhoz kell, hogy egy azelőtt nem látott szövegben jól azonosítsák a ne-veket.

TSD2021, 2021

Here we present NYTK-NerKor, a gold standard Hungarian named entity annotated corpus containing 1... more Here we present NYTK-NerKor, a gold standard Hungarian named entity annotated corpus containing 1 million tokens. This is the largest corpus ever in its kind. It contains balanced text selection from five genres: fiction, legal, news, web, and Wikipedia. A ca. 200,000 tokens subcorpus contains gold standard morphological annotation besides NE labels. We provide official train, development and test datasets in a proportion of 80%-10%-10%. All sets provide a balanced selection from all genres and sources, while the morphologically annotated subcorpus is also represented in all sets in a balanced way. The format of data files are CoNLL-U Plus, in which the NE annotation follows the CoNLL2002 labelling standard, while morphological information is encoded using the well-known Universal Dependencies POS tags and morphosyntactic features. The novelty of NYTK-NerKor as opposed to similar existing corpora is that it is: by an order of magnitude larger, freely available for any purposes, containing text material from different genres and sources, and following international standards in its format and tagset. The corpus is available under the license CC-BY-SA 4.

Általános Nyelvészeti Tanulmányok 32., 2020

A nyelvi kulturális örökség elérhetővé tételében kulcsfontosságú szerep jut a nyelvtechnológiának... more A nyelvi kulturális örökség elérhetővé tételében kulcsfontosságú szerep jut a nyelvtechnológiának, melynek módszereivel a kutatók egységes, következetes, nyelvi információval ellátott adatbázisokhoz juthatnak. A nyelvtörténészek és nyelvtechnológusok egyik legfontosabb együttműködési terepe a történeti korpuszok építése, melyek kiváló alapanyagot szolgáltatnak az elméleti kutatásoknak. A jelen cikkben bemutatott korpusz, a Párhuzamos Bibliakorpusz, az Ómagyar Korpusz anyagára támaszkodik, és tartalmazza mindazokat az ó-és középmagyar kori magyar nyelvű bibliafordításokat, amelyek abban szerepelnek. A Párhuzamos Bibliakorpuszra épülő keresőalkalmazás, a Párhuzamos Bibliaolvasó pedig kiegészíti az Ómagyar Korpuszhoz készült Régi Magyar Konkordancia nevű korpuszlekérdező felületet, ugyanis míg abban konkrét nyelvi elemekre, tulajdonságaikra és környezetükre lehet keresni, itt bibliai helyekre tudunk rákeresni és a kapott találatokon összehasonlító vizsgálatokat végezni. A Párhuzamos Bibliaolvasó elérhető a http://parallelbible.nytud.hu URL-en keresztül, míg a Párhuzamos Bibliakorpusz anyaga letölthető a https://github.com/dlt-rilmta/parallelbible GitHub repozitóriumból. A weboldal és a repozitórium tartalma angolul is olvasható.

Multilingualism and Plurilingualism in Europe, 2019

In this paper, we present a project whose objective is to provide linguistically-based support fo... more In this paper, we present a project whose objective is to provide linguistically-based support for several Finno-Ugric digital communities in generating online content. By applying automatic dictionary-creating methods, we created bilingual dictionaries for six small Finno-Ugric languages (Udmurt, Komi-Permyak, Komi-Zyrian, Hill Mari, Meadow Mari, and Northern Sami) paired with four thriving languages which are important for these small communities (English, Finnish, Hungarian, and Russian). Since these minority languages are under-resourced languages, and standard dictionary-building methods require a large amount of pre-processed data, we had to find alternative methods. In a thorough evaluation, we compare the results for each method, focusing on the language pairs where Northern Sami is the source language. By generating online content, we aim to promote multilingualism and help revitalize the digital functions of these Finno-Ugric languages.

Előadások a Petőfi Irodalmi Múzeumban 2020. szeptember 23-án.

K + K = 120: Papers dedicated to L. Kálmán & A. Kornai on the occasion of their 60th birthdays, 2019

Named Entity Recognition (NER) is one of the most intensively studied tasks of computational ling... more Named Entity Recognition (NER) is one of the most intensively studied tasks of computational linguistics. It has two substeps: first, locating the Named Entities (NEs) in unstructured texts, and second, classifying them into pre-defined categories. A key issue is how to define NEs. This issue interconnects with the issue of selection of classes and the annotation schemes applied in the field of NER. The major standard guidelines do not give an exact definition of NEs, but rather list examples and counterexamples. For getting a usable definition of NEs, we investigate the approach taken in the philosophy of language and linguistics, and we map our findings to the NER task. We do not wish to give a complete description of the theory and typology of proper names but to find a plausible way to define linguistic units relevant to the NER task.

XVI. Magyar Számítógépes Nyelvészeti Konferencia, 2020

A cikkben az e-magyar nyelvfeldolgozó eszközlánc új verzióján, az emtsv-n végrehajtott fejlesztés... more A cikkben az e-magyar nyelvfeldolgozó eszközlánc új verzióján, az emtsv-n végrehajtott fejlesztéseket mutatjuk be. Az emtsv fő tulajdonságai közé tartozik a teljes modularitás, amit az egységes formátum és keretrendszer tesz lehetővé. Ebből következik, hogy az emtsv-be könnyen lehet új modulokat integrálni, valamint az egyes elemzési lépéseknél be- és kiszállni. Ezt illusztrálandó egyrészt már létező eszközöket integráltunk (UDPipe, Hunspell), másrészt új modulokat fejlesztettünk (emTerm, emDiff, emZero), harmadrészt a már meglévő modulokat fejlesztettük tovább (detokenizálási funkció az emToken-ben). A cikkben ezeket mutatjuk be, továbbá az emtsv-t teljesítmény és gyorsaság szempontjából összehasonlítjuk hasonló funkcionalitásokkal bíró magyar nyelvfeldolgozó eszközláncokkal, mint a UDPipe, a huspaCy és a Magyarlánc. Az emtsv LGPL 3.0 licenc alatt elérhető a https://github. com/dlt-rilmta/emtsv GitHub repozitóriumból.

Beszéd-és nyelvelemző szoftverek a versenyképességért és az esélyegyenlőségért – HunCLARIN korpuszok és nyelvtechnológiai eszközök a bölcsészet-és társadalomtudományokban, 2019

ACL LAW ws, 2019

We present a more efficient version of the e-magyar NLP pipeline for Hungarian called emtsv. It i... more We present a more efficient version of the e-magyar NLP pipeline for Hungarian called emtsv. It integrates Hungarian NLP tools in a framework whose individual modules can be developed or replaced independently and allows new ones to be added. The design also allows convenient investigation and manual correction of the data flow from one module to another. The improvements we publish include effective communication between the modules and support of the use of individual modules both in the chain and standing alone. Our goals are accomplished using extended tsv (tab separated values) files, a simple, uniform, generic and self-documenting input/output format. Our vision is maintaining the system for a long time and making it easier for external developers to fit their own modules into the system, thus sharing existing competencies in the field of processing Hungarian, a mid-resourced language. The source code is available under LGPL 3.0 license at https://github.com/dlt-rilmta/emtsv .

MSZNY2019, 2019

A magyarra alkalmazott morfológiai annotációs sémák és címkekészletek sokszínűsége és eltérő doku... more A magyarra alkalmazott morfológiai annotációs sémák és címkekészletek sokszínűsége és eltérő dokumentáltsága ösztönzött minket abban a munkában, amelynek első lépéseit mutatja be ez a cikk. A munka két fő részből áll: egyrészt összegyűjtjük és közzétesszük a magyarra alkalmazott morfológiai annotációs sémákkal és címkekészletekkel kapcsolatos elérhető információkat, másrészt konvertereket írunk a címkekészletek között. Ebben a cikkben három konvertert ismertetünk.

MSZNY2019, 2019

Az e-magyar nyelvfeldolgozó rendszer elkészülése óta több ízben felmerült az igény a hatékonyságá... more Az e-magyar nyelvfeldolgozó rendszer elkészülése óta több ízben felmerült az igény a hatékonyságának növelésére és használhatóságának egyszerűsítésére, melyek figyelembevételével továbbfejlesztettük a meglévő szövegfeldolgozó rendszert. Célunk a modulok közötti hatékony kommunikáció megvalósítása, valamint az egyes modulok láncba építésének és önálló használatának egyenrangú támogatása. Ezt egy nemzetközi szabványokkal összeegyeztethető, egyszerű, egységes és általános be- és kimeneti formátum használatával valósítjuk meg. Ez terveink szerint hosszú időre jövőállóvá teszi a rendszert, valamint még szélesebbre tárja a külső fejlesztők előtt a kaput, hogy saját moduljaikat a rendszerünkhöz tudják illeszteni, megosztva a meglévő kompetenciákat a magyar nyelv számítógépes feldolgozásának területén. A cikkben bemutatjuk az e-magyar új verzióját, az emtsv elnevezésű rendszert.

Seláf Levente (szerk.): A históriás ének: poétikai és filológiai kérdések , 2023

XVIII. Magyar Számítógépes Nyelvészeti Konferencia, 2022

TSD2021, 2021

Általános Nyelvészeti Tanulmányok 32., 2020

Multilingualism and Plurilingualism in Europe, 2019

Előadások a Petőfi Irodalmi Múzeumban 2020. szeptember 23-án.

K + K = 120: Papers dedicated to L. Kálmán & A. Kornai on the occasion of their 60th birthdays, 2019

XVI. Magyar Számítógépes Nyelvészeti Konferencia, 2020

Beszéd-és nyelvelemző szoftverek a versenyképességért és az esélyegyenlőségért – HunCLARIN korpuszok és nyelvtechnológiai eszközök a bölcsészet-és társadalomtudományokban, 2019

ACL LAW ws, 2019

MSZNY2019, 2019

404 Not Found konferencia, 2023

A webaratásból a sok egyéb formátum mellett nagy mennyiségű szöveges anyag is keletkezik. Ezen az... more A webaratásból a sok egyéb formátum mellett nagy mennyiségű szöveges anyag is keletkezik. Ezen az anyagon a természetesnyelv-feldolgozás (natural language processing, NLP) eszközeit alkalmazva egy hatalmas méretű szövegkorpusz jön létre, amiből egyrészt sok hasznos és érdekes adatot lehet kinyerni, másrészt bemenete és segédeszköze lehet további nyelvfeldolgozó lépéseknek. Előadásomban a webaratásból származó szövegek feldolgozásának lépéseit mutatom be, valamint felvázolom azokat a jövőbeli fejlesztési irányokat, amelyeket tervezünk a webarchívumon csinálni. Utóbbiak közé tartozik az automatikus tárgyszavazás és topikmodellezés, valamint nagy nyelvi modellek (large language models, LLMs) tanítása is.

Hagyományok és kihívások XI. konferencia, 2023

Előadásunkban azt a munkafolyamatot ismertetjük, amelynek során eljutunk a kézzel írt levelektől ... more Előadásunkban azt a munkafolyamatot ismertetjük, amelynek során eljutunk a kézzel írt levelektől a TEI XML fájlokig. Ennek során a közönség olyan lépésekkel ismerkedhet meg, mint az automatikus kézírásfelismerés, a TEI XMl publikáció, illetve a természetesnyelv-feldolgozás egyes szintjei, mint a morfológiai elemzés vagy a tulajdonnév-felismerés. A munkafolyamatot egy példalevélen tervezzük bemutatni. A felület, amelyen publikáljuk az elektronikusan elérhető forrásokat, a Digitális Bölcsészeti Platform: https://dhupla.hu.

A Digitális Bölcsészeti Központ a Petőfi Irodalmi Múzeum tavaly újonnan alakult szervezeti egység... more A Digitális Bölcsészeti Központ a Petőfi Irodalmi Múzeum tavaly újonnan alakult szervezeti egysége. Feladata a hazai közgyűjteményekben zajló digitalizáció, tartalom- és szolgáltatásfejlesztések támogatása, koordinálása és dinamizálása. Az előadásban bemutatjuk az egyes szakterületeken folyó munkát, a közgyűjteményekben való hasznosulását, valamint a jövőre tervezett projekteket.

Résztvevők:
A Digitális Bölcsészeti Központ munkatársai (Digitális bölcsészet: Mihály Eszter, Simon Eszter, Kalcsó Gyula, Szűcs Kata, Vétek Bence, Cséve Anna, Humáninformatika: Mohay Anikó, Hubay Miklós, Palyik Katalin, Dancs Szabolcs, Kasza Zsófia)

Előadás a 2018-as Magyar Tudomány Ünnepén A változó nyelv kisebbségi finnugor nyelvi közösségekbe... more Előadás a 2018-as Magyar Tudomány Ünnepén A változó nyelv kisebbségi finnugor nyelvi közösségekben című konferencián.

Előadás az A számítógépes és kísérletes nyelvészet új útjai és korszerű eszközei című workshopon ... more Előadás az A számítógépes és kísérletes nyelvészet új útjai és korszerű eszközei című workshopon Pécsen, 2019. május 2-án.

Előadás a Korpuszok, nyelvtechnológiai eszközök és kísérletes módszerek a bölcsészet- és társadal... more Előadás a Korpuszok, nyelvtechnológiai eszközök és kísérletes módszerek a bölcsészet- és társadalomtudományokban című workshopon, 2019. február 7-én, Debrecenben.

A nyelvi kulturális örökség elérhetővé tételében kulcsfontosságú szerep jut a nyelvtechnológiának... more A nyelvi kulturális örökség elérhetővé tételében kulcsfontosságú szerep jut a nyelvtechnológiának, melynek módszereivel a kutatók egységes, következetes, nyelvi információval ellátott adatbázisokhoz juthatnak. A nyelvtörténészek és nyelvtechnológusok egyik legfontosabb
együttműködési terepe a történeti korpuszok építése, melyek kiváló alapanyagot szolgáltatnak az elméleti és történeti nyelvészeti kutatásoknak. Az elmúlt évtizedekben számos történeti korpuszt fejlesztettek – elsősorban indoeurópai nyelvekre, de a magyarra is készült néhány. Időrendi sorrendben haladva ezek a következők. Az Ómagyar Korpusz tartalmazza az összes ómagyar korból fennmaradt szövegemléket és néhány középmagyar kori bibliafordítást is. A Történeti Magánéleti Korpusz az ó- és középmagyar kor magánéleti nyelvi regiszteréhez közelebb álló műfajokat tartalmazza: 1772 előtti magánlevelekből és peres eljárások jegyzőkönyveiből épül fel. A Magyar Történeti Szövegtár pedig 1772-től, vagyis az újmagyar kor kezdetétől egészen a 20. század végéig tartalmaz szövegeket. Előadásomban ezeket a korpuszokat és a hozzájuk tartozó lekérdezőfelületeket fogom ismertetni, és néhány példán keresztül
azt is illusztrálom, hogy milyen kutatási kérdésekre hogyan tudunk választ kapni ezeknek az adatbázisoknak a segítségével.

Előadás a Fiatal Kutatók Klubjában, 2013. szeptember 18-án, az MTA Nyelvtudományi Intézetben, Ege... more Előadás a Fiatal Kutatók Klubjában, 2013. szeptember 18-án, az MTA Nyelvtudományi Intézetben, Egedi Barbarával és Hegedűs Veronikával közösen.

Meghívott előadás a Piliscsabai Nyelvészkörben, 2012. október 5-én Piliscsabán.

A históriás ének: poétikai és filológiai kérdések konferencia 2022. június 10. Az előadás az ELTE... more A históriás ének: poétikai és filológiai kérdések konferencia 2022. június 10. Az előadás az ELTE BTK MIKTI OTKA K135631 kutatócsoport keretében valósult meg.

MSZNY2022, 2022

Előadás a 2022-es MSZNY-en.

Előadás a TransLinguistica 5. konferencián, 2019. május 30., Marosvásárhely.

Az előadásban bemutatott folyamatban levő projekt célja, hogy kisebb finnugor nyelvekre állítson ... more Az előadásban bemutatott folyamatban levő projekt célja, hogy kisebb finnugor nyelvekre állítson elő nyelvi erőforrásokat, amelyekkel revitalizálni lehet ezeket a veszélyeztett nyelvi közösségeket. A projekt során párhuzamos és összevethető korpuszokból kétnyelvű protoszótárakat állítunk elő, melyeket anyanyelvi beszélők fognak ellenőrizni. A különböző nyelvű, egymásnak megfeleltetett szóalakok morfológiai, lexikai, etimológiai információkkal kibővítve kerülnek majd feltöltésre a Wiktionarybe. A projekt során számolnunk kell azzal a nehézséggel, hogy nyelvtechnológiai erőforrások a kisebb finnugor nyelvekre kevéssé állnak rendelkezésre, ezért a szövegfeldolgozás során nyelvfüggetlen gépi tanulási módszereket alkalmazunk. A projekt összes melléktermékét (modellek, korpuszok, szövegfeldolgozó eszközláncok, elemzett szövegek) nyilvánosan elérhetővé tesszük.

XIV. Magyar Számítógépes Nyelvészeti Konferencia

XIII. Magyar Számítógépes Nyelvészeti Konferencia

Korpuszépítés középmagyar bibliafordításokból – különös tekintettel a Károli-féle Bibliára , Oct 18, 2017

2nd workshop on Uralic Prosody, Sep 28, 2017