Ústav Českého národního korpusu (original) (raw)
Zveřejnili jsme korpus InterCorp verze 16ud, který obsahuje stejné texty jako verze 16, ale v anotaci podle UD. Tato anotace je mezijazykově srovnatelná a zahrnuje také syntax. Korpus dále nově obsahuje metriky syntaktické komplexity a lexikální bohatosti.
Ve spolupráci s ÚČL AV ČR jsme aktualizovali korpus současné české poezie (KSP). Ve srovnání s předchozí verzí přibyla řada tištěných sbírek, básně ze webových serverů byly lépe profiltrovány a také strukturace korpusu je nyní jednodušší a logičtější.
Pokud potřebujete zjistit, jak některý jazykový jev vypadá v korpusových datech, nemusíte už hledat vhodnou aplikaci a učit se psát CQL dotaz. Můžete se prostě v ChatGPT zeptat modelu „Corpus Linguist„, který se ČNK zeptá za vás.
V pondělí 9. září 2024 to už je neuvěřitelných 30 let, co byl na Filozofické fakultě založen Ústav Českého národního korpusu. K výročí jsme připravili několik nových korpusů a další překvapení, takže se máte věru nač těšit!
Zveřejňujeme verzi 3 korpusu ORTOFON, která je završením celé řady. Kromě přidání dalšího materiálu a provedení řady oprav v transkripci má tato verze zcela novou lemmatizaci a morfologické značkování ve standardu korpusu SYN2020.
Byla zveřejněna další verze rozhraní KonText s novými funkcemi; zejména jde o klíčová slova a o zobrazování překladových ekvivalentů v paralelních korpusech po kliknutí na vybrané slovo přímo v konkoranci.
V následujících dvou týdnech jste všichni srdečně vítáni na popularizačních přednáškách a jazykových rychlokurzech, které proběhnou v rámci Měsíce pro fakultu. Už v neděli 21. 1. při Pootevření fakulty proběhne v místnosti 18 na hlavní budově série krátkých přednášek určená pro studující, akademickou i neakademickou obec FF UK. Následovat bude pondělní Den jazykových rychlokurzů, během […]
Také letos koncem roku zveřejňujeme další aktualizaci korpusu současné psané češtiny SYN, jehož verze 12 nyní po zahrnutí publicistiky z roku 2022 dosahuje velikosti 5,17 mld. slov.
ČNK zveřejňuje diachronní korpus OnomOs sestavený badateli Katedry českého jazyka FF OU. Korpus obsahuje texty z vybraných čísel (Rudého) Práva od 20. let 20. stol. do současnosti a zahrnuje také anotaci jmenných entit.
Gratulujeme kolegům k zisku standardních projektů GAČR: Jiří Milička uspěl s grantem Velké jazykové modely prizmatem korpusové lingvistiky a tým Hany Skoumalové bude řešit projekt Česká frazeologie a proměny jejího užívání v dobových a žánrových kontextech.
Dne 12. dubna 2022 přednesl prof. Martin Hlipert online přednášku: Life is too short for long words: Studying English clippings in language use and in the laboratory (PDF)
Ve dnech 14. a 16. května 2019 nás navštívil prof. George Mikros a přednesl dvě přednášky: Predicting the author’s gender using computational stylistic methods (PDF) Stylometric analysis and machine learning methods (PDF)
Dne 20. 3. 2019 nás navštívil prof. Achim Rabus, který působí na univerzitě v německém Freiburgu. Tématem jeho přednášky bylo představení webové platformy SpoCo a její využití při práci s mluvenými korpusy. SpoCo: a bottom-up initiative to build Slavic spoken corpora Abstract In the talk, the SpoCo infrastructure for Slavic (and non-Slavic) spoken (and non-spoken) […]
Dne 12. 3. 2019 nás navštívil dr. Maarten Janssen, který působí na nejstarší portugalské univerzitě. Představil nám nástroj na práci s korpusy, resp. s daty připravenými pro korpusové zpracování, nazvaný Teitok. TEITOK – a web-based platform for viewing, creating, and editing corpora Abstract In this talk I will give a general overview of TEITOK, an […]
Ve dnech 27. a 28. listopadu 2017 přednesl na Filozofické fakultě UK dvě přednášky Dr. Michael Ramscar. Abstrakty obou přednášek jsou k dispozici zde.
Ve dnech 26. a 27. dubna 2017 přednesl na Filozofické fakultě UK dvě přednášky profesor Stefan Th. Gries. Abstrakty obou přednášek jsou k dispozici zde.
Ve dnech 11. a 12. řijna naše pozvání přijal profesor Rafał Ludwik Górski a přednesl v ÚČNK a na Filozofické fakultě dvě předášky.
3. a 4. května 2016 se uskutečnily přednášky korpusového lingvisty Alana Partingtona. 3. 5. 2016 v Ústavu Českého národního korpusu: Corpus-assisted Discourse Studies (CADS): Good Practices and Potential Pitfalls 4. 5. 2016 hlavní budova FF UK: “Why are you English all so anti-European?” A corpus-assisted discourse study (CADS) of “stay or leave?” arguments on the […]
V dubnu 2016 navštívil Prahu americký lingvista Mark Davies, odborník na design korpusů a práci s nimi, zejména analýzu synchronní i diachronní variace. Přednesl dvě přednášky, jednu na půdě hlavní budovy Filozofické fakulty UK (pondělí 11. 4. 2016) a druhou v rámci interního semináře Ústavu Českého národního korpusu (úterý 12. 4. 2016). Více informací včetně […]
V listopadu 2014 se uskutečnily dvě přednášky Wolfganga Teuberta. 24. listopadu 2014 na Filozofické fakultě UK náš host přednesl přednášku Building onto the corpus-driven approach: a wider look on meaning a 25. listopadu 2014 v Ústavu Českého národního korpusu přednášku Corpus linguistics and meaning of lexical items: how to distinguish grief from mourning. Abstrakty přednášek: […]