Ústav Českého národního korpusu (original) (raw)

Zve­řej­nili jsme kor­pus In­ter­Corp verze 16ud, který ob­sa­huje stejné texty jako verze 16, ale v ano­taci podle UD. Tato ano­tace je me­zi­ja­zy­kově srov­na­telná a za­hr­nuje také syn­tax. Kor­pus dále nově ob­sa­huje me­t­riky syn­tak­tické kom­ple­xity a le­xi­kální bo­ha­tosti.

Ve spo­lu­práci s ÚČL AV ČR jsme ak­tu­a­li­zo­vali kor­pus sou­časné české po­ezie (KSP). Ve srov­nání s před­chozí verzí při­byla řada tiš­tě­ných sbí­rek, básně ze webo­vých ser­verů byly lépe pro­fil­tro­vány a také struk­tu­race kor­pusu je nyní jed­no­dušší a lo­gič­tější.

Po­kud po­tře­bu­jete zjis­tit, jak ně­který ja­zy­kový jev vy­padá v kor­pu­so­vých da­tech, ne­mu­síte už hle­dat vhod­nou apli­kaci a učit se psát CQL do­taz. Mů­žete se prostě v Chat­GPT ze­ptat mo­delu „Cor­pus Lin­gu­ist„, který se ČNK ze­ptá za vás.

V pondělí 9. září 2024 to už je neuvěřitelných 30 let, co byl na Filozofické fakultě založen Ústav Českého národního korpusu. K výročí jsme připravili několik nových korpusů a další překvapení, takže se máte věru nač těšit!

Zve­řej­ňu­jeme verzi 3 kor­pusu OR­TO­FON, která je za­vr­še­ním celé řady. Kromě při­dání dal­šího ma­te­ri­álu a pro­ve­dení řady oprav v tran­skripci má tato verze zcela no­vou lem­ma­ti­zaci a mor­fo­lo­gické znač­ko­vání ve stan­dardu kor­pusu SYN2020.

Byla zve­řej­něna další verze roz­hraní Kon­Text s no­vými funk­cemi; zejména jde o klí­čová slova a o zob­ra­zo­vání pře­kla­do­vých ekvi­va­lentů v pa­ra­lel­ních kor­pusech po klik­nutí na vy­brané slovo přímo v kon­ko­ranci.

V následujících dvou týdnech jste všichni srdečně vítáni na popularizačních přednáškách a jazykových rychlokurzech, které proběhnou v rámci Měsíce pro fakultu. Už v neděli 21. 1. při Pootevření fakulty proběhne v místnosti 18 na hlavní budově série krátkých přednášek určená pro studující, akademickou i neakademickou obec FF UK. Následovat bude pondělní Den jazykových rychlokurzů, během […]

Také le­tos kon­cem roku zve­řej­ňu­jeme další ak­tu­a­li­zaci kor­pusu sou­časné psané češ­tiny SYN, je­hož verze 12 nyní po za­hr­nutí pu­b­li­cis­tiky z roku 2022 do­sa­huje ve­li­kosti 5,17 mld. slov.

ČNK zve­řej­ňuje di­a­chronní kor­pus Ono­mOs se­sta­vený ba­da­teli Ka­tedry čes­kého ja­zyka FF OU. Kor­pus ob­sa­huje texty z vy­bra­ných čí­sel (Rudého) Práva od 20. let 20. stol. do sou­čas­nosti a za­hr­nuje také ano­taci jmen­ných en­tit.

Gratulujeme kolegům k zisku standardních projektů GAČR: Jiří Milička uspěl s grantem Velké jazykové modely prizmatem korpusové lingvistiky a tým Hany Skoumalové bude řešit projekt Česká frazeologie a proměny jejího užívání v dobových a žánrových kontextech.

Martin Hilpert

Dne 12. dubna 2022 přednesl prof. Martin Hlipert online přednášku: Life is too short for long words: Studying English clippings in language use and in the laboratory (PDF)

Ve dnech 14. a 16. května 2019 nás navštívil prof. George Mikros a přednesl dvě přednášky: Predicting the author’s gender using computational stylistic methods (PDF) Stylometric analysis and machine learning methods (PDF)

Dne 20. 3. 2019 nás navštívil prof. Achim Rabus, který působí na univerzitě v německém Freiburgu. Tématem jeho přednášky bylo představení webové platformy SpoCo a její využití při práci s mluvenými korpusy. SpoCo: a bottom-up initiative to build Slavic spoken corpora Abstract In the talk, the SpoCo infrastructure for Slavic (and non-Slavic) spoken (and non-spoken) […]

Dne 12. 3. 2019 nás navštívil dr. Maarten Janssen, který působí na nejstarší portugalské univerzitě. Představil nám nástroj na práci s korpusy, resp. s daty připravenými pro korpusové zpracování, nazvaný Teitok. TEITOK – a web-based platform for viewing, creating, and editing corpora Abstract In this talk I will give a general overview of TEITOK, an […]

Ve dnech 27. a 28. listopadu 2017 přednesl na Filozofické fakultě UK dvě přednášky Dr. Michael Ramscar. Abstrakty obou přednášek jsou k dispozici zde.

Ve dnech 26. a 27. dubna 2017 přednesl na Filozofické fakultě UK dvě přednášky profesor Stefan Th. Gries. Abstrakty obou přednášek jsou k dispozici zde.

Rafał Ludwik Górski

Ve dnech 11. a 12. řijna naše pozvání přijal profesor Rafał Ludwik Górski a přednesl v ÚČNK a na Filozofické fakultě dvě předášky.

Alan Partington

3. a 4. května 2016 se uskutečnily přednášky korpusového lingvisty Alana Partingtona. 3. 5. 2016 v Ústavu Českého národního korpusu: Corpus-assisted Discourse Studies (CADS): Good Practices and Potential Pitfalls 4. 5. 2016 hlavní budova FF UK: “Why are you English all so anti-European?” A corpus-assisted discourse study (CADS) of “stay or leave?” arguments on the […]

Mark Davies

V dubnu 2016 navštívil Prahu americký lingvista Mark Davies, odborník na design korpusů a práci s nimi, zejména analýzu synchronní i diachronní variace. Přednesl dvě přednášky, jednu na půdě hlavní budovy Filozofické fakulty UK (pondělí 11. 4. 2016) a druhou v rámci interního semináře Ústavu Českého národního korpusu (úterý 12. 4. 2016). Více informací včetně […]

Wolfgang Teubert

V listopadu 2014 se uskutečnily dvě přednášky Wolfganga Teuberta. 24. listopadu 2014 na Filozofické fakultě UK náš host přednesl přednášku Building onto the corpus-driven approach: a wider look on meaning a 25. listopadu 2014 v Ústavu Českého národního korpusu přednášku Corpus linguistics and meaning of lexical items: how to distinguish grief from mourning. Abstrakty přednášek: […]