LIVAC Synchronous Corpus (original) (raw)

About DBpedia

LIVAC is an uncommon language corpus dynamically maintained since 1995. Different from other existing corpora, LIVAC has adopted a rigorous and regular as well as "Windows" approach in processing and filtering massive media texts from representative Chinese speech communities such as Hong Kong, Macau, Taipei, Singapore, Shanghai, Beijing, as well as Guangzhou, and Shenzhen. The contents are thus deliberately repetitive in most cases, represented by textual samples drawn from editorials, local and international news, cross-Formosan Straits news, as well as news on finance, sports and entertainment. By 2020, 3 billion characters of news media texts have been filtered so far, of which 700 million characters have been processed and analyzed and have yielded an expanding Pan-Chinese dictionary

thumbnail

Property Value
dbo:abstract LIVAC is an uncommon language corpus dynamically maintained since 1995. Different from other existing corpora, LIVAC has adopted a rigorous and regular as well as "Windows" approach in processing and filtering massive media texts from representative Chinese speech communities such as Hong Kong, Macau, Taipei, Singapore, Shanghai, Beijing, as well as Guangzhou, and Shenzhen. The contents are thus deliberately repetitive in most cases, represented by textual samples drawn from editorials, local and international news, cross-Formosan Straits news, as well as news on finance, sports and entertainment. By 2020, 3 billion characters of news media texts have been filtered so far, of which 700 million characters have been processed and analyzed and have yielded an expanding Pan-Chinese dictionary of 2.5 million words from the Pan-Chinese printed media. Through rigorous analysis based on computational linguistic methodology, LIVAC has at the same time accumulated a large amount of accurate and meaningful statistical data on the Chinese language and their speech communities in the Pan-Chinese region, and the results show considerable and important variations. The "Windows" approach is the most representative feature of LIVAC and has enabled Pan-Chinese media texts to be quantitatively analyzed according to various attributes such as locations, time and subject domains. Thus, various types of comparative studies and applications in information technology as well as development of often related innovative applications have been possible. Moreover, LIVAC has allowed longitudinal developments to be taken into account, facilitating Key Word in Context (KWIC) and comprehensive study of target words and their underlying concepts as well as linguistic structures over the past 20 years, based on variables such as region, duration and content. Results from the extensive and accumulative data analysis contained in LIVAC have enabled the cultivation of textual databases of proper names, place names, organization names, new words, and bi-weekly and annual rosters of media figures. Related applications have included the establishment of verb and adjective databases, the formulation of sentiment indices, and related opinion mining, to measure and compare the popularity of global media figures in the Chinese media (LIVAC Annual Pan-Chinese Celebrity Rosters, later renamed as the Pan-Chinese Media Personalities Rosters) and construction of monthly new word lexicons (LIVAC Annual Pan-Chinese New Word Rosters). On this basis, the analysis of the emergence, diffusion and transformation of new words, and the publication of dictionaries of neologisms have been made possible. A recent focus is on the relative balance between disyllabic words and growing trisyllabic words in the Chinese language, and the comparative study of light verbs in three Chinese speech communities. (en) LIVAC Synchronous Corpus — це незвичайний мовний корпус, який динамічно підтримується з 1995 року. На відміну від інших існуючих корпусів, LIVAC застосував суворий і регулярний, а також «Windows» підхід до обробки та фільтрації масових медіа-текстів із репрезентативних китайських мовних спільнот, таких як Гонконг , Макао , Тайбей , Сінгапур , Шанхай , Пекін, а також Гуанчжоу і Шеньчжень . Таким чином, зміст у більшості випадків навмисно повторюється, представлений текстовими зразками, взятими з редакційних статей, місцевих та міжнародних новин, а також новин фінансів, спорту та розваг. До 2020 року наразі було відфільтровано 3 мільярди символів текстів новин, з яких 700 мільйонів символів було оброблено та проаналізовано. Завдяки ретельному аналізу на основі обчислювальної лінгвістичної методології LIVAC в той же час накопичив велику кількість точних і значущих статистичних даних про китайську мову та їх мовні спільноти в Пан-китайському регіоні, і результати показують значні та важливі варіації. Підхід «Windows» є найбільш репрезентативною особливістю LIVAC і дає змогу кількісно проаналізувати Пан-китайські медіатексти відповідно до різних атрибутів, таких як місце розташування , час і предметні домени. Таким чином, стали можливими різні типи порівняльних досліджень і застосувань в інформаційних технологіях, а також розробка часто пов'язаних інноваційних застосувань. Крім того, LIVAC дозволив брати до уваги поздовжні зміни, сприяючи ключовому слову в контексті (KWIC) та всебічному вивченню цільових слів та їхніх основних понять, а також мовних структур за останні 20 років, на основі змінних, таких як регіон ,тривалість і зміст . Результати обширного та накопичуваного аналізу даних, що міститься в LIVAC, дозволили створити текстові бази даних власних імен, топонімів, назв організацій, нових слів, а також щотижневі та річні списки медіа-діячів. Пов'язані програми включали створення баз даних дієслів і прикметників, формулювання індексів настроїв і пов'язаний з ними аналіз думок, щоб виміряти та порівняти популярність світових медіа-діячів у китайських ЗМІ (LIVAC Annual Pan-Chinese Celebrity Rosters, пізніше перейменований як Пан-китайські списки медіаособистостей) та створення щомісячних нових лексиконів слів (LIVAC Annual Pan-Chinese New Word Rosters). На цій основі став можливим аналіз появи, поширення та трансформації нових слів, видання словників неологізмів . Нещодавно зосереджено на відносному балансі між двоскладовими словами та зростаючими трискладовими словами в китайській мові, а також на порівняльному вивченні легких дієслів у трьох китайських мовних спільнотах. (uk)
dbo:genre dbr:Text_corpus
dbo:operatingSystem dbr:Cross-platform
dbo:thumbnail wiki-commons:Special:FilePath/Livac.jpg?width=300
dbo:wikiPageExternalLink https://zh.wikipedia.org/zh-hk/%E8%AF%AD%E6%96%99%E5%BA%93 http://www.livac.org
dbo:wikiPageID 43695590 (xsd:integer)
dbo:wikiPageLength 10043 (xsd:nonNegativeInteger)
dbo:wikiPageRevisionID 1104583869 (xsd:integer)
dbo:wikiPageWikiLink dbr:Beijing dbr:Big5 dbr:Hong_Kong dbr:Unicode dbr:Corpus_of_Contemporary_American_English dbr:Cross-platform dbr:Oxford_English_Corpus dbr:Macau dbr:Singapore dbr:Key_Word_in_Context dbr:British_National_Corpus dbr:Text_corpus dbr:Guangzhou dbc:Computational_linguistics dbc:Corpus_linguistics dbc:Natural_language_processing dbc:Online_databases dbc:Applied_linguistics dbc:Linguistic_research dbr:Taipei dbr:Taiwan_Strait dbr:Shanghai dbr:Shenzhen dbr:Neologism dbr:File:LIVAC_Synchronous_Corpus_-_Word_Browser_search.jpg dbr:File:Livac.jpg dbr:Chinese_dictionaries
dbp:caption LIVAC Word Search System (en)
dbp:collapsible yes (en)
dbp:genre dbr:Text_corpus
dbp:language English, Traditional and Simplified Chinese (en)
dbp:logo dbr:File:Livac.jpg
dbp:name LIVAC (en)
dbp:operatingSystem dbr:Cross-platform
dbp:released July 1995 (en)
dbp:screenshot dbr:File:LIVAC_Synchronous_Corpus_-_Word_Browser_search.jpg
dbp:website http://www.livac.org
dbp:wikiPageUsesTemplate dbt:Infobox_Software
dct:subject dbc:Computational_linguistics dbc:Corpus_linguistics dbc:Natural_language_processing dbc:Online_databases dbc:Applied_linguistics dbc:Linguistic_research
gold:hypernym dbr:Corpus
rdf:type owl:Thing dbo:Software schema:CreativeWork dbo:Work wikidata:Q386724 wikidata:Q7397
rdfs:comment LIVAC is an uncommon language corpus dynamically maintained since 1995. Different from other existing corpora, LIVAC has adopted a rigorous and regular as well as "Windows" approach in processing and filtering massive media texts from representative Chinese speech communities such as Hong Kong, Macau, Taipei, Singapore, Shanghai, Beijing, as well as Guangzhou, and Shenzhen. The contents are thus deliberately repetitive in most cases, represented by textual samples drawn from editorials, local and international news, cross-Formosan Straits news, as well as news on finance, sports and entertainment. By 2020, 3 billion characters of news media texts have been filtered so far, of which 700 million characters have been processed and analyzed and have yielded an expanding Pan-Chinese dictionary (en) LIVAC Synchronous Corpus — це незвичайний мовний корпус, який динамічно підтримується з 1995 року. На відміну від інших існуючих корпусів, LIVAC застосував суворий і регулярний, а також «Windows» підхід до обробки та фільтрації масових медіа-текстів із репрезентативних китайських мовних спільнот, таких як Гонконг , Макао , Тайбей , Сінгапур , Шанхай , Пекін, а також Гуанчжоу і Шеньчжень . Таким чином, зміст у більшості випадків навмисно повторюється, представлений текстовими зразками, взятими з редакційних статей, місцевих та міжнародних новин, а також новин фінансів, спорту та розваг. До 2020 року наразі було відфільтровано 3 мільярди символів текстів новин, з яких 700 мільйонів символів було оброблено та проаналізовано. Завдяки ретельному аналізу на основі обчислювальної лінгвістичної (uk)
rdfs:label LIVAC Synchronous Corpus (en) Синхронний корпус LIVAC (uk)
owl:sameAs freebase:LIVAC Synchronous Corpus wikidata:LIVAC Synchronous Corpus dbpedia-uk:LIVAC Synchronous Corpus https://global.dbpedia.org/id/nELq
prov:wasDerivedFrom wikipedia-en:LIVAC_Synchronous_Corpus?oldid=1104583869&ns=0
foaf:depiction wiki-commons:Special:FilePath/LIVAC_Synchronous_Corpus_-_Word_Browser_search.jpg wiki-commons:Special:FilePath/Livac.jpg
foaf:homepage http://www.livac.org
foaf:isPrimaryTopicOf wikipedia-en:LIVAC_Synchronous_Corpus
foaf:name LIVAC (en)
is dbo:wikiPageWikiLink of dbr:Corpus_linguistics dbr:List_of_text_corpora
is foaf:primaryTopic of wikipedia-en:LIVAC_Synchronous_Corpus