Word list (original) (raw)
Часто́тный слова́рь (или частотный список) — набор слов данного языка (или подъязыка) вместе с информацией об их частотности. Словарь может быть отсортирован по частотности, по алфавиту (тогда для каждого слова будет указана его частотность), по группам слов (например, первая тысяча наиболее частотных слов, за ней вторая и т. п.), по типичности (слова, частотные для большинства текстов), и т. д. Частотные списки используются для преподавания языка, создания новых словарей, приложений компьютерной лингвистики, исследований в области лингвистической типологии, и т. д.
Property | Value |
---|---|
dbo:abstract | Vortlistoj de ofteco, foje nomataj oftecaj vortaroj, estas listoj de vortoj en iu lingvo grupigitaj laŭ ofteco de uzado ene de iuj korpusoj cele al akirado de lingvaĵo. Vortlisto de ofteco prefere celas leksikografiajn laborojn. Kelkaj gravaj enfalujoj estas la korpusa enhavo, la tekstara registro kaj la difino de "vorto". En komputa lingvistiko, ofteca listo estas ordigita listo de vortoj (vorto-tipoj) kune kun ilia ofteco, kie ofteco ĉi tie kutime signifas la nombrojn de fojoj kiam vorto(j) aperas en donita tekstaro, de kiu la pozicio povas esti derivita kiel la pozicio en la listo. La historio rilate al kompilado de oftecaj vortaroj estas sufiĉe nona (malpli ol unu jarcento en 2019). En relative mallonga tempo, tiaj vortaroj estis kreitaj por preskaŭ ĉiuj hindeŭropaj lingvoj same kiel por lingvoj de aliaj lingvofamilioj. Pli ol 400 oftecaj vortaroj jam estis eldonitaj, kaj la nombro de specialigitaj oftecaj vortaroj kial ofteca vortaroj pri prozo, poezio, stilo ktp kreskadas. La uzo de vortlistoj laŭ ofteco trovas praktikan aplikadon inter alie en la instruado de lingvoj kaj ĉefe por la bezonoj de maŝintradukado. (eo) Frequenzwörterbücher (auch: Häufigkeitswörterbücher) geben den Wortschatz einer Sprache, eines Autors, einer Textsorte etc. wieder, wobei die Häufigkeit, mit der die einzelnen Wörter in einem Text oder Textkorpus vorkommen, das wichtigste Ziel der Zusammenstellung ist. Wenn man nicht eine Gesamtauswertung der betreffenden Texte durchführen kann, ist es eine notwendige Voraussetzung für die Erstellung eines Frequenzwörterbuchs, dass man für den betreffenden Themenbereich ein hinreichend repräsentatives Textkorpus auswerten kann, damit die gewonnenen Häufigkeitslisten ein Bild von der Gesamtheit der Daten vermitteln. Die bekanntesten Frequenzwörterbücher sind wohl diejenigen, die den Wortschatz einer Sprache insgesamt repräsentieren sollen. Sie ermöglichen es, Aufschluss darüber zu gewinnen, welcher Wortschatz am häufigsten gebraucht und daher zuerst gelernt werden muss, z. B. im muttersprachlichen Unterricht oder auch im Fremdsprachunterricht. Sie können damit ganz praktische Zwecke verfolgen. Aber auch weitere Anwendungen, über die Befriedigung reiner Neugier hinaus, sind möglich: So lassen sich einige elementare Kenntnisse über Sprache aufgrund der Frequenzwörterbücher gewinnen: Das bekannteste der Zipfschen Gesetze gehört dazu, das besagt, dass das Produkt aus Rang und Frequenz der Wörter eine annähernd konstante Größe ergibt. Weitere Implikationen: Je häufiger die Wörter sind, desto kürzer sind sie, desto älter aber sind sie auch. Frequenzwörterbücher haben also sowohl praktischen als auch theoretischen Nutzen und sind wichtige Arbeitsgrundlagen der Sprachstatistik und darüber hinaus der Quantitativen Linguistik. (de) Hitzen zerrendak maiztasunaren arabera, testu bateko corpus batzuen hitzak bere maiztasunaren arabera multzokatzen eta sailkatzen duten listak dira, mailen arabera edo sailkatutako zerrenda gisa, hiztegia eskuratzeko xedea betetzen dutenak. Hitzen maiztasuna eta hiztegiaren ezagutza garrantzia handia izan dute beti hizkuntza berri bat ikasterako orduan eta testu desberdinak idazteko, honek testu baten berezitasuna neurtzeko balio zaigulako. Zenbat eta hitz desberdin eta sinonimo gehiago erabili, artikuluaren hiztegia eta kalitatea hobetuko da. Nahiz eta testua zuzena izan, beti egokiagoa da hitz desberdin anitz aurkitzea eta ez izatea testu errepikakorra, bai kontzeptuen aldetik, bai hitzen aldetik. Maiztasunen araberako hitz-zerrenda batek ikasleei hiztegia ikasteko ahaleginari etekinik onena ateratzeko balio digu, baina batez ere idazleei zuzenduta egon daiteke ere bai, betidanik idazterako orduan hau erronka bat izan delako, hitzak ez errepikatzea eta sinonimoak bilatzea. Maiztasun zerrendak helburu lexikografikoetarako ere egiten dira, hitz arruntak kanpoan uzten ez direla ziurtatzeko kontrol zerrenda moduko gisa. Ezagutzen da hitzen maiztasunak hainbat efektu dituela. Akats garrantzitsu batzuk corpusaren edukia, corpus erregistroa eta "hitzaren definizioa dira". Hitzen zenbaketa mila urtekoa bada ere, oraindik eskuz egindako analisi erraldoia egin da XX. Mendearen erdialdean, corpus handien hizkuntza naturalaren prozesamenduak elektronikoki , hala nola filmen azpitituluak (SUBTLEX megastudy) ikerketa eremua azkartu du. Hainbat ikerketa daude gaur egun honen inguruan, eta metodologia batzuk sortu eta garatu dira maiztasuna aztertzeko. Hizkuntzalaritza konputazionalean, maiztasun-zerrenda hitzen zerrenda (hitz motak) eta horien maiztasunarekin batera ordenatuta dago, eta maiztasunak hemen corpus jakin bateko agerraldi kopurua esan nahi du normalean, eta hortik sailkapena zerrendako posizio gisa atera daiteke. Maiztasun-zerrenden eraikuntzan eragina duten hainbat gai nagusi hauek dira: corpusaren adierazgarritasuna, hitzen maiztasuna, hitz familien tratamendua, hizkeren eta adierazpen finkoen tratamendua, informazio sorta eta beste hainbat irizpide. Aipatu bezala hizkuntza berri bat ikasterako orduan hiztegia ikastea erronka garrantzitsua da, baina benetan zenbat hiztegi jakin behar da hizkuntza berri bat ondo ikasteko? Galdera honi erantzuteko honako puntuak kontuan izan behar dira: ea zenbat hitz dauden xede-hizkuntzan, jatorrizko hiztunek zenbat hitz ezagutzen dituzten edota zenbat hitz behar diren hizkuntza erabiltzaile batek egin behar dituen gauzak egiteko. Hizkuntza baten gaitasunei erreparatzen badiegu, hiztegia ezagutzea askotariko gaitasun bat izango litzateke, baina ez da nahikoa hizkuntza ondo menderatzeko. Hurrengo puntuan maiztasun handiko hitzen baliabideen zerrenda garatzeko kontuan hartu beharko liratekeen hainbat faktore aztertzera pasako gara. (eu) A word list (or lexicon) is a list of a language's lexicon (generally sorted by frequency of occurrence either by levels or as a ranked list) within some given text corpus, serving the purpose of vocabulary acquisition. A lexicon sorted by frequency "provides a rational basis for making sure that learners get the best return for their vocabulary learning effort", but is mainly intended for course writers, not directly for learners. Frequency lists are also made for lexicographical purposes, serving as a sort of checklist to ensure that common words are not left out. Some major pitfalls are the corpus content, the corpus register, and the definition of "word". While word counting is a thousand years old, with still gigantic analysis done by hand in the mid-20th century, natural language electronic processing of large corpora such as movie subtitles (SUBTLEX megastudy) has accelerated the research field. In computational linguistics, a frequency list is a sorted list of words (word types) together with their frequency, where frequency here usually means the number of occurrences in a given corpus, from which the rank can be derived as the position in the list. (en) Часто́тный слова́рь (или частотный список) — набор слов данного языка (или подъязыка) вместе с информацией об их частотности. Словарь может быть отсортирован по частотности, по алфавиту (тогда для каждого слова будет указана его частотность), по группам слов (например, первая тысяча наиболее частотных слов, за ней вторая и т. п.), по типичности (слова, частотные для большинства текстов), и т. д. Частотные списки используются для преподавания языка, создания новых словарей, приложений компьютерной лингвистики, исследований в области лингвистической типологии, и т. д. (ru) Частотний словник — словник, у якому кожне слово характеризується певним числом, що вказує на кількість вживань цього слова в обстеженому масиві текстів, тобто на його абсолютну частоту в цих текстах. У багатьох словниках частота кожного слова в обстежених текстах оцінюється статистично: обраховується відносна похибка, коефіцієнт стабільності чи інші статистичні показники. Історія укладання частотних словників налічує менше століття. За цей порівняно невеликий час такі словники створено майже для всіх індоєвропейських мов, а також для мов інших сімей. Уже видано понад 400 частотних словників, а кількість тих, над якими ведеться робота, значно більша. Інтерес до статистичного обстеження великих сукупностей текстів зумовлюється, з одного боку, внутрішньою логікою розвитку мовознавства, необхідністю глибше проникнути в закони функціонування мовних одиниць у мовленні, з другого — практичними застосуваннями надбань мовознавства, потребами суспільства. Навіть просте спостереження над текстом показує, що слова щодо їхньої частоти вживаються не однаково: одні повторюються мало не в кожному абзаці, інші — рідше, деякі — надзвичайно рідко. Для відображення цієї закономірності мовознавці користуються такими поняттями, як «поширене», «частовживане», «малопоширене», «маловживане», «непоширене», «рідковживане» і под. Проте ці поняття не можуть дати уявлення про науково обґрунтовану міру вживаності слів, про сфери їх переважного використання, про істотні відмінності у вживанні слів чи груп слів у стильових різновидах текстів. Розкрити всі ці закономірності функціонування лексики (чи інших одиниць мови) можна лише за допомогою статистичних методів. Саме тому вони набули такого широкого застосування у мовознавчих дослідженнях за останні десятиліття. Без статистичних обстежень великих масивів текстів, що належать до різних функціональних стилів і жанрів, не можна було б виявити хоча б такі закономірності, як обмеженість реєстру слів у будь-якому тексті чи масиві текстів, закон переваги, за яким невелика кількість мовних одиниць вживається дуже часто, а решта — з невеликою частотою. Зараз встановлено багато статистичних закономірностей та параметрів, які показують функціонування лексики в різножанрових текстах. Всі вони знайшли практичні застосування, такі, як відбір лексичного мінімуму при вивченні іноземних мов, створення ефективних систем стенографії, атрибуція непідписаних рукописів, створення економних алгоритмів кодування текстів для ЕОМ, а також систем машинного опрацювання текстів — машинний переклад, інформаційний пошук, автоматичне реферування й анотування літератури. Практичні потреби статистичного обстеження текстів для опрацювання їх на ЕОМ набувають особливо великої ваги в період науково-технічної революції. Тому якщо перші частотні словники створювалися з метою вдосконалення систем стенографії та для відбору лексичного мінімуму, то в наші дні частотні словники створюються в основному для потреб інформаційного пошуку та машинного перекладу. Велику цінність мають частотні словники з окремих жанрів. Вивчені міри їхньої схожості і характеру статистичного розподілення дає цікаві відомості про якісне розшарування лексики в залежності від сфери вживання. Питання систематизації словникового складу пов'язані з розмежуванням в ньому активного і пасивного запасу, що в свою чергу потребує диференційного підходу до усної та пасивної мови, віковим, професійним та освітнім категорія носіїв мови. (uk) |
dbo:thumbnail | wiki-commons:Special:FilePath/Personal_pronouns2.jpg?width=300 |
dbo:wikiPageExternalLink | http://www.lextutor.ca/research/nation_waring_97.html http://crr.ugent.be/papers/Adding%20Part%20of%20Speech%20information%20to%20the%20SUBTLEX-US%20word%20frequencies.pdf http://expsy.ugent.be/subtlexus/Brysbaert%26NewBehaviorResearchMethods.pdf%7Cdoi-access=free http://www.iliriapublications.org/index.php/iir/article/download/112/104 http://www.lexique.org/outils/Manuel_Lexique.htm%23_Toc152122347 https://web.archive.org/web/20161024001257/http:/sites.univ-provence.fr/veronis/pdf/2007-AppliedPsy.pdf http://www.theses.fr/2003INAL0006%7Cyear=2003%7Cplace=Paris%7Cpublisher=INALCO%7Ctype=These http://www.edu.tw/files/site_content/M0001/86news/ch2.html%3Fopen https://www.pdf-archive.com/2017/06/29/de-francis-john-1966-why-johnny-cant-read-chinese/de-francis-john-1966-why-johnny-cant-read-chinese.pdf http://lingua.mtsu.edu/chinese-computing/statistics/ http://crr.ugent.be/SUBTLEX-DE/ http://crr.ugent.be/papers/The%20word%20frequency%20effect%20and%20German%20final%20version.doc http://crr.ugent.be/papers/subtlex-pl.pdf http://crr.ugent.be/programs-data/subtitle-frequencies/subtlex-nl http://expsy.ugent.be/subtlexus/ http://www.uv.es/psicologica/articulos2.11/1CUETOS.pdf https://archive-ouverte.unige.ch/unige:83838 http://sites.univ-provence.fr/veronis/pdf/2007-AppliedPsy.pdf%7Carchive-url= |
dbo:wikiPageID | 29006252 (xsd:integer) |
dbo:wikiPageInterLanguageLink | dbpedia-de:Häufigkeitsklasse http://hy.dbpedia.org/resource/Հաճախականության_բառարաններ |
dbo:wikiPageLength | 25008 (xsd:nonNegativeInteger) |
dbo:wikiPageRevisionID | 1105798189 (xsd:integer) |
dbo:wikiPageWikiLink | dbr:Natural_language_processing dbr:Binary_logarithm dbr:Hypernym dbr:Paul_Nation dbr:People's_Republic_of_China dbr:Republic_of_China dbr:Letter_frequency dbr:Lexeme dbr:Lexicon dbr:Word_family dbr:Creative_Commons dbr:General_Service_List dbr:Orthography dbr:Frequency dbr:Grammatical_gender dbr:Computational_linguistics dbr:Zipf's_law dbr:Phonetic dbr:Age_of_Acquisition dbr:Floor_function dbr:Part_of_speech dbr:Checklist dbr:Google_Ngram_Viewer dbr:Text_corpus dbr:Register_(sociolinguistics) dbr:Hanyu_Shuiping_Kaoshi dbc:Computational_linguistics dbc:Quantitative_linguistics dbr:John_DeFrancis dbr:Word dbr:Hellenistic dbr:Long_tail dbr:Most_common_words_in_English dbr:New_General_Service_List dbr:Word_frequency_effect dbr:Semantic_compression dbr:Semantic_network dbr:Test_of_Proficiency-Huayu dbr:Base_word dbr:Étienne_Brunet dbr:Vocabulary_acquisition dbr:Lexique3 dbr:Syllabation dbr:File:Personal_pronouns2.jpg |
dbp:cs1Dates | ly (en) |
dbp:date | April 2021 (en) |
dbp:wikiPageUsesTemplate | dbt:List_of_lists dbt:Citation dbt:Citation_style dbt:Cite_journal dbt:For dbt:Further dbt:Main dbt:Reflist dbt:Short_description dbt:Use_dmy_dates dbt:Wiktionary dbt:Harvid dbt:Harvnb dbt:Frequency_list |
dcterms:subject | dbc:Computational_linguistics dbc:Quantitative_linguistics |
rdfs:comment | Часто́тный слова́рь (или частотный список) — набор слов данного языка (или подъязыка) вместе с информацией об их частотности. Словарь может быть отсортирован по частотности, по алфавиту (тогда для каждого слова будет указана его частотность), по группам слов (например, первая тысяча наиболее частотных слов, за ней вторая и т. п.), по типичности (слова, частотные для большинства текстов), и т. д. Частотные списки используются для преподавания языка, создания новых словарей, приложений компьютерной лингвистики, исследований в области лингвистической типологии, и т. д. (ru) Vortlistoj de ofteco, foje nomataj oftecaj vortaroj, estas listoj de vortoj en iu lingvo grupigitaj laŭ ofteco de uzado ene de iuj korpusoj cele al akirado de lingvaĵo. Vortlisto de ofteco prefere celas leksikografiajn laborojn. Kelkaj gravaj enfalujoj estas la korpusa enhavo, la tekstara registro kaj la difino de "vorto". En komputa lingvistiko, ofteca listo estas ordigita listo de vortoj (vorto-tipoj) kune kun ilia ofteco, kie ofteco ĉi tie kutime signifas la nombrojn de fojoj kiam vorto(j) aperas en donita tekstaro, de kiu la pozicio povas esti derivita kiel la pozicio en la listo. (eo) Frequenzwörterbücher (auch: Häufigkeitswörterbücher) geben den Wortschatz einer Sprache, eines Autors, einer Textsorte etc. wieder, wobei die Häufigkeit, mit der die einzelnen Wörter in einem Text oder Textkorpus vorkommen, das wichtigste Ziel der Zusammenstellung ist. Wenn man nicht eine Gesamtauswertung der betreffenden Texte durchführen kann, ist es eine notwendige Voraussetzung für die Erstellung eines Frequenzwörterbuchs, dass man für den betreffenden Themenbereich ein hinreichend repräsentatives Textkorpus auswerten kann, damit die gewonnenen Häufigkeitslisten ein Bild von der Gesamtheit der Daten vermitteln. (de) Hitzen zerrendak maiztasunaren arabera, testu bateko corpus batzuen hitzak bere maiztasunaren arabera multzokatzen eta sailkatzen duten listak dira, mailen arabera edo sailkatutako zerrenda gisa, hiztegia eskuratzeko xedea betetzen dutenak. Hitzen maiztasuna eta hiztegiaren ezagutza garrantzia handia izan dute beti hizkuntza berri bat ikasterako orduan eta testu desberdinak idazteko, honek testu baten berezitasuna neurtzeko balio zaigulako. Zenbat eta hitz desberdin eta sinonimo gehiago erabili, artikuluaren hiztegia eta kalitatea hobetuko da. Nahiz eta testua zuzena izan, beti egokiagoa da hitz desberdin anitz aurkitzea eta ez izatea testu errepikakorra, bai kontzeptuen aldetik, bai hitzen aldetik. Maiztasunen araberako hitz-zerrenda batek ikasleei hiztegia ikasteko ahaleginari etekinik o (eu) A word list (or lexicon) is a list of a language's lexicon (generally sorted by frequency of occurrence either by levels or as a ranked list) within some given text corpus, serving the purpose of vocabulary acquisition. A lexicon sorted by frequency "provides a rational basis for making sure that learners get the best return for their vocabulary learning effort", but is mainly intended for course writers, not directly for learners. Frequency lists are also made for lexicographical purposes, serving as a sort of checklist to ensure that common words are not left out. Some major pitfalls are the corpus content, the corpus register, and the definition of "word". While word counting is a thousand years old, with still gigantic analysis done by hand in the mid-20th century, natural language (en) Частотний словник — словник, у якому кожне слово характеризується певним числом, що вказує на кількість вживань цього слова в обстеженому масиві текстів, тобто на його абсолютну частоту в цих текстах. У багатьох словниках частота кожного слова в обстежених текстах оцінюється статистично: обраховується відносна похибка, коефіцієнт стабільності чи інші статистичні показники. (uk) |
rdfs:label | Frequenzwörterbuch (de) Vortlistoj laŭ ofteco (eo) Hitzen zerrendak maiztasunaren arabera (eu) Частотный словарь (ru) Word list (en) Частотний словник (uk) |
owl:sameAs | wikidata:Word list dbpedia-de:Word list dbpedia-eo:Word list dbpedia-eu:Word list http://hi.dbpedia.org/resource/बारंबारता_के_अनुसार_शब्द_सूची dbpedia-kk:Word list dbpedia-ru:Word list dbpedia-uk:Word list http://uz.dbpedia.org/resource/Chastotali_lugʻat https://global.dbpedia.org/id/4sJ4E |
prov:wasDerivedFrom | wikipedia-en:Word_list?oldid=1105798189&ns=0 |
foaf:depiction | wiki-commons:Special:FilePath/Personal_pronouns2.jpg |
foaf:isPrimaryTopicOf | wikipedia-en:Word_list |
is dbo:wikiPageRedirects of | dbr:Word_lists_by_frequency dbr:Frequency_list dbr:Word-frequency_lists dbr:Word_frequencies dbr:Word_frequency dbr:Word_frequency_count dbr:Word_frequency_list |
is dbo:wikiPageWikiLink of | dbr:Lexibank dbr:Lexicostatistics dbr:Concepticon dbr:Corpus_linguistics dbr:List_(information) dbr:Federico_Baraibar dbr:Brevity_law dbr:Academic_Word_List dbr:Mark_Davies_(linguist) dbr:Word_lists_by_frequency dbr:Lexicon_(disambiguation) dbr:Sex_differences_in_memory dbr:Frequency_list dbr:Word-frequency_lists dbr:Word_frequencies dbr:Word_frequency dbr:Word_frequency_count dbr:Word_frequency_list |
is foaf:primaryTopic of | wikipedia-en:Word_list |