Text corpus (original) (raw)
المتن (بالإنجليزية: corpus) في اللسانيات، عبارة عن مجموعة من البيانات اللغوية (عادة ما تكون موجودة في قاعدة بيانات حاسوبية). تسمى أيضًا أصول نصية. وفي علم لسانيات المتون، يتم استخدامها لإجراء التحليل الإحصائي واختبار الفرضيات، والتحقق من الأحداث أو التحقق من صحة القواعد اللغوية ضمن نطاق لغة معينة.
Property | Value |
---|---|
dbo:abstract | المتن (بالإنجليزية: corpus) في اللسانيات، عبارة عن مجموعة من البيانات اللغوية (عادة ما تكون موجودة في قاعدة بيانات حاسوبية). تسمى أيضًا أصول نصية. وفي علم لسانيات المتون، يتم استخدامها لإجراء التحليل الإحصائي واختبار الفرضيات، والتحقق من الأحداث أو التحقق من صحة القواعد اللغوية ضمن نطاق لغة معينة. (ar) Un corpus lingüístic és un conjunt, normalment molt ampli, d'exemples reals d'ús d'una llengua. Aquests exemples que conté un corpus sovint són textos, però poden ser també mostres orals (normalment transcrites) o fins i tot signades. En funció del format d'aquest conjunt d'exemples, existeixen corpus escrits, orals i de llengües de signes. Segons el Diccionari de la Llengua Catalana un corpus lingüístic és el «conjunt o recull d'enunciats o de texts a partir del qual el lingüista estableix l'anàlisi i la descripció d'una llengua». Els corpus textuals són un dels principals recursos per a l'obtenció de dades empíriques útils per a l'estudi d'una llengua. Val a dir que, paral·lelament al desenvolupament de les tecnologies de la informació, els corpus electrònics han esdevingut una eina fonamental per a l'obtenció d'aquestes dades, atesa la quantitat d'informació que es pot processar amb un programari adequat. Alguns corpus, com ara el Bank of English, contenen fins a 300 milions d'ocurrències de mots. Els corpus de referència contenen un gran volum de dades lingüístiques que permeten obtenir dades representatives per analitzar qualsevol aspecte d'una llengua. En català, destaca el Corpus Textual Informatitzat de la Llengua Catalana (CTILC) desenvolupat per l'Institut d'Estudis Catalans, amb més de 52 milions de mots i consultable en línia des del 2005. Es tracta d'un corpus diacrònic (les mostres són textos escrits entre 1833 i 1988) a partir del qual s'està desenvolupant el Diccionari Descriptiu de la Llengua Catalana. Per a l'anglès Cobuild n'és un altre exemple. La subdisciplina de la lingüística que estudia la llengua a través d'aquestes mostres es diu «lingüística de corpus». Aquest tipus d'aproximació xoca amb l'enfocament generativista chomskià que tendeix a estudiar la llengua en partir de la premissa que els humans tenen un coneixement innat de la llengua, la gramàtica universal, i que el repertori d'aquests coneixements és infinit. Chomsky proposa prendre com a mostra un parlant ideal amb competència lingüística en la llengua objecte d'estudi. Aquesta subdisciplina, donat el volum de dades que utilitza, normalment s'associa amb la lingüística computacional, segons aquesta última s'apropa a les aplicacions de Processament de llenguatge natural. Aquesta disciplina es va iniciar el 1967 quan i van publicar el clàssic Computational Analysis of Present-Day American English, basant-se en el corpus Brown, una compilació d'anglès nord-americà d'aproximadament un milió d'ocurrències de paraules, seleccionades d'una àmplia varietat de fonts. (ca) Jazykový korpus je (většinou rozsáhlý) soubor textů určitého jazyka. Jedná se o „vnitřně strukturovaný, unifikovaný a obvykle i o indexovaný a ucelený rozsáhlý soubor elektronicky uložených a zpracovaných jazykových dat většinou v textové podobě, organizovaný se zřetelem k využití pro určitý cíl.” Korpus slouží jednak pro lingvistický výzkum jazykové praxe, jednak jako datová základna pro tvorbu slovníků, korektorů, překladačů apod. Tvorbou korpusů se zabývá obor korpusová lingvistika. V současnosti mají korpusy digitální podobu, což výrazně usnadňuje sběr dat i jejich zpracování: speciální programy umožňují vyhledávání slov a slovních spojení v kontextu, zjištění frekvence výskytu v korpusu i zjištění původního zdroje textu. (cs) Ein Textkorpus (Neutrum; Plural Textkorpora; kurz auch nur Korpus oder Corpus; lateinisch corpus ‚Körper‘) ist eine Sammlung von schriftlichen Texten oder textlich aufgezeichneten mündlichen Äußerungen einer bestimmten Sprache oder Textgattung. (de) Ως σώμα κειμένων (corpus, πληθ. corpora) ορίζεται ένα αντιπροσωπευτικό σύνολο κειμένων, το οποίο χρησιμοποιείται ως δείγμα με αντικείμενο τη . (el) Korpuso (aŭ tekstaro) estas aro da tekstoj aŭ transskribitaj konversacioj/paroloj, kiun oni uzaskiel tuton por studo. Komputado ne necesas,sed tre faciligas la pretigon kaj uzon de tekstaroj. Ankaŭaro da parolregistraĵoj estas korpuso. Multaj lingvistoj insistas, ke tekstaro devas esti morfologie markita por ebligi serĉon de gramatikaj formoj en kuntekstoj. (eo) Hizkuntzalaritzan eta hizkuntzaren prozesamenduan, corpus edo testu-corpusa nolabait egituratutako testu sorta handi bat da. Hizkuntza deskribatzeko eta ikertzeko baliatzen da, hizkuntza-datu bilduma gisa, lexikoaren, morfosintaxiaren edo semantikaren aldetik. Corpus hitza latinetik dator, eta euskaraz gorputza esan nahi du. (eu) Un corpus lingüístico es un conjunto amplio y estructurado de ejemplos reales de uso de la lengua. Estos ejemplos pueden obtenerse de textos escritos (los más comunes), o muestras orales (generalmente transcritas). Los corpus pueden ser , cuando compilan textos orales o escritos, o , cuando registran concordancias extraídas de textos. En español, un ejemplo de corpus de referencia es el Corpus Básico del Español de Chile. Un corpus lingüístico es un conjunto de textos relativamente grande, creado independientemente de sus posibles formas o usos. Es decir, en cuanto a su estructura, variedad y complejidad, un corpus debe reflejar una lengua, o su modalidad, de la forma más exacta posible; en cuanto a su uso, preocuparse de que su representación sea real. Los corpus tienen similitudes con los textos porque están compuestos por ellos, por otro lado, no son textos en sí, porque a diferencia de los mismos, no tiene sentido analizarlos en su totalidad. Un texto tiene un principio y un fin, y es cohesivo y coherente en mayor o menor grado, mientras que un corpus carece de tales características por no poseer una estructura, sino sólo una composición. Por esta razón conviene analizar un corpus recurriendo a herramientas y metodología propias. Debido a su tamaño, accesibilidad, información lingüística y enciclopédica, muy alta fiabilidad y otras particularidades, la compilación de los corpus ha llegado a ser uno de los principales, si no el principal, método e instrumento de la investigación de la lengua en la lingüística general. La necesidad de trabajar las muestras recogidas de forma eficaz y económica (teniendo en cuenta su enorme extensión), ha alentado el desarrollo de una de las ramas con más futuro de la lingüística contemporánea: la lingüística computacional. Actualmente los corpus se recogen y almacenan de manera electrónica. (es) Un corpus est un ensemble de documents, artistiques ou non (textes, images, vidéos, etc.), regroupés dans une optique précise. On peut utiliser des corpus dans plusieurs domaines : études littéraires, linguistiques, scientifiques, philosophie, etc. (fr) In linguistics, a corpus (plural corpora) or text corpus is a language resource consisting of a large and structured set of texts (nowadays usually electronically stored and processed). In corpus linguistics, they are used to do statistical analysis and hypothesis testing, checking occurrences or validating linguistic rules within a specific language territory. In search technology, a corpus is the collection of documents which is being searched. (en) コーパス(英: corpus)は、言語学において、自然言語処理の研究に用いるため、自然言語の文章を構造化し大規模に集積したもの。構造化し、言語的な情報(品詞、など)を付与している。言語学以外では「全集」を意味することもあり、言語学でも日本語を扱う場合には、「言語全集」「名詞全集」「動詞全集」などと呼ぶとよい。コンピュータ利用が進み、電子化データとして提供されている。 (ja) 말뭉치 또는 코퍼스(영어: corpus, 복수형: corpora)는 자연언어 연구를 위해 특정한 목적을 가지고 언어의 표본을 추출한 집합이다. 컴퓨터의 발달로 말뭉치 분석이 용이해졌으며 분석의 정확성을 위해 해당 자연언어를 형태소 분석하는 경우가 많다. 확률/통계적 기법과 시계열적인 접근으로 전체를 파악한다. 언어의 빈도와 분포를 확인할 수 있는 자료이며, 현대 언어학 연구에 필수적인 자료이다. 인문학에 자연과학적 방법론이 가장 성공적으로 적용된 경우로 볼 수 있다. (ko) Un corpus è una collezione di testi selezionati e organizzati per facilitare le . L'idea di selezione può anche mancare: per corpus può intendersi anche una raccolta completa di testimonianze linguistiche riguardanti una certa materia, ad esempio: "corpus della lingua sannita". Infine, un corpus può essere inteso come una raccolta completa costituita secondo un particolare criterio. Il termine è noto fin dai tempi più antichi; a tal proposito può essere utile pensare al Corpus Iuris Civilis, al Corpus Inscriptionum Latinarum e a molti altri che sono andati sviluppandosi nel tempo. I corpora possono essere creati su carta oppure oralmente; oggi, tuttavia, il ruolo del computer nell'uso dei corpora è diventato così preponderante che ormai il termine stesso di corpus non di rado è sinonimo di corpus elettronico (un esempio del quale – consultabile via web – è quello riferito al quotidiano ""). Il settore della linguistica in cui vengono usati i corpora è noto pure come . Altri rami degni di menzione, in cui i corpora sono utilizzati, sono i seguenti: la Linguistica storico-comparativa in Italia, la Comparative grammar negli Stati Uniti, e la Comparative philology nel Regno Unito. (it) Korpus (ang. corpus, z łac. corpus „ciało”) – zbiór tekstów służący badaniom lingwistycznym, np. określaniu częstości występowania form wyrazowych, konstrukcji składniowych, kontekstów, w jakich pojawiają się dane wyrazy. Korpusy językowe znalazły szerokie zastosowanie we współczesnej leksykografii. Są też wykorzystywane jako zbiory danych uczących i testowych w metodach uczenia maszynowego stosowanych w przetwarzaniu języków naturalnych. Niektóre korpusy bywają określane mianem zrównoważonych – oznacza to, że próbki tekstu do korpusu wybrane zostały według specjalnego klucza, tak by zapewnić pożądane proporcje pomiędzy różnymi stylami czy okresami powstawania tekstów. Przykładem korpusu zrównoważonego może być korpus Słownika frekwencyjnego polszczyzny współczesnej (obecnie znany także jako korpus polszczyzny lat 60. XX wieku), składający się w równych częściach (po 10 tys. próbek) z tekstów popularnonaukowych, drobnych wiadomości prasowych, publicystyki, prozy artystycznej i dramatu artystycznego. Przez korpus równoległy rozumiemy taki zbiór tekstów, w którym każdy tekst ma swój odpowiednik w co najmniej jednym innym języku. Teksty w takim korpusie mogą być zestawione (ang. aligned), np. na poziomie akapitu lub zdania. (pl) Een corpus (meervoud corpora) is in de taalkunde een verzameling teksten of mondelinge uitingen (klankopnames) in een bepaalde taal, die gebruikt wordt om onderzoek van linguïstische of statistische aard op te verrichten. In het onderzoek naar de kindertaalverwerving refereert men ook aan de (totale) taalproductie van een kind als een corpus. Het taalkundige onderzoek zelf dat aan de hand van corpora gebeurt staat bekend als corpustaalkunde of -linguïstiek. (nl) Corpus linguístico é o conjunto de textos escritos e registros orais em uma determinada língua e que serve como base de análise. O estudo de corpora (plural de corpus) apresenta muitas vantagens. Em vez de consultar nossas intuições, ou de ‘extrair’ informações dos falantes, penosamente, uma a uma, podemos examinar um vasto material que foi produzido espontaneamente na fala ou na escrita das pessoas, e portanto podemos fazer observações precisas sobre o real comportamento linguístico de gente real. Portanto os corpora podem nos proporcionar informações altamente confiáveis e isentas de opiniões e de julgamentos prévios, sobre os fatos de uma língua. O uso de corpora está associado à linguística de corpus. (pt) В лингвистике кóрпус (в данном значении множественное число — кóрпусы, не корпусá) — подобранная и обработанная по определённым правилам совокупность текстов, используемых в качестве базы для исследования языка. Они используются для статистического анализа и проверки статистических гипотез, подтверждения лингвистических правил в данном языке. Корпус текстов является предметом исследования корпусной лингвистики. (ru) 语料库一詞在語言學上意指大量的文本,通常經過整理,具有既定格式與標記。 根据语料库的特征,可以分为单语语料库、双语语料库、平行语料库等,根据语料的来源,可以分为书面语语料库、口语语料库、作文语料库、学习者语料库、古文书语料库等。 (zh) У лінгвістиці кóрпус — підібрана й оброблена за певними правилами сукупність текстів, які використовують як базу для дослідження мови. Їх застосовують для статистичного аналізу і перевірки статистичних гіпотез, підтвердження лінгвістичних правил цієї мови. Корпус текстів є предметом дослідження корпусної лінгвістики. (uk) |
dbo:wikiPageExternalLink | https://the.sketchengine.co.uk/open/ https://digital.lib.hkbu.edu.hk/corpus/index.php http://corpus.byu.edu/ http://ucnk.korpus.cz/intercorp/%3Flang=en http://www.tnc.org.tr/ http://www.tscorpus.com/ https://ruscorpora.ru/en/ http://www.clres.com/corp.html https://archive.today/20121222193153/http:/www.ahds.ac.uk/linguistic-corpora https://web.archive.org/web/20130813141813/http:/www.clres.com/corp.html |
dbo:wikiPageID | 53887 (xsd:integer) |
dbo:wikiPageInterLanguageLink | http://lt.dbpedia.org/resource/Tekstynas |
dbo:wikiPageLength | 8443 (xsd:nonNegativeInteger) |
dbo:wikiPageRevisionID | 1110037402 (xsd:integer) |
dbo:wikiPageWikiLink | dbr:Natural_language_processing dbr:Parsing dbc:Discourse_analysis dbr:Decipherment dbr:Parallel_text_alignment dbr:1350_BC dbr:Morphology_(linguistics) dbr:Concordance_(publishing) dbr:Corpus_linguistics dbr:Annotation dbc:Works_based_on_multiple_works dbr:Computational_linguistics dbr:Zipf's_Law dbr:Translation_memory dbr:Distributional–relational_database dbr:Language_resource dbr:Language_technology dbr:Linguistic_Data_Consortium dbr:Linguistics dbr:Treebank dbc:Test_items dbr:Amarna_letters dbr:Foreign_language_writing_aid dbr:Historical_document dbr:Lemma_(morphology) dbr:Speech_corpus dbr:Part-of-speech_tagging dbr:Speech_recognition dbc:Computational_linguistics dbc:Corpus_linguistics dbr:Hidden_Markov_model dbr:Philology dbr:Interlinear_gloss dbr:Kültepe dbr:Natural_Language_Toolkit dbr:Search_engine_(computing) dbr:Machine_translation dbr:Semantics dbr:Statistical_hypothesis_testing dbr:Pragmatics dbr:Frequency_list dbr:Search_engines dbr:Biblical_scholarship dbr:Parallel_corpora dbr:Language_teaching |
dbp:date | 2013-08-13 (xsd:date) |
dbp:url | https://web.archive.org/web/20130813141813/http:/www.clres.com/corp.html |
dbp:wikiPageUsesTemplate | dbt:Main_article dbt:Reflist dbt:Short_description dbt:Use_dmy_dates dbt:Webarchive dbt:Natural_Language_Processing |
dct:subject | dbc:Discourse_analysis dbc:Works_based_on_multiple_works dbc:Test_items dbc:Computational_linguistics dbc:Corpus_linguistics |
gold:hypernym | dbr:Set |
rdf:type | dbo:MusicGenre |
rdfs:comment | المتن (بالإنجليزية: corpus) في اللسانيات، عبارة عن مجموعة من البيانات اللغوية (عادة ما تكون موجودة في قاعدة بيانات حاسوبية). تسمى أيضًا أصول نصية. وفي علم لسانيات المتون، يتم استخدامها لإجراء التحليل الإحصائي واختبار الفرضيات، والتحقق من الأحداث أو التحقق من صحة القواعد اللغوية ضمن نطاق لغة معينة. (ar) Ein Textkorpus (Neutrum; Plural Textkorpora; kurz auch nur Korpus oder Corpus; lateinisch corpus ‚Körper‘) ist eine Sammlung von schriftlichen Texten oder textlich aufgezeichneten mündlichen Äußerungen einer bestimmten Sprache oder Textgattung. (de) Ως σώμα κειμένων (corpus, πληθ. corpora) ορίζεται ένα αντιπροσωπευτικό σύνολο κειμένων, το οποίο χρησιμοποιείται ως δείγμα με αντικείμενο τη . (el) Korpuso (aŭ tekstaro) estas aro da tekstoj aŭ transskribitaj konversacioj/paroloj, kiun oni uzaskiel tuton por studo. Komputado ne necesas,sed tre faciligas la pretigon kaj uzon de tekstaroj. Ankaŭaro da parolregistraĵoj estas korpuso. Multaj lingvistoj insistas, ke tekstaro devas esti morfologie markita por ebligi serĉon de gramatikaj formoj en kuntekstoj. (eo) Hizkuntzalaritzan eta hizkuntzaren prozesamenduan, corpus edo testu-corpusa nolabait egituratutako testu sorta handi bat da. Hizkuntza deskribatzeko eta ikertzeko baliatzen da, hizkuntza-datu bilduma gisa, lexikoaren, morfosintaxiaren edo semantikaren aldetik. Corpus hitza latinetik dator, eta euskaraz gorputza esan nahi du. (eu) Un corpus est un ensemble de documents, artistiques ou non (textes, images, vidéos, etc.), regroupés dans une optique précise. On peut utiliser des corpus dans plusieurs domaines : études littéraires, linguistiques, scientifiques, philosophie, etc. (fr) In linguistics, a corpus (plural corpora) or text corpus is a language resource consisting of a large and structured set of texts (nowadays usually electronically stored and processed). In corpus linguistics, they are used to do statistical analysis and hypothesis testing, checking occurrences or validating linguistic rules within a specific language territory. In search technology, a corpus is the collection of documents which is being searched. (en) コーパス(英: corpus)は、言語学において、自然言語処理の研究に用いるため、自然言語の文章を構造化し大規模に集積したもの。構造化し、言語的な情報(品詞、など)を付与している。言語学以外では「全集」を意味することもあり、言語学でも日本語を扱う場合には、「言語全集」「名詞全集」「動詞全集」などと呼ぶとよい。コンピュータ利用が進み、電子化データとして提供されている。 (ja) 말뭉치 또는 코퍼스(영어: corpus, 복수형: corpora)는 자연언어 연구를 위해 특정한 목적을 가지고 언어의 표본을 추출한 집합이다. 컴퓨터의 발달로 말뭉치 분석이 용이해졌으며 분석의 정확성을 위해 해당 자연언어를 형태소 분석하는 경우가 많다. 확률/통계적 기법과 시계열적인 접근으로 전체를 파악한다. 언어의 빈도와 분포를 확인할 수 있는 자료이며, 현대 언어학 연구에 필수적인 자료이다. 인문학에 자연과학적 방법론이 가장 성공적으로 적용된 경우로 볼 수 있다. (ko) Een corpus (meervoud corpora) is in de taalkunde een verzameling teksten of mondelinge uitingen (klankopnames) in een bepaalde taal, die gebruikt wordt om onderzoek van linguïstische of statistische aard op te verrichten. In het onderzoek naar de kindertaalverwerving refereert men ook aan de (totale) taalproductie van een kind als een corpus. Het taalkundige onderzoek zelf dat aan de hand van corpora gebeurt staat bekend als corpustaalkunde of -linguïstiek. (nl) Corpus linguístico é o conjunto de textos escritos e registros orais em uma determinada língua e que serve como base de análise. O estudo de corpora (plural de corpus) apresenta muitas vantagens. Em vez de consultar nossas intuições, ou de ‘extrair’ informações dos falantes, penosamente, uma a uma, podemos examinar um vasto material que foi produzido espontaneamente na fala ou na escrita das pessoas, e portanto podemos fazer observações precisas sobre o real comportamento linguístico de gente real. Portanto os corpora podem nos proporcionar informações altamente confiáveis e isentas de opiniões e de julgamentos prévios, sobre os fatos de uma língua. O uso de corpora está associado à linguística de corpus. (pt) В лингвистике кóрпус (в данном значении множественное число — кóрпусы, не корпусá) — подобранная и обработанная по определённым правилам совокупность текстов, используемых в качестве базы для исследования языка. Они используются для статистического анализа и проверки статистических гипотез, подтверждения лингвистических правил в данном языке. Корпус текстов является предметом исследования корпусной лингвистики. (ru) 语料库一詞在語言學上意指大量的文本,通常經過整理,具有既定格式與標記。 根据语料库的特征,可以分为单语语料库、双语语料库、平行语料库等,根据语料的来源,可以分为书面语语料库、口语语料库、作文语料库、学习者语料库、古文书语料库等。 (zh) У лінгвістиці кóрпус — підібрана й оброблена за певними правилами сукупність текстів, які використовують як базу для дослідження мови. Їх застосовують для статистичного аналізу і перевірки статистичних гіпотез, підтвердження лінгвістичних правил цієї мови. Корпус текстів є предметом дослідження корпусної лінгвістики. (uk) Un corpus lingüístic és un conjunt, normalment molt ampli, d'exemples reals d'ús d'una llengua. Aquests exemples que conté un corpus sovint són textos, però poden ser també mostres orals (normalment transcrites) o fins i tot signades. En funció del format d'aquest conjunt d'exemples, existeixen corpus escrits, orals i de llengües de signes. Segons el Diccionari de la Llengua Catalana un corpus lingüístic és el «conjunt o recull d'enunciats o de texts a partir del qual el lingüista estableix l'anàlisi i la descripció d'una llengua». (ca) Jazykový korpus je (většinou rozsáhlý) soubor textů určitého jazyka. Jedná se o „vnitřně strukturovaný, unifikovaný a obvykle i o indexovaný a ucelený rozsáhlý soubor elektronicky uložených a zpracovaných jazykových dat většinou v textové podobě, organizovaný se zřetelem k využití pro určitý cíl.” Korpus slouží jednak pro lingvistický výzkum jazykové praxe, jednak jako datová základna pro tvorbu slovníků, korektorů, překladačů apod. Tvorbou korpusů se zabývá obor korpusová lingvistika. (cs) Un corpus lingüístico es un conjunto amplio y estructurado de ejemplos reales de uso de la lengua. Estos ejemplos pueden obtenerse de textos escritos (los más comunes), o muestras orales (generalmente transcritas). Los corpus pueden ser , cuando compilan textos orales o escritos, o , cuando registran concordancias extraídas de textos. En español, un ejemplo de corpus de referencia es el Corpus Básico del Español de Chile. (es) Un corpus è una collezione di testi selezionati e organizzati per facilitare le . L'idea di selezione può anche mancare: per corpus può intendersi anche una raccolta completa di testimonianze linguistiche riguardanti una certa materia, ad esempio: "corpus della lingua sannita". Infine, un corpus può essere inteso come una raccolta completa costituita secondo un particolare criterio. Il termine è noto fin dai tempi più antichi; a tal proposito può essere utile pensare al Corpus Iuris Civilis, al Corpus Inscriptionum Latinarum e a molti altri che sono andati sviluppandosi nel tempo. (it) Korpus (ang. corpus, z łac. corpus „ciało”) – zbiór tekstów służący badaniom lingwistycznym, np. określaniu częstości występowania form wyrazowych, konstrukcji składniowych, kontekstów, w jakich pojawiają się dane wyrazy. Korpusy językowe znalazły szerokie zastosowanie we współczesnej leksykografii. Są też wykorzystywane jako zbiory danych uczących i testowych w metodach uczenia maszynowego stosowanych w przetwarzaniu języków naturalnych. (pl) |
rdfs:label | أصول نصية (ar) Corpus lingüístic (ca) Jazykový korpus (cs) Textkorpus (de) Σώμα κειμένων (el) Korpuso (eo) Corpus lingüístico (es) Testu corpus (eu) Corpus (fr) Korpus teks (in) Corpus (it) 말뭉치 (ko) コーパス (ja) Corpus (taalkunde) (nl) Korpus (językoznawstwo) (pl) Text corpus (en) Corpus linguístico (pt) Корпус текстов (ru) 语料库 (zh) Корпус текстів (uk) |
owl:sameAs | dbpedia-de:Text corpus freebase:Text corpus yago-res:Text corpus wikidata:Text corpus dbpedia-af:Text corpus dbpedia-ar:Text corpus dbpedia-be:Text corpus dbpedia-bg:Text corpus dbpedia-ca:Text corpus http://ckb.dbpedia.org/resource/کۆرپەس dbpedia-cs:Text corpus http://cv.dbpedia.org/resource/Текстсен_хапи dbpedia-da:Text corpus dbpedia-el:Text corpus dbpedia-eo:Text corpus dbpedia-es:Text corpus dbpedia-et:Text corpus dbpedia-eu:Text corpus dbpedia-fa:Text corpus dbpedia-fi:Text corpus dbpedia-fr:Text corpus dbpedia-gl:Text corpus http://hi.dbpedia.org/resource/पाठसंग्रह dbpedia-hu:Text corpus http://hy.dbpedia.org/resource/Տեքստի_կորպուս dbpedia-id:Text corpus dbpedia-io:Text corpus dbpedia-it:Text corpus dbpedia-ja:Text corpus dbpedia-ko:Text corpus http://ml.dbpedia.org/resource/ഭാഷാ_കോർപ്പസ് dbpedia-ms:Text corpus dbpedia-nl:Text corpus dbpedia-no:Text corpus dbpedia-pl:Text corpus dbpedia-pt:Text corpus dbpedia-ru:Text corpus dbpedia-sk:Text corpus dbpedia-sl:Text corpus dbpedia-th:Text corpus dbpedia-uk:Text corpus http://uz.dbpedia.org/resource/Matn_korpusi dbpedia-vi:Text corpus dbpedia-zh:Text corpus https://global.dbpedia.org/id/4H1GY |
prov:wasDerivedFrom | wikipedia-en:Text_corpus?oldid=1110037402&ns=0 |
foaf:isPrimaryTopicOf | wikipedia-en:Text_corpus |
is dbo:genre of | dbr:LIVAC_Synchronous_Corpus |
is dbo:occupation of | dbr:Hamid_Hassani |
is dbo:wikiPageDisambiguates of | dbr:Corpus |
is dbo:wikiPageRedirects of | dbr:Corpus_of_text dbr:Textual_corpus dbr:Linguistic_corpus dbr:Text_corpora dbr:Text_data dbr:Text_item dbr:Textome dbr:Textual_data dbr:Language_corpus dbr:Multilingual_corpus |
is dbo:wikiPageWikiLink of | dbr:Amebis dbr:American_National_Corpus dbr:Amqu dbr:Amran_Tablets dbr:Beast_poetry dbr:Question_answering dbr:Scots_language dbr:Scottish_English dbr:Endaruta dbr:English_punctuation dbr:Enišasi dbr:Entity_linking dbr:List_of_XML_markup_languages dbr:List_of_artworks_known_in_English_by_a_foreign_title dbr:List_of_examples_of_Stigler's_law dbr:METEOR dbr:N-gram dbr:Natural_language_generation dbr:Natural_language_processing dbr:Menotec dbr:Morphological_Productivity dbr:Sîn-kāšid dbr:Ontology_learning dbr:Parsing dbr:Stylometry dbr:Statistically_improbable_phrase dbr:Corpus_of_text dbr:2012_phenomenon dbr:Beqaa_Valley dbr:Beryl_Atkins dbr:Big_Mechanism dbr:Julius_Caesar dbr:Bibliome dbr:Czech_National_Corpus dbr:DELPH-IN dbr:DU-Teššup dbr:Ugarit dbr:Urkesh dbr:Information_extraction dbr:International_Corpus_of_English dbr:Internet_linguistics dbr:Išartu dbr:Jan_Kowalski_(placeholder_name) dbr:Prostration_formula dbr:List_of_geological_features_on_Venus dbr:Satatna dbr:Preamble_to_Rhetoric dbr:Pu-Ba'lu dbr:SimRank dbr:Yarowsky_algorithm dbr:Corpora_in_Translation_Studies dbr:Corpus_of_Contemporary_American_English dbr:Corpus_of_Written_Tatar dbr:Ancient_Egyptian_literature dbr:Max_Planck_Institute_for_Psycholinguistics dbr:Meitei_language dbr:MemoQ dbr:Russenorsk dbr:Russian_alphabet dbr:Esperantic_Studies_Foundation dbr:General_Service_List dbr:Network_theory dbr:Niya_Kingdom dbr:Norsk_Ordbok_(Nynorsk) dbr:Oxford_English_Corpus dbr:Yursa dbr:Zipf–Mandelbrot_law dbr:That dbr:Yidya dbr:Šuta dbr:Qudšu-wa-Amrur dbr:Co-occurrence_network dbr:Egyptian_language dbr:Emily_M._Bender dbr:English_language_in_Northern_England dbr:Enochian dbr:Epigraphy dbr:General_Internet_Corpus_of_Russian dbr:German_Reference_Corpus dbr:German_language dbr:Ghana dbr:Glossary_of_artificial_intelligence dbr:Go_game_record dbr:Google_Translate dbr:Gothic_language dbr:Miran_Hladnik dbr:Mona_Baker dbr:Conflict_of_laws dbr:Content_determination dbr:Contrastive_focus_reduplication dbr:CorCenCC dbr:Corpora_(journal) dbr:Corpus_Fontium_Historiae_Byzantinae dbr:Corpus_Inscriptionum_Etruscarum dbr:Corpus_linguistics dbr:Croatian_Language_Corpus dbr:Crowdsourcing_as_Human-Machine_Translation dbr:LIVAC_Synchronous_Corpus dbr:LaMDA dbr:Lady_of_the_Lions dbr:Ruhizzi dbr:Origin_of_the_Kurds dbr:Andrey_Yershov dbr:Arantza_Díaz_de_Ilarraza_Sánchez dbr:Bergen_Corpus_of_London_Teenage_Language dbr:Linguistic_prescription dbr:Ludlul_bēl_nēmeqi dbr:Machine_learning dbr:Cambodian_literature dbr:Cambridge_English_Corpus dbr:Chrestomathy dbr:SkELL dbr:Slovene_Wikipedia dbr:Slovene_literature dbr:Collocation_extraction dbr:Comparison_(grammar) dbr:Comparison_of_different_machine_translation_approaches dbr:Complete_works dbr:Zawgyi_font dbr:Zipf's_law dbr:Functional_load dbr:Hamshahri_Corpus dbr:Perplexity dbr:Pointwise_mutual_information dbr:Malawian_English dbr:Speech_synthesis dbr:Text,_Speech_and_Dialogue dbr:Transepidermal_water_loss dbr:Translatewiki.net dbr:Translation_memory dbr:Middle_English_phonology dbr:Onomasiology dbr:PropBank dbr:Unstructured_data dbr:Austria-Hungary dbr:Brotli dbr:Adda-danu dbr:Addaya dbr:Trie dbr:Tunip dbr:W._Nelson_Francis dbr:Wikipedia dbr:Wikiquote dbr:Distant_reading dbr:Distributional–relational_database dbr:Document_structuring dbr:GPT-3 dbr:Gaius_Licinius_Mucianus dbr:Corpus dbr:Haapi dbr:Harvard_John_A._Paulson_School_of_Engineering_and_Applied_Sciences dbr:Heaps'_law dbr:Irimayašša dbr:Irrumatio dbr:Language_Grid dbr:Language_documentation dbr:Language_model dbr:Latent_semantic_analysis dbr:Law_and_Corpus_Linguistics dbr:LearnThat_Foundation dbr:Milkilu dbr:Pirissi_and_Tulubri dbr:Tubu_(town) dbr:Spelling_suggestion dbr:Pseudoword dbr:Treebank dbr:Adam_Kilgarriff dbr:African-American_Vernacular_English dbr:Alalakh dbr:Amarna_letter_EA_161 dbr:Amarna_letter_EA_288 dbr:Amarna_letter_EA_35 dbr:Amarna_letter_EA_364 dbr:Amarna_letter_EA_365 dbr:Amarna_letter_EA_367 dbr:Amarna_letter_EA_9 dbr:Cuneiform dbr:Danish_language dbr:EUR-Lex dbr:Amanmašša dbr:Amarna_letter_EA_144 dbr:Amarna_letter_EA_147 dbr:Amarna_letter_EA_153 dbr:Amarna_letter_EA_156 dbr:Amarna_letter_EA_158 dbr:Amarna_letter_EA_170 dbr:Amarna_letter_EA_19 dbr:Amarna_letter_EA_205 dbr:Amarna_letter_EA_223 dbr:Amarna_letter_EA_245 dbr:Amarna_letter_EA_252 dbr:Amarna_letter_EA_254 dbr:Amarna_letter_EA_256 dbr:Amarna_letter_EA_270 dbr:Amarna_letter_EA_271 dbr:Amarna_letter_EA_282 dbr:Amarna_letter_EA_286 dbr:Amarna_letter_EA_287 dbr:Amarna_letter_EA_289 dbr:Amarna_letter_EA_290 dbr:Amarna_letter_EA_299 dbr:Amarna_letter_EA_323 dbr:Amarna_letter_EA_330 dbr:Amarna_letter_EA_34 dbr:Amarna_letter_EA_362 dbr:Amarna_letter_EA_38 dbr:Amarna_letter_EA_39 dbr:Amarna_letter_EA_75 dbr:Amarna_letters dbr:Amarna_letters–localities_and_their_rulers dbr:Erez_Lieberman_Aiden dbr:European_Parliament dbr:Ferdinand_de_Saussure dbr:Bank_of_English dbr:Barga_(kingdom) dbr:Brevity_law dbr:Brill_tagger dbr:British_National_Corpus dbr:Center_for_the_Evaluation_of_Language_and_Communication_Technologies dbr:Church_Fathers dbr:Dictionary_of_Old_English dbr:Discourse dbr:Forensic_linguistics dbr:Frame-based_terminology dbr:Gloss_(annotation) dbr:Google_Ngram_Viewer dbr:Hannathon dbr:Hansard dbr:Hapax_Legomena dbr:Hapax_legomenon dbr:Hippocratic_Corpus dbr:Historical_dictionary dbr:Historical_pragmatics dbr:History_of_natural_language_processing dbr:History_of_the_Malay_language dbr:Kadashman-Enlil_I dbr:Kadashman-Enlil_II dbr:Kannada_literature dbr:Karduniaš dbr:Kiezdeutsch dbr:Lemmatisation dbr:List_of_Latin_phrases_(R) dbr:Sentence_boundary_disambiguation dbr:Yapa-Hadda dbr:Precision_and_recall dbr:1_the_Road dbr:Gutian_people dbr:Hamid_Hassani dbr:HarperCollins dbr:Atlantic_Creole dbr:JSTOR dbr:Jan_Czekanowski dbr:Tel_Lachish dbr:Tell_Ashtara dbr:Coupled_pattern_learner dbr:Šuwardata dbr:Tag_cloud dbr:AGRIS dbr:A_Comprehensive_Grammar_of_the_English_Language dbr:Abdi-Riša dbr:Abimilki dbr:Achshaph dbr:Cherubina_de_Gabriak dbr:Language_Log dbr:Bijankhan_Corpus dbr:Biomedical_text_mining dbr:Biridašwa dbr:Biridiya dbr:Swahili_language dbr:Co-occurrence dbr:Colin_Muset dbr:Eckhard_Bick dbr:Poetic_transrealism dbr:TenTen_Corpus_Family dbr:Terminology_extraction dbr:The_Mask_(short_story) dbr:Zimredda_of_Lachish dbr:Zimredda_of_Sidon dbr:Pawura dbr:Dictionary dbr:Arsawuya dbr:AsoSoft_text_corpus dbr:Autocomplete dbr:Automatic_acquisition_of_lexicon dbr:Automatic_acquisition_of_sense-tagged_corpora dbr:Automatic_taxonomy_construction dbr:Ayyab dbr:BLEU dbr:Mark_Davies_(linguist) dbr:BulPosCor dbr:Bulgarian_National_Corpus dbr:COBUILD dbr:Phrygian_language dbr:Soul_in_the_Bible dbr:Classification_of_the_Japonic_languages dbr:Greeting-gift_(Shulmani) dbr:Ugaritic_texts dbr:Indus_script dbr:Institution_Saint-Michel dbr:Brown_Corpus |
is dbp:genre of | dbr:LIVAC_Synchronous_Corpus |
is foaf:primaryTopic of | wikipedia-en:Text_corpus |