W-shingling (original) (raw)

About DBpedia

Алгоритм шинглов (от англ. shingles — чешуйки) — алгоритм, разработанный для поиска копий и дубликатов рассматриваемого текста в веб-документе. Инструмент для выявления плагиата. Уди Манбер в 1994 году первым в мире выразил идею поиска дубликатов, а в 1997 году Андрей Бродер оптимизировал и довёл её до логического завершения, дав имя данной системе — «алгоритм шинглов».

Property Value
dbo:abstract In natural language processing a w-shingling is a set of unique shingles (therefore n-grams) each of which is composed of contiguous subsequences of tokens within a document, which can then be used to ascertain the similarity between documents. The symbol w denotes the quantity of tokens in each shingle selected, or solved for. The document, "a rose is a rose is a rose" can therefore be maximally tokenized as follows: (a,rose,is,a,rose,is,a,rose) The set of all contiguous sequences of 4 tokens (Thus 4=n, thus 4-grams) is { (a,rose,is,a), (rose,is,a,rose), (is,a,rose,is), (a,rose,is,a), (rose,is,a,rose) } Which can then be reduced, or maximally shingled in this particular instance to { (a,rose,is,a), (rose,is,a,rose), (is,a,rose,is) }. (en) Алгоритм шинглов (от англ. shingles — чешуйки) — алгоритм, разработанный для поиска копий и дубликатов рассматриваемого текста в веб-документе. Инструмент для выявления плагиата. Уди Манбер в 1994 году первым в мире выразил идею поиска дубликатов, а в 1997 году Андрей Бродер оптимизировал и довёл её до логического завершения, дав имя данной системе — «алгоритм шинглов». (ru) Алгоритм шинглів (від англ. shingles — лусочки) — алгоритм, розроблений для пошуку копій та дублікатів розглянутого тексту в вебдокументі. Інструмент для виявлення плагіату. в 1994 р. першим у світі висловив ідею пошуку дублікатів, а в 1997 р. Андрій Бродер оптимізував і довів її до логічного завершення, дав ім'я даній системі — «алгоритм шинглів». (uk)
dbo:wikiPageExternalLink http://webglimpse.net/pubs/TR93-33.pdf http://www.std.org/~msm/common/clustering.html http://nlp.stanford.edu/IR-book/html/htmledition/near-duplicates-and-shingling-1.html
dbo:wikiPageID 5548352 (xsd:integer)
dbo:wikiPageLength 2696 (xsd:nonNegativeInteger)
dbo:wikiPageRevisionID 1085840750 (xsd:integer)
dbo:wikiPageWikiLink dbr:N-gram dbr:Natural_language_processing dbr:Concept_mining dbr:Rolling_hash dbr:Subsequence dbr:Tokenization_(lexical_analysis) dbr:Document dbr:Document_classification dbr:K-mer dbr:Rabin_fingerprint dbr:Intersection_(set_theory) dbr:Bag-of-words_model dbc:Natural_language_processing dbr:MinHash dbr:Set_(mathematics) dbr:Union_(set_theory) dbr:Vector_space_model dbr:Token_(parser) dbr:Jaccard_coefficient
dbp:wikiPageUsesTemplate dbt:Natural_language_processing dbt:Cite_book dbt:Google_books dbt:Lowercase
dct:subject dbc:Natural_language_processing
gold:hypernym dbr:Set
rdfs:comment Алгоритм шинглов (от англ. shingles — чешуйки) — алгоритм, разработанный для поиска копий и дубликатов рассматриваемого текста в веб-документе. Инструмент для выявления плагиата. Уди Манбер в 1994 году первым в мире выразил идею поиска дубликатов, а в 1997 году Андрей Бродер оптимизировал и довёл её до логического завершения, дав имя данной системе — «алгоритм шинглов». (ru) Алгоритм шинглів (від англ. shingles — лусочки) — алгоритм, розроблений для пошуку копій та дублікатів розглянутого тексту в вебдокументі. Інструмент для виявлення плагіату. в 1994 р. першим у світі висловив ідею пошуку дублікатів, а в 1997 р. Андрій Бродер оптимізував і довів її до логічного завершення, дав ім'я даній системі — «алгоритм шинглів». (uk) In natural language processing a w-shingling is a set of unique shingles (therefore n-grams) each of which is composed of contiguous subsequences of tokens within a document, which can then be used to ascertain the similarity between documents. The symbol w denotes the quantity of tokens in each shingle selected, or solved for. The document, "a rose is a rose is a rose" can therefore be maximally tokenized as follows: (a,rose,is,a,rose,is,a,rose) The set of all contiguous sequences of 4 tokens (Thus 4=n, thus 4-grams) is (en)
rdfs:label Алгоритм шинглов (ru) W-shingling (en) Алгоритм шинглів (uk)
owl:sameAs freebase:W-shingling wikidata:W-shingling dbpedia-ru:W-shingling dbpedia-uk:W-shingling https://global.dbpedia.org/id/3m9QX
prov:wasDerivedFrom wikipedia-en:W-shingling?oldid=1085840750&ns=0
foaf:isPrimaryTopicOf wikipedia-en:W-shingling
is dbo:wikiPageRedirects of dbr:W_shingling dbr:K-shingle
is dbo:wikiPageWikiLink of dbr:Andrei_Broder dbr:Rolling_hash dbr:Data_synchronization dbr:Rabin_fingerprint dbr:Resemblance dbr:Bag-of-words_model dbr:MinHash dbr:Vector_space_model dbr:SimHash dbr:Text_mining dbr:Outline_of_natural_language_processing dbr:W_shingling dbr:K-shingle
is foaf:primaryTopic of wikipedia-en:W-shingling