W-shingling (original) (raw)
Алгоритм шинглов (от англ. shingles — чешуйки) — алгоритм, разработанный для поиска копий и дубликатов рассматриваемого текста в веб-документе. Инструмент для выявления плагиата. Уди Манбер в 1994 году первым в мире выразил идею поиска дубликатов, а в 1997 году Андрей Бродер оптимизировал и довёл её до логического завершения, дав имя данной системе — «алгоритм шинглов».
Property | Value |
---|---|
dbo:abstract | In natural language processing a w-shingling is a set of unique shingles (therefore n-grams) each of which is composed of contiguous subsequences of tokens within a document, which can then be used to ascertain the similarity between documents. The symbol w denotes the quantity of tokens in each shingle selected, or solved for. The document, "a rose is a rose is a rose" can therefore be maximally tokenized as follows: (a,rose,is,a,rose,is,a,rose) The set of all contiguous sequences of 4 tokens (Thus 4=n, thus 4-grams) is { (a,rose,is,a), (rose,is,a,rose), (is,a,rose,is), (a,rose,is,a), (rose,is,a,rose) } Which can then be reduced, or maximally shingled in this particular instance to { (a,rose,is,a), (rose,is,a,rose), (is,a,rose,is) }. (en) Алгоритм шинглов (от англ. shingles — чешуйки) — алгоритм, разработанный для поиска копий и дубликатов рассматриваемого текста в веб-документе. Инструмент для выявления плагиата. Уди Манбер в 1994 году первым в мире выразил идею поиска дубликатов, а в 1997 году Андрей Бродер оптимизировал и довёл её до логического завершения, дав имя данной системе — «алгоритм шинглов». (ru) Алгоритм шинглів (від англ. shingles — лусочки) — алгоритм, розроблений для пошуку копій та дублікатів розглянутого тексту в вебдокументі. Інструмент для виявлення плагіату. в 1994 р. першим у світі висловив ідею пошуку дублікатів, а в 1997 р. Андрій Бродер оптимізував і довів її до логічного завершення, дав ім'я даній системі — «алгоритм шинглів». (uk) |
dbo:wikiPageExternalLink | http://webglimpse.net/pubs/TR93-33.pdf http://www.std.org/~msm/common/clustering.html http://nlp.stanford.edu/IR-book/html/htmledition/near-duplicates-and-shingling-1.html |
dbo:wikiPageID | 5548352 (xsd:integer) |
dbo:wikiPageLength | 2696 (xsd:nonNegativeInteger) |
dbo:wikiPageRevisionID | 1085840750 (xsd:integer) |
dbo:wikiPageWikiLink | dbr:N-gram dbr:Natural_language_processing dbr:Concept_mining dbr:Rolling_hash dbr:Subsequence dbr:Tokenization_(lexical_analysis) dbr:Document dbr:Document_classification dbr:K-mer dbr:Rabin_fingerprint dbr:Intersection_(set_theory) dbr:Bag-of-words_model dbc:Natural_language_processing dbr:MinHash dbr:Set_(mathematics) dbr:Union_(set_theory) dbr:Vector_space_model dbr:Token_(parser) dbr:Jaccard_coefficient |
dbp:wikiPageUsesTemplate | dbt:Natural_language_processing dbt:Cite_book dbt:Google_books dbt:Lowercase |
dct:subject | dbc:Natural_language_processing |
gold:hypernym | dbr:Set |
rdfs:comment | Алгоритм шинглов (от англ. shingles — чешуйки) — алгоритм, разработанный для поиска копий и дубликатов рассматриваемого текста в веб-документе. Инструмент для выявления плагиата. Уди Манбер в 1994 году первым в мире выразил идею поиска дубликатов, а в 1997 году Андрей Бродер оптимизировал и довёл её до логического завершения, дав имя данной системе — «алгоритм шинглов». (ru) Алгоритм шинглів (від англ. shingles — лусочки) — алгоритм, розроблений для пошуку копій та дублікатів розглянутого тексту в вебдокументі. Інструмент для виявлення плагіату. в 1994 р. першим у світі висловив ідею пошуку дублікатів, а в 1997 р. Андрій Бродер оптимізував і довів її до логічного завершення, дав ім'я даній системі — «алгоритм шинглів». (uk) In natural language processing a w-shingling is a set of unique shingles (therefore n-grams) each of which is composed of contiguous subsequences of tokens within a document, which can then be used to ascertain the similarity between documents. The symbol w denotes the quantity of tokens in each shingle selected, or solved for. The document, "a rose is a rose is a rose" can therefore be maximally tokenized as follows: (a,rose,is,a,rose,is,a,rose) The set of all contiguous sequences of 4 tokens (Thus 4=n, thus 4-grams) is (en) |
rdfs:label | Алгоритм шинглов (ru) W-shingling (en) Алгоритм шинглів (uk) |
owl:sameAs | freebase:W-shingling wikidata:W-shingling dbpedia-ru:W-shingling dbpedia-uk:W-shingling https://global.dbpedia.org/id/3m9QX |
prov:wasDerivedFrom | wikipedia-en:W-shingling?oldid=1085840750&ns=0 |
foaf:isPrimaryTopicOf | wikipedia-en:W-shingling |
is dbo:wikiPageRedirects of | dbr:W_shingling dbr:K-shingle |
is dbo:wikiPageWikiLink of | dbr:Andrei_Broder dbr:Rolling_hash dbr:Data_synchronization dbr:Rabin_fingerprint dbr:Resemblance dbr:Bag-of-words_model dbr:MinHash dbr:Vector_space_model dbr:SimHash dbr:Text_mining dbr:Outline_of_natural_language_processing dbr:W_shingling dbr:K-shingle |
is foaf:primaryTopic of | wikipedia-en:W-shingling |