Document classification (original) (raw)

About DBpedia

La classificació de documents o categorització de documents és un objecte d'estudi dins la biblioteconomia, la ciència de la informació i les ciències de la computació. El fet de classificar comprèn la distribució dels objectes de qualsevol gènere de classes. Quan classifiques documents es realitza una anàlisi del seu contingut i forma, situant la documentació en grups gràcies a un sistema de classificació amb aquests fins.

Property Value
dbo:abstract La classificació de documents o categorització de documents és un objecte d'estudi dins la biblioteconomia, la ciència de la informació i les ciències de la computació. El fet de classificar comprèn la distribució dels objectes de qualsevol gènere de classes. Quan classifiques documents es realitza una anàlisi del seu contingut i forma, situant la documentació en grups gràcies a un sistema de classificació amb aquests fins. (ca) Document classification or document categorization is a problem in library science, information science and computer science. The task is to assign a document to one or more classes or categories. This may be done "manually" (or "intellectually") or algorithmically. The intellectual classification of documents has mostly been the province of library science, while the algorithmic classification of documents is mainly in information science and computer science. The problems are overlapping, however, and there is therefore interdisciplinary research on document classification. The documents to be classified may be texts, images, music, etc. Each kind of document possesses its special classification problems. When not otherwise specified, text classification is implied. Documents may be classified according to their subjects or according to other attributes (such as document type, author, printing year etc.). In the rest of this article only subject classification is considered. There are two main philosophies of subject classification of documents: the content-based approach and the request-based approach. (en) Dokumentuen sailkapena informazioaren zientziaren arloa da, informazioa eskuratzeko teknikekin lotu ohi dena. baten edukietan oinarrituz, berau kategoria bat edo gehiagotan sailkatzean datza. 1960ko hamarkadan lehen urratsak izan zituen ikerketa ildo honen lehen hurbilketak oinarritzen ziren, eta ondorioz, pertsona baten beharra zegoen sailkapenaren azken urratsa eskuz egiteko. 1990eko hamarkadaz geroztik, ordea, ikasketa automatikoan oinarritutako teknikak nagusitu dira, prozesu osoa automatizatuz. Ikasketa automatikoan oinarritutako dokumentuen sailkapenerako bi prozesu mota ezberdindu daitezke: * oinarritutako dokumentuen sailkapena: sailkapen prozesua burutu aurretik, aurrez sailkatutako dokumentu sorta bat eskuragarri dago, eta berau erabiltzen da sistema entrenatzeko. * oinarritutako dokumentuen sailkapena: ez dago aurrez sailkatutako dokumentu sortarik eskuragarri, eta sailkapena itsu-itsuan burutzen da. Honako hau ez da sailkapen atazatzat hartzen askotan, eta edo clustering bezala ere ezagutu ohi da. Hala eta guztiz ere, azken urteotan gero eta gehiagotan erabiltzen den aukera da oinarritutako dokumentuen sailkapena. Aukera hau oso baliagarria da aurrez sailkatutako dokumentu sorta oso txikia denean sorta osoarekiko, esate baterako, Webaren kasuan. Aurrez sailkatutako dokumentuak ikasteko erabiltzeaz gain, sailkatu gabe dauden dokumentuak ere baliatu egiten dira kasu honetan sailkatzailearen ikasketa prozesurako. Sailkatutako dokumentuekin ikasi, eta sailkatu gabekoekin findu egiten da. Dokumentuen sailkapenerako tresna bat garatzerako orduan, hiru dira gainditu beharreko erronkak: * Dokumentuen indexazioa, eta ondorioz, hauen adierazpenerako formatua. * Sailkatzailea sortzea. * Emaitzen ebaluazioa. Sailkapenak lengoaia dokumental hierarkikoak dira, harreman hierarkikoa dagoelako bertako indizeen artean. Eta bere antolamendua orokorretik zehatzera doa, indizeen esanahiaren arabera. Oro har, sailkapenetan agertzen diren indizeek aurre koordinazioa dute, hau da, elementu semantikoak lotzen doaz indizeak gero eta zehatzagoak bihurtuz (adibidez, seriea, umorezko seriea). (eu) Se define como la tarea de asignar valores booleanos a cada par pertenecientes a , donde es el dominio de los documentos y es una colección de categorías predefinidas. T (verdadero) indica archivar un documento bajo , mientras F (falso) indica no archivar bajo . Entre las aplicaciones que encuentra la clasificación de documentos se tienen los filtros de correo electrónico (spam / no spam) Las medidas de evaluación utilizadas en la clasificación de documentos son principalmente precisión, cobertura y F-1.​ (es) La classification et catégorisation de documents est l'activité du traitement automatique des langues naturelles qui consiste à classer de façon automatique des ressources documentaires, généralement en provenance d'un corpus. Cette classification peut prendre une infinité de formes. On citera ainsi la classification par genre, par thème, ou encore par opinion. La tâche de classification est réalisée avec des algorithmes spécifiques, mis en œuvre par des systèmes de traitement de l'information. C'est une tâche d'automatisation d'un processus de classement, qui fait le plus souvent appel à des méthodes numériques (c'est-à-dire des algorithmes de recherche d'information ou de classification de type mathématique). L'activité de classification de documents est essentielle dans de nombreux domaines économiques : elle permet d'organiser des corpus documentaires, de les trier, et d'aider à les exploiter dans des secteurs tels que l'administration, l'aéronautique, la recherche sur internet, les sciences. (fr) Dalam ilmu perpustakaan, ilmu informasi dan ilmu komputer, klasifikasi dokumen atau kategorisasi dokumen ialah persoalan kepada menetapkan suatu dokumen ke satu atau lebih atau kategori. Dapat dicapai secara manual (intelektual) atau secara algoritma. Klasifikasi intelektual akan dokumen sebagian besar telah menjadi bidang ilmu perpustakaan, sementara klasifikasi secara algoritma akan dokumen ialah utama dalam ilmu informasi dan ilmu komputer. Dokumen yang mendapat klasifikasi bisa berupa teks, gambar, musik, dll. Setiap macam dokumen memiliki persoalan klasifikasi khusus. Kala tidak ditentukan, klasifikasi teks terlibat. Dokumen dapat dikategorikan berdasarkan dengan atau atribut lain (seperti jenis dokumen, pengarang, tahun cetakan, dll). Terdapat dua filosofi utama dari subjek klasifikasi dokumen: pendekatan klasifikasi berbasis konten dan pendekatan klasifikasi berbasis permintaan. (in) 文書分類(ぶんしょぶんるい、英: Document classification/categorization)は、情報科学における問題である。電子文書をその内容に基づいて、1つ以上に分類する。文書分類には、外部から(例えば人間が)正しい分類に関する情報を与える教師あり文書分類と、外部の情報を参照せずに分類する教師なし文書分類がある。 (ja) La classificazione del testo (in inglese text categorization o text classification, abbreviata come TC) è, nell'intelligenza artificiale, un'attività che si occupa di classificare testi digitali espressi in una lingua naturale assegnando in maniera automatica collezioni di documenti a una o più classi appartenenti a un "insieme di classi" predefinito. Per realizzare ciò si utilizzano solitamente degli approcci di apprendimento automatico di tipo supervisionato, dove è necessario addestrare il sistema tramite auto-apprendimento per esempi (anche chiamate istanze) da cui generare un modello generale per la classificazione automatica. Esistono tuttavia altri approcci, come quello non supervisionato o semi-supervisionato, ma solitamente con risultati peggiori. (it) Класифікація документів — це одне з завдань інформаційного пошуку, яке полягає у зарахуванні документа до однієї з кількох категорій на підставі його змісту. Класифікація може здійснюватися власноруч або автоматично, за допомогою створеного набору правил чи із застосуванням методів машинного навчання. Документи, що класифікуються, можуть бути текстовими, це можуть бути зображення та музика і так далі. Кожен вид документа має свої особливості класифікації. Зазвичай під класифікацією документів мається на увазі класифікація тексту, якщо не вказано інше. Слід відрізняти класифікацію текстів від кластеризації. В останньому випадку тексти також об'єднуються за деякими критеріями, але заздалегідь задані категорії відсутні. (uk) 文档分类是图书馆学, 信息学和计算机科学中的一个问题。其任务是将一个文档分配到一个或者多个类别中。它可以是通过人工分类完成的,也可以是通过计算机算法实现的。多数通过人工的文档分类问题一直属于图书馆学的领域,而通过算法实现的文档分类问题则多属于信息学和计算机科学的领域。这些问题之间是有相同的部分的,所以有一些对文档分类的跨学科研究。 需要被分类的文档有可能是纯文本,图片,音乐等等。每一种文档都有其独特分类问题。根据特殊的文档做研究,文档分类可以细分成文本分类,图片分类等等。 可以根据来进行文档分类,也可以根据它的属性(例如文档的类型,作者,出版的时间等)进行分类。下文只包含主题分类的问题。主要由两种方法来做根据主题的文档分类:基于内容的方法以及基于请求的方法。 (zh) Классификация документов — одна из задач информационного поиска, заключающаяся в отнесении документа к одной из нескольких категорий на основании содержания документа. Является одной из задач документной лингвистики. Классификация может осуществляться полностью вручную, либо автоматически с помощью созданного вручную набора правил, либо автоматически с применением методов машинного обучения. Следует отличать классификацию текстов от кластеризации, в последнем случае тексты также группируются по некоторым критериям, но заранее заданные категории отсутствуют. (ru)
dbo:wikiPageExternalLink http://www.ir.uwaterloo.ca/book/ http://www.biocreative.org/tasks/biocreative-iii/ppi/ http://www.daviddlewis.com/resources/testcollections/ http://liinwww.ira.uka.de/bibliography/Ai/query-classification.html https://www.cs.technion.ac.il/~gabr/resources/atc/atcbib.html http://www.gabormelli.com/RKB/Text_Classification_Task http://www.nltk.org/book/ch06.html http://techtc.cs.technion.ac.il https://arxiv.org/abs/cs.ir/0110053 https://web.archive.org/web/20070613200617/http:/isp.imm.dtu.dk/thor/projects/multimedia/textmining/node11.html https://web.archive.org/web/20201005195805/http:/www.ir.uwaterloo.ca/book/
dbo:wikiPageID 1331441 (xsd:integer)
dbo:wikiPageLength 13139 (xsd:nonNegativeInteger)
dbo:wikiPageRevisionID 1118573007 (xsd:integer)
dbo:wikiPageWikiLink dbr:Naive_Bayes_classifier dbr:Natural_language_processing dbr:Decision_tree_learning dbr:Information_retrieval dbr:Information_science dbr:Instantaneously_trained_neural_networks dbr:Library_classification dbr:Class_(philosophy) dbr:Concept-based_image_indexing dbr:Concept_mining dbr:Content-based_image_retrieval dbr:Controlled_vocabulary dbr:Library_science dbr:Machine_learning dbr:Computer_science dbr:Decimal_section_numbering dbr:Subject_(documents) dbr:Readability dbc:Machine_learning dbr:Document dbr:Document_retrieval dbr:Classification_(disambiguation) dbr:Language_identification dbr:Rough_set dbr:E-mail_spam dbr:Knowledge_organization dbr:Artificial_neural_network dbc:Data_mining dbc:Information_science dbc:Knowledge_representation dbc:Natural_language_processing dbr:K-nearest_neighbor_algorithm dbr:Support_vector_machines dbr:Thesaurus dbr:Document_clustering dbr:C4.5_algorithm dbr:Spam_filter dbr:Frederick_Wilfrid_Lancaster dbr:Categorization dbr:Subject_indexing dbr:Tf–idf dbr:Routing dbr:Sentiment_analysis dbr:Text_simplification dbr:Compound_term_processing dbr:Concept_Mining dbr:ID3_algorithm dbr:Latent_semantic_indexing dbr:Unsupervised_learning dbr:Multiple-instance_learning dbr:Web_mining dbr:Native_Language_Identification dbr:Text_mining dbr:Soft_set dbr:Supervised_learning dbr:String_metrics dbr:Algorithmically dbr:Expectation_maximization dbr:Knowledge_Organization_System
dbp:date 2020-10-05 (xsd:date)
dbp:url https://web.archive.org/web/20201005195805/http:/www.ir.uwaterloo.ca/book/
dbp:wikiPageUsesTemplate dbt:Colbegin dbt:Colend dbt:Reflist dbt:Short_description dbt:Webarchive dbt:Natural_Language_Processing
dct:subject dbc:Machine_learning dbc:Data_mining dbc:Information_science dbc:Knowledge_representation dbc:Natural_language_processing
gold:hypernym dbr:Problem
rdf:type yago:WikicatClassificationSystems yago:Abstraction100002137 yago:Arrangement105726596 yago:ClassificationSystem105727220 yago:Cognition100023271 yago:PsychologicalFeature100023100 dbo:Disease yago:Structure105726345
rdfs:comment La classificació de documents o categorització de documents és un objecte d'estudi dins la biblioteconomia, la ciència de la informació i les ciències de la computació. El fet de classificar comprèn la distribució dels objectes de qualsevol gènere de classes. Quan classifiques documents es realitza una anàlisi del seu contingut i forma, situant la documentació en grups gràcies a un sistema de classificació amb aquests fins. (ca) Se define como la tarea de asignar valores booleanos a cada par pertenecientes a , donde es el dominio de los documentos y es una colección de categorías predefinidas. T (verdadero) indica archivar un documento bajo , mientras F (falso) indica no archivar bajo . Entre las aplicaciones que encuentra la clasificación de documentos se tienen los filtros de correo electrónico (spam / no spam) Las medidas de evaluación utilizadas en la clasificación de documentos son principalmente precisión, cobertura y F-1.​ (es) 文書分類(ぶんしょぶんるい、英: Document classification/categorization)は、情報科学における問題である。電子文書をその内容に基づいて、1つ以上に分類する。文書分類には、外部から(例えば人間が)正しい分類に関する情報を与える教師あり文書分類と、外部の情報を参照せずに分類する教師なし文書分類がある。 (ja) 文档分类是图书馆学, 信息学和计算机科学中的一个问题。其任务是将一个文档分配到一个或者多个类别中。它可以是通过人工分类完成的,也可以是通过计算机算法实现的。多数通过人工的文档分类问题一直属于图书馆学的领域,而通过算法实现的文档分类问题则多属于信息学和计算机科学的领域。这些问题之间是有相同的部分的,所以有一些对文档分类的跨学科研究。 需要被分类的文档有可能是纯文本,图片,音乐等等。每一种文档都有其独特分类问题。根据特殊的文档做研究,文档分类可以细分成文本分类,图片分类等等。 可以根据来进行文档分类,也可以根据它的属性(例如文档的类型,作者,出版的时间等)进行分类。下文只包含主题分类的问题。主要由两种方法来做根据主题的文档分类:基于内容的方法以及基于请求的方法。 (zh) Классификация документов — одна из задач информационного поиска, заключающаяся в отнесении документа к одной из нескольких категорий на основании содержания документа. Является одной из задач документной лингвистики. Классификация может осуществляться полностью вручную, либо автоматически с помощью созданного вручную набора правил, либо автоматически с применением методов машинного обучения. Следует отличать классификацию текстов от кластеризации, в последнем случае тексты также группируются по некоторым критериям, но заранее заданные категории отсутствуют. (ru) Document classification or document categorization is a problem in library science, information science and computer science. The task is to assign a document to one or more classes or categories. This may be done "manually" (or "intellectually") or algorithmically. The intellectual classification of documents has mostly been the province of library science, while the algorithmic classification of documents is mainly in information science and computer science. The problems are overlapping, however, and there is therefore interdisciplinary research on document classification. (en) Dokumentuen sailkapena informazioaren zientziaren arloa da, informazioa eskuratzeko teknikekin lotu ohi dena. baten edukietan oinarrituz, berau kategoria bat edo gehiagotan sailkatzean datza. 1960ko hamarkadan lehen urratsak izan zituen ikerketa ildo honen lehen hurbilketak oinarritzen ziren, eta ondorioz, pertsona baten beharra zegoen sailkapenaren azken urratsa eskuz egiteko. 1990eko hamarkadaz geroztik, ordea, ikasketa automatikoan oinarritutako teknikak nagusitu dira, prozesu osoa automatizatuz. (eu) Dalam ilmu perpustakaan, ilmu informasi dan ilmu komputer, klasifikasi dokumen atau kategorisasi dokumen ialah persoalan kepada menetapkan suatu dokumen ke satu atau lebih atau kategori. Dapat dicapai secara manual (intelektual) atau secara algoritma. Klasifikasi intelektual akan dokumen sebagian besar telah menjadi bidang ilmu perpustakaan, sementara klasifikasi secara algoritma akan dokumen ialah utama dalam ilmu informasi dan ilmu komputer. (in) La classification et catégorisation de documents est l'activité du traitement automatique des langues naturelles qui consiste à classer de façon automatique des ressources documentaires, généralement en provenance d'un corpus. L'activité de classification de documents est essentielle dans de nombreux domaines économiques : elle permet d'organiser des corpus documentaires, de les trier, et d'aider à les exploiter dans des secteurs tels que l'administration, l'aéronautique, la recherche sur internet, les sciences. (fr) La classificazione del testo (in inglese text categorization o text classification, abbreviata come TC) è, nell'intelligenza artificiale, un'attività che si occupa di classificare testi digitali espressi in una lingua naturale assegnando in maniera automatica collezioni di documenti a una o più classi appartenenti a un "insieme di classi" predefinito. (it) Класифікація документів — це одне з завдань інформаційного пошуку, яке полягає у зарахуванні документа до однієї з кількох категорій на підставі його змісту. Класифікація може здійснюватися власноруч або автоматично, за допомогою створеного набору правил чи із застосуванням методів машинного навчання. Документи, що класифікуються, можуть бути текстовими, це можуть бути зображення та музика і так далі. Кожен вид документа має свої особливості класифікації. Зазвичай під класифікацією документів мається на увазі класифікація тексту, якщо не вказано інше. (uk)
rdfs:label Classificació de documents (ca) Clasificación de documentos (es) Dokumentuen sailkapena (eu) Document classification (en) Klasifikasi dokumen (in) Text categorization (it) Classification et catégorisation de documents (fr) 文書分類 (ja) Tekstclassificatie (nl) Классификация документов (ru) Класифікація документів (uk) 文档分类 (zh)
owl:sameAs freebase:Document classification wikidata:Document classification dbpedia-ca:Document classification dbpedia-es:Document classification dbpedia-eu:Document classification dbpedia-fa:Document classification dbpedia-fi:Document classification dbpedia-fr:Document classification dbpedia-id:Document classification dbpedia-it:Document classification dbpedia-ja:Document classification dbpedia-nl:Document classification dbpedia-nn:Document classification dbpedia-no:Document classification dbpedia-ru:Document classification http://su.dbpedia.org/resource/Klasifikasi_dokumén dbpedia-uk:Document classification dbpedia-zh:Document classification https://global.dbpedia.org/id/2oELT
prov:wasDerivedFrom wikipedia-en:Document_classification?oldid=1118573007&ns=0
foaf:isPrimaryTopicOf wikipedia-en:Document_classification
is dbo:knownFor of dbr:Timothy_Jurka
is dbo:wikiPageRedirects of dbr:Topic_spotting dbr:Request-based_classification dbr:Content-based_classification dbr:Automated_classification_of_documents dbr:Automated_text_classification dbr:Applications_of_document_classification dbr:Document_Classification dbr:Document_categorization dbr:Automated_document_classification dbr:Automatic_classification_of_documents dbr:Automatic_document_classification dbr:Unsupervised_document_classification dbr:Text_Classification dbr:Text_categorisation dbr:Text_categorization dbr:Text_classification dbr:Supervised_document_classification
is dbo:wikiPageWikiLink of dbr:Probabilistic_classification dbr:Ensemble_learning dbr:Naive_Bayes_classifier dbr:Natural-language_understanding dbr:Topic_spotting dbr:History_of_the_graphical_user_interface dbr:Bibliographic_Ontology dbr:Request-based_classification dbr:RetrievalWare dbr:DSSim dbr:Induction_of_regular_languages dbr:Information_asymmetry dbr:Information_retrieval dbr:Instantaneously_trained_neural_networks dbr:International_Conference_on_Computatio...stics_and_Intelligent_Text_Processing dbr:Library_classification dbr:Content-based_classification dbr:Classified_information dbr:Glossary_of_artificial_intelligence dbr:Concept-based_image_indexing dbr:Content-based_image_retrieval dbr:Mallet_(software_project) dbr:Cluster_labeling dbr:Email_filtering dbr:Feature_hashing dbr:Hamshahri_Corpus dbr:Pattern_recognition dbr:Subject_(documents) dbr:Tag_(metadata) dbr:MeaningCloud dbr:Michal_Rosen-Zvi dbr:Automated_classification_of_documents dbr:Automated_text_classification dbr:Automatic_content_recognition dbr:Transfer_learning dbr:W-shingling dbr:Document_capture_software dbr:Document_retrieval dbr:John_G._Cleary dbr:Latent_semantic_analysis dbr:Linear_classifier dbr:Dirichlet-multinomial_distribution dbr:Knowledge_Organization_(journal) dbr:Knowledge_organization dbr:Speech_recognition dbr:Bag-of-words_model dbr:Bag-of-words_model_in_computer_vision dbr:Biomedical_text_mining dbr:Co-citation dbr:Collective_classification dbr:Egress_Software dbr:Jack_Mills_(classification_researcher) dbr:Automated_tagging dbr:Automatic_taxonomy_construction dbr:SpaCy dbr:Spark_NLP dbr:Classification dbr:Classification_Research_Group dbr:Frederick_Wilfrid_Lancaster dbr:Applications_of_document_classification dbr:Document_Classification dbr:Automated_document_classification dbr:Automatic_classification_of_documents dbr:Christine_Piatko dbr:WordNet dbr:Subject_indexing dbr:Text_segmentation dbr:NetOwl dbr:Explicit_semantic_analysis dbr:F-score dbr:IEC_61355 dbr:Timothy_Jurka dbr:Object_categorization_from_image_search dbr:Manifold_regularization dbr:Naive_Bayes_spam_filtering dbr:Random_mapping dbr:Web_query_classification dbr:Software_mining dbr:Outline_of_knowledge dbr:Outline_of_library_and_information_science dbr:Outline_of_machine_learning dbr:Overcategorization dbr:TREC_Genomics dbr:Automatic_document_classification dbr:Unsupervised_document_classification dbr:Text_graph dbr:Text_Classification dbr:Text_categorisation dbr:Text_categorization dbr:Text_classification dbr:Supervised_document_classification
is rdfs:seeAlso of dbr:Text_segmentation dbr:Online_content_analysis
is foaf:primaryTopic of wikipedia-en:Document_classification