Text mining (original) (raw)
التنقيب في النصوص، وأحيانا يشار إليه باسم التنقيب في البيانات النصية، أي ما يعني تقريبا ، هو عملية استخلاص معلومات عالية الجودة من النص. واستخلاص المعلومات عالية الجودة يكون من خلال التقسيم للأنماط والاتجاهات من خلال وسائل مثل . وعادة ما يتطلب التنقيب في النصوص عملية هيكلة للنص المدخل (عادة التحليل، جنبا إلى جنب مع إضافة بعض المميزات اللغوية المشتقة وإزالة أخرى، ومن ثم الإدراج في قاعدة بيانات)، واستخلاص الأنماط في صورة بيانات مهيكلة، وأخيرا تقييم وتفسير للناتج. ويشير المصطلح 'ذات جودة عالية' في مجال التنقيب في النصوص إلى مزيج من ، ، الأهمية.
Property | Value |
---|---|
dbo:abstract | التنقيب في النصوص، وأحيانا يشار إليه باسم التنقيب في البيانات النصية، أي ما يعني تقريبا ، هو عملية استخلاص معلومات عالية الجودة من النص. واستخلاص المعلومات عالية الجودة يكون من خلال التقسيم للأنماط والاتجاهات من خلال وسائل مثل . وعادة ما يتطلب التنقيب في النصوص عملية هيكلة للنص المدخل (عادة التحليل، جنبا إلى جنب مع إضافة بعض المميزات اللغوية المشتقة وإزالة أخرى، ومن ثم الإدراج في قاعدة بيانات)، واستخلاص الأنماط في صورة بيانات مهيكلة، وأخيرا تقييم وتفسير للناتج. ويشير المصطلح 'ذات جودة عالية' في مجال التنقيب في النصوص إلى مزيج من ، ، الأهمية. (ar) Dolování z textu (anglicky text mining) je vědecká disciplína na pomezí dolování z dat, strojového učení a počítačové lingvistiky. Vyvíjí se především s potřebou automatického zpracování ohromného množství informací dostupných v podobě volného textu. Klasické metody dolování z dat totiž pracují pouze se strukturovanými daty (obsahujícími metadata důležitá pro zpracování) a většina informací jim tak zůstává nepřístupná. (cs) Η εξόρυξη κειμένου (αγγλικά: text mining) είναι η διαδικασία με την οποία υψηλής ποιότητας πληροφορίες εξάγονται από κείμενα με τη χρήση πληροφοριακών συστημάτων. Πιο συγκεκριμένα, αφορά στον εντοπισμό και την αυτόματη εξαγωγή νέων, άγνωστων μέχρι πρότινος πληροφοριών από διάφορους γραπτούς πόρους, όπως ιστότοπους, βιβλία, μηνύματα ηλεκτρονικού ταχυδρομείου, κριτικές και άρθρα. Η τεχνολογία εξόρυξης κειμένου χρησιμοποιείται ευρέως σε κυβερνητικές, ερευνητικές και επιχειρηματικές εφαρμογές, όπως, σε εφαρμογές εθνικής ασφάλειας, στην οργάνωση μη δομημένων δεδομένων, στην ανάλυση συναισθήματος. Η εμφάνιση εξατομικευμένων διαφημίσεων στο διαδίκτυο, βασίζεται επίσης στην τεχνολογία εξόρυξης κειμένου. Μέθοδοι και λογισμικό εξόρυξης κειμένου ερευνάται και αναπτύσσεται από μεγάλες εταιρείες, συμπεριλαμβανομένων των IBM και της Microsoft, για την περαιτέρω αυτοματοποίηση των διαδικασιών εξόρυξης και ανάλυσης. (el) Text Mining, seltener auch Textmining, Text Data Mining oder Textual Data Mining, ist ein Bündel von Algorithmus-basierten Analyseverfahren zur Entdeckung von Bedeutungsstrukturen aus un- oder schwachstrukturierten Textdaten. Mit statistischen und linguistischen Mitteln erschließt Text-Mining-Software aus Texten Strukturen, die die Benutzer in die Lage versetzen sollen, Kerninformationen der verarbeiteten Texte schnell zu erkennen. Im Optimalfall liefern Text-Mining-Systeme Informationen, von denen die Benutzer zuvor nicht wissen, ob und dass sie in den verarbeiteten Texten enthalten sind. Bei zielgerichteter Anwendung sind Werkzeuge des Text Mining außerdem in der Lage, Hypothesen zu generieren, diese zu überprüfen und schrittweise zu verfeinern. (de) Testu-meatzaritza, testutik kalitate handiko informazioa lortzeko prozesua da. Kalitate handiko informazioa, oro har, patroiak eta joerak egitean lortzen da, esate baterako, eredu estatistikoko ikasketen bidez. Testu-meatzaritzak, oro har, idazketa-testua egituratzeko prozesua dakar (normalean azterketa, ezaugarri linguistiko eratorri batzuk gehituta eta besteen ezabapena eta ondorengo datu-base batean sartzea), eta, azkenik, irteeraren ebaluazioa eta interpretazioa. Testu-meatzaritzan "kalitate handia" garrantziaren, berrikuntzaren eta interesaren konbinazioari dagokio. Testu-meatzaritzako eginkizun tipikoen artean, testuen sailkapena, testu-taldekatzea, kontzeptu/entitate erauzketa, taxonomia granularrak, sentimenduen analisia, dokumentuaren laburpena eta entitate-ereduen modelizazioa. Testuen analisiak honako hauek dakartza: informazioaren berreskurapena, azterketa lexikoa, hitzaren maiztasunen banaketa, ereduen ezagutza, etiketatzea/anotazioa, informazioaren erauzketa, datuen meatzaritza teknikak, bisualizazioa eta aurresateko analisia. Helburu nagusia testua aztertzeko datuak bihurtzea da, hizkuntzaren tratamendu naturalaren aplikazioaren bidez eta metodo analitikoen bidez. (eu) La minería de textos es una rama específica de la minería de datos que se refiere al proceso de analizar y derivar información nueva de textos. Por medio de la identificación de patrones o correlaciones entre los términos se logra encontrar información que no está explícita dentro del texto. Los textos que se usan como recursos pueden ser páginas web, libros, correos electrónicos, reseñas de clientes, artículos, entre otros. La minería de textos es un área multidisciplinaria basada en la recuperación de información, aprendizaje automático, estadísticas y la lingüística computacional. Como la mayor parte de la información (más de un 80%) se encuentra actualmente almacenada como texto, se cree que la minería de textos tiene un gran valor comercial. (es) Penambangan teks (bahasa Inggris: text mining) adalah proses ekstraksi pola berupa informasi dan pengetahuan yang berguna dari sejumlah besar sumber data teks, seperti dokumen Word, PDF, kutipan teks, dll. Jenis untuk penambangan teks ini disebut data tak terstruktur dan merupakan pembeda utama dengan penambangan data yang menggunakan data terstruktur atau basis data sebagai masukan. Penambangan teks dapat dianggap sebagai proses dua tahap yang diawali dengan penerapan struktur terhadap sumber data teks dan dilanjutkan dengan dan pengetahuan yang relevan dari data teks terstruktur ini dengan menggunakan teknik dan alat yang sama dengan penambangan data. Proses yang umum dilakukan oleh penambangan teks di antaranya adalah , , , deteksi plagiarisme, dll. (Turban, et.al., 2011) (in) La fouille de textes ou « l'extraction de connaissances » dans les textes est une spécialisation de la fouille de données et fait partie du domaine de l'intelligence artificielle. Cette technique est souvent désignée sous l'anglicisme text mining. Elle désigne un ensemble de traitements informatiques consistant à extraire des connaissances selon un critère de nouveauté ou de similarité dans des textes produits par des humains pour des humains. Dans la pratique, cela revient à mettre en algorithme un modèle simplifié des théories linguistiques dans des systèmes informatiques d'apprentissage et de statistiques, et des technologies de compréhension du langage naturel. Les disciplines impliquées sont donc la linguistique calculatoire, l'ingénierie des langues, l'apprentissage artificiel, les statistiques et l'informatique. (fr) Text mining, also referred to as text data mining, similar to text analytics, is the process of deriving high-quality information from text. It involves "the discovery by computer of new, previously unknown information, by automatically extracting information from different written resources." Written resources may include websites, books, emails, reviews, and articles. High-quality information is typically obtained by devising patterns and trends by means such as statistical pattern learning. According to Hotho et al. (2005) we can distinguish between three different perspectives of text mining: information extraction, data mining, and a KDD (Knowledge Discovery in Databases) process. Text mining usually involves the process of structuring the input text (usually parsing, along with the addition of some derived linguistic features and the removal of others, and subsequent insertion into a database), deriving patterns within the structured data, and finally evaluation and interpretation of the output. 'High quality' in text mining usually refers to some combination of relevance, novelty, and interest. Typical text mining tasks include text categorization, text clustering, concept/entity extraction, production of granular taxonomies, sentiment analysis, document summarization, and entity relation modeling (i.e., learning relations between named entities). Text analysis involves information retrieval, lexical analysis to study word frequency distributions, pattern recognition, tagging/annotation, information extraction, data mining techniques including link and association analysis, visualization, and predictive analytics. The overarching goal is, essentially, to turn text into data for analysis, via application of natural language processing (NLP), different types of algorithms and analytical methods. An important phase of this process is the interpretation of the gathered information. A typical application is to scan a set of documents written in a natural language and either model the document set for predictive classification purposes or populate a database or search index with the information extracted.The document is the basic element while starting with text mining. Here, we define a document as a unit of textual data, which normally exists in many types of collections. (en) Il text mining è una tecnica che utilizza l'elaborazione del linguaggio naturale per trasformare il testo libero, non strutturato, di documenti/database in dati strutturati e normalizzati. Lo scopo è quello di estrarre significato, classificare gli argomenti e assegnare agli stessi una polarità, che può essere positiva, negativa o neutra (ovvero, si parla di un determinato argomento in che modo?). Tanti gli strumenti di analisi utilizzabili, da quelli full AI (completamente automatizzati) a quelli ibridi, dove la componente umana aiuta nei procedimenti di interpretazione del big data testuale. Le informazioni estratte, distillate e classificate possono essere espresse graficamente (istogrammi, tabelle, mappe mentali ecc), sintetizzati in report testuali, oppure possono essere integrate in database, data warehouse o dashboard di business intelligence e utilizzati per analisi descrittive, predittive e prescrittive. (it) テキストマイニング(英: text mining)は、文字列を対象としたデータマイニングのことである。通常の文章からなるデータを単語や文節で区切り、それらの出現の頻度や共出現の相関、出現傾向、時系列などを解析することで有用な情報を取り出す、テキストデータの分析方法である。 テキストデータの多くは形式が定まっておらず、また日本語は英語などと比べて単語の境界判別の必要性(→わかち書き)や文法ゆらぎが大きい点において形態素解析が困難であったが、自然言語処理の発展により実用的な水準の分析が可能となった。テキストマイニングの対象としては、顧客からのアンケートの回答やコールセンターに寄せられる質問や意見、電子掲示板やメーリングリストに蓄積されたテキストデータなどがある。 (ja) Textmining of tekstmining verwijst naar het proces om met allerhande ICT-technieken waardevolle informatie te halen uit grote hoeveelheden tekstmateriaal. Met deze technieken wordt gepoogd patronen en tendensen te ontwaren. Concreet gaat men teksten softwarematig structureren en ontleden, transformeren, vervolgens inbrengen in databanken, en ten slotte evalueren en interpreteren. Textmining is verwant aan tekstanalyse; de termen worden vaak door elkaar gebruikt. Hoewel ook in tekstanalyse kwantitatieve methoden worden gebruikt, verwijst textmining eerder naar analyse op grote schaal: bij ondernemingen in het kader van business intelligence, bijvoorbeeld om feedback van klanten te analyseren, en bijvoorbeeld in de sociale media om de publieke opinie in kaart te brengen (sentiment analysis). In de biotechnologie wordt textmining ingezet om wetenschappelijke informatie te analyseren uit de gigantische hoeveelheid publicaties. Textmining wordt ook benut door inlichtingendiensten. In die zin kan textmining beschouwd worden als een vorm van datamining. Textmining kan daarbij als doel dienen om een dataset te genereren waarop vervolgens statistische analyses worden toegepast. Textmining is een toegankelijker woord voor bepaalde onderdelen uit het brede gebied van computationele taalkunde. Dit kennisgebied houdt zich bezig met het verwerken van menselijke taal door computers. (nl) Text mining (eksploracja tekstu) – ogólna nazwa metod eksploracji danych służących do wydobywaniadanych z tekstu i ich późniejszej obróbki. Metody text mining stosowane są np. do statystycznego przetwarzania: * artykułów prasowych * wiadomości poczty elektronicznej * otwartych odpowiedzi na * opisów dolegliwości, podawanych przez pacjentów * komentarzy do sesji giełdowych i zdarzeń dotyczące spółek * życiorysów zawodowych i listów motywacyjnych * tekstów reklamacji konsumenckich Text mining może polegać na znalezieniu kluczowych fraz, zdań, które zostają następnie zakodowane pod postacią zmiennych numerycznych. Później stosuje się metody statystyki i eksploracji danych w celu odkrycia zależności pomiędzy zmiennymi. Ze względu na to, że powstające zmienne są zwykle nominalne, szczególnie użyteczna jest analiza koszykowa. (pl) Text mining eller text data mining är processen att upptäcka meningsfulla mönster och samband i ostrukturerad information/ostrukturerade data, det vill säga texter. Text mining är inte en sökmotor, informationssökare eller tolkare. Denna artikel om språk eller lingvistik saknar väsentlig information. Du kan hjälpa till genom att lägga till den. (sv) Mineração de texto, conhecida também como mineração de dados textuais e semelhante à , refere-se ao processo de obtenção de informações importantes de um texto. Informações importantes são obtidas normalmente pela elaboração de padrões e tendências através de meios como o padrão estatístico de aprendizagem. Geralmente a mineração de texto envolve o processo de estruturação do texto de entrada (frequentemente análise, junto com a adição de algumas características linguísticas derivadas e com a retirada de outras, e com a subsequente inserção em um banco de dados), de derivação de padrões dentro da estrutura de dados e, por fim, de avaliação e interpretação do resultado. Geralmente, “importante” em mineração de texto refere-se a algumas combinações de relevância, originalidade e interesse. Tarefas típicas de mineração de texto incluem categorização e agrupamento de texto, extração de conceito/entidade, produção de taxonomias granulares, análise de sentimentos , resumo de documentos e modelagem de relações entre entidades (ex., aprender relações entre entidades nomeadas). A análise de texto envolve informações de recuperação, análise lexical a fim de estudar a frequência de distribuição de palavras, reconhecimento de padrões, identificação/anotação, extração de informações, técnicas de mineração de dados que incluem link e associação de análises, visualização e analítica preditiva. O objetivo maior é transformar o texto em dados para análise, por meio da aplicação do processamento de linguagem natural (PLN) e de métodos analíticos. Uma aplicação comum é examinar um conjunto de documentos escritos em uma linguagem natural e, ou modelar o conjunto de documentos para fins de classificação preditiva ou preencher um banco de dados ou índice de pesquisa com as informações extraídas. (pt) Интеллектуальный анализ текстов (ИАТ, англ. text mining) — направление в искусственном интеллекте, целью которого является получение информации из , основываясь на применении эффективных в практическом плане методов машинного обучения и обработки естественного языка. Название «интеллектуальный анализ текстов» перекликается с понятием «интеллектуальный анализ данных» (ИАД, англ. data mining), что выражает схожесть их целей, подходов к переработке информации и сфер применения; разница проявляется лишь в конечных методах, а также в том, что ИАД имеет дело с хранилищами и базами данных, а не электронными библиотеками и корпусами текстов. (ru) Інтелектуальний аналіз тексту (ІАТ, англ. text mining) — напрям інтелектуального аналізу даних (англ. Data Mining) та штучного інтелекту, метою якого є отримання інформації з колекцій текстових документів, ґрунтуючись на застосуванні ефективних, у практичному плані, методів машинного навчання та обробки природної мови. Інтелектуальний аналіз тексту використовує всі ті ж підходи до перероблювання інформації, що й інтелектуальний аналіз даних, однак різниця між цими напрямками проявляється лише в кінцевих методах, а також у тому, що інтелектуальний аналіз даних має справу зі сховищами та базами даних, а не електронними бібліотеками та корпусами текстів. (uk) 文本挖掘(Text mining)有时也被称为文字探勘、文本数据挖掘等,大致相当于文字分析,一般指文本处理过程中产生高质量的信息。高质量的信息通常通过分类和预测来产生,如模式识别。文本挖掘通常涉及输入文本的处理过程(通常进行分析,同时加上一些衍生语言特征以及消除杂音,随后插入到数据库中) ,产生结构化数据,并最终评价和解释输出。'高品质'的文本挖掘通常是指某种组合的相关性,新颖性和趣味性。典型的文本挖掘方法包括,,概念/实体挖掘,生产精确分类,,和实体关系模型(即,学习之间的关系) 。文本分析包括了信息检索与词典分析来研究词语的频数分布、模式识别、标签\注释、信息抽取,数据挖掘技术包括链接和关联分析、可视化和预测分析。本质上,首要的任务是,通过自然语言处理(NLP)和分析方法,将文本转化为数据进行分析。 (zh) |
dbo:thumbnail | wiki-commons:Special:FilePath/Text_mining_protocol.png?width=300 |
dbo:wikiPageExternalLink | http://projects.ldc.upenn.edu/ace/ https://web.archive.org/web/20060308054306/http:/www.itl.nist.gov/iad/894.01/tests/ace/ http://people.ischool.berkeley.edu/~hearst/text-mining.html |
dbo:wikiPageID | 318439 (xsd:integer) |
dbo:wikiPageLength | 41275 (xsd:nonNegativeInteger) |
dbo:wikiPageRevisionID | 1119160070 (xsd:integer) |
dbo:wikiPageWikiLink | dbr:Protein_interactions dbr:Encryption dbr:Named_entity_recognition dbr:Natural_language_processing dbr:Noun_phrase dbr:Ontology_learning dbr:Parsing dbr:Index_(database) dbr:Intelligence_analyst dbr:Biology dbr:Biomedical dbr:Decryption dbr:Algorithm dbr:Customer_attrition dbr:Customer_relationship_management dbr:University_of_Alberta dbr:University_of_California,_Berkeley dbr:University_of_Manchester dbr:University_of_Tokyo dbr:Information_Awareness_Office dbr:Information_extraction dbr:Information_retrieval dbr:Information_visualization dbr:Lexical_analysis dbr:Limitations_and_exceptions_to_copyright dbr:PubGene dbr:Gender_bias dbc:Applications_of_artificial_intelligence dbr:Commercial_software dbr:Competitive_intelligence dbr:Name_resolution_(semantics_and_text_extraction) dbr:National_security dbr:Nature_(journal) dbr:Novelty_(patent) dbr:Open_source dbr:Gensim dbr:Concept_mining dbr:Content_analysis dbr:Context_(language_use) dbr:Copyright_law_of_Japan dbr:Copyright_law_of_the_European_Union dbr:Copyright_law_of_the_United_States dbr:Coreference dbr:Corpus_manager dbr:Annotation dbr:Machine_learning dbc:Text dbr:Structured_data dbr:Subject-verb-object dbr:Email dbr:Document_Type_Definition dbr:Security_appliance dbr:Pattern_recognition dbr:Predictive_analytics dbr:Tag_(metadata) dbr:Unstructured_data dbr:Readability dbr:Ad_serving dbc:Statistical_natural_language_processing dbr:Tribune_Company dbr:Data_mining dbr:Database_Directive dbr:W-shingling dbr:Weka_(machine_learning) dbr:Document dbr:Document_processing dbr:Linguistics dbr:News_analytics dbr:Database dbr:European_Commission dbr:Fair_use dbr:Dimensionality_reduction dbr:GoPubMed dbr:Text_corpus dbr:Full_text_search dbr:Search_engine dbr:Relevance_(information_retrieval) dbr:Research dbr:Review dbr:Google_Book_Search_Settlement_Agreement dbr:Text_Analysis_Portal_for_Research dbr:EPSRC dbr:Sequential_pattern_mining dbr:Statistical dbc:Computational_linguistics dbc:Natural_language_processing dbc:Applied_data_mining dbr:Affect_(psychology) dbr:Big_data dbr:Bioinformatics dbc:Text_mining dbr:Blog dbr:Homonym dbr:Plain_text dbr:Record_linkage dbr:Marti_Hearst dbr:Book dbr:Business_intelligence dbr:Business_rule dbr:Social_media dbr:Spam_filter dbr:Document_summarization dbr:Scientific_discovery dbr:IBM dbr:Information dbr:Information_Society_Directive dbr:Microsoft dbr:National_Centre_for_Text_Mining dbr:National_Institutes_of_Health dbr:Natural_Language_Toolkit dbr:Open_access dbr:Categorization dbr:Semantic_web dbr:WordNet dbr:Machine_translation dbr:Market_sentiment dbr:Sentiment_analysis dbr:Social_sciences dbr:Website dbr:Exploratory_data_analysis dbr:ConceptNet dbr:List_of_text_mining_software dbr:Natural_language dbr:Web_mining dbr:Internet_news dbr:Life_sciences dbr:BBSRC dbr:Protein_docking dbr:Psychological_profiling dbr:Text_categorization dbr:Text_clustering dbr:Joint_Information_Systems_Committee dbr:UC_Berkeley_School_of_Information dbr:Part_of_speech_tagging dbr:E-discovery dbr:Research_council_(United_Kingdom) dbr:Counter-intelligence dbr:Predictive_classification dbr:File:Text_mining_protocol.png dbr:Hargreaves_review dbr:File:Tripletsnew2012.png dbr:File:FixCopyright-_Copyright_&_Researc...xt_&_Data_Mining_(TDM)_Explained.webm dbr:Ronen_Feldman |
dbp:wikiPageUsesTemplate | dbt:Authority_control dbt:Cn dbt:Div_col dbt:Div_col_end dbt:ISBN dbt:Main dbt:Reflist dbt:Short_description dbt:Natural_Language_Processing |
dct:subject | dbc:Applications_of_artificial_intelligence dbc:Text dbc:Statistical_natural_language_processing dbc:Computational_linguistics dbc:Natural_language_processing dbc:Applied_data_mining dbc:Text_mining |
rdf:type | owl:Thing yago:WikicatArtificialIntelligenceApplications yago:Abstraction100002137 yago:Application106570110 yago:Code106355894 yago:CodingSystem106353757 yago:Communication100033020 yago:Program106568978 yago:Writing106359877 yago:WrittenCommunication106349220 dbo:MusicGenre yago:Software106566077 |
rdfs:comment | التنقيب في النصوص، وأحيانا يشار إليه باسم التنقيب في البيانات النصية، أي ما يعني تقريبا ، هو عملية استخلاص معلومات عالية الجودة من النص. واستخلاص المعلومات عالية الجودة يكون من خلال التقسيم للأنماط والاتجاهات من خلال وسائل مثل . وعادة ما يتطلب التنقيب في النصوص عملية هيكلة للنص المدخل (عادة التحليل، جنبا إلى جنب مع إضافة بعض المميزات اللغوية المشتقة وإزالة أخرى، ومن ثم الإدراج في قاعدة بيانات)، واستخلاص الأنماط في صورة بيانات مهيكلة، وأخيرا تقييم وتفسير للناتج. ويشير المصطلح 'ذات جودة عالية' في مجال التنقيب في النصوص إلى مزيج من ، ، الأهمية. (ar) Dolování z textu (anglicky text mining) je vědecká disciplína na pomezí dolování z dat, strojového učení a počítačové lingvistiky. Vyvíjí se především s potřebou automatického zpracování ohromného množství informací dostupných v podobě volného textu. Klasické metody dolování z dat totiž pracují pouze se strukturovanými daty (obsahujícími metadata důležitá pro zpracování) a většina informací jim tak zůstává nepřístupná. (cs) Text Mining, seltener auch Textmining, Text Data Mining oder Textual Data Mining, ist ein Bündel von Algorithmus-basierten Analyseverfahren zur Entdeckung von Bedeutungsstrukturen aus un- oder schwachstrukturierten Textdaten. Mit statistischen und linguistischen Mitteln erschließt Text-Mining-Software aus Texten Strukturen, die die Benutzer in die Lage versetzen sollen, Kerninformationen der verarbeiteten Texte schnell zu erkennen. Im Optimalfall liefern Text-Mining-Systeme Informationen, von denen die Benutzer zuvor nicht wissen, ob und dass sie in den verarbeiteten Texten enthalten sind. Bei zielgerichteter Anwendung sind Werkzeuge des Text Mining außerdem in der Lage, Hypothesen zu generieren, diese zu überprüfen und schrittweise zu verfeinern. (de) Penambangan teks (bahasa Inggris: text mining) adalah proses ekstraksi pola berupa informasi dan pengetahuan yang berguna dari sejumlah besar sumber data teks, seperti dokumen Word, PDF, kutipan teks, dll. Jenis untuk penambangan teks ini disebut data tak terstruktur dan merupakan pembeda utama dengan penambangan data yang menggunakan data terstruktur atau basis data sebagai masukan. Penambangan teks dapat dianggap sebagai proses dua tahap yang diawali dengan penerapan struktur terhadap sumber data teks dan dilanjutkan dengan dan pengetahuan yang relevan dari data teks terstruktur ini dengan menggunakan teknik dan alat yang sama dengan penambangan data. Proses yang umum dilakukan oleh penambangan teks di antaranya adalah , , , deteksi plagiarisme, dll. (Turban, et.al., 2011) (in) テキストマイニング(英: text mining)は、文字列を対象としたデータマイニングのことである。通常の文章からなるデータを単語や文節で区切り、それらの出現の頻度や共出現の相関、出現傾向、時系列などを解析することで有用な情報を取り出す、テキストデータの分析方法である。 テキストデータの多くは形式が定まっておらず、また日本語は英語などと比べて単語の境界判別の必要性(→わかち書き)や文法ゆらぎが大きい点において形態素解析が困難であったが、自然言語処理の発展により実用的な水準の分析が可能となった。テキストマイニングの対象としては、顧客からのアンケートの回答やコールセンターに寄せられる質問や意見、電子掲示板やメーリングリストに蓄積されたテキストデータなどがある。 (ja) Text mining eller text data mining är processen att upptäcka meningsfulla mönster och samband i ostrukturerad information/ostrukturerade data, det vill säga texter. Text mining är inte en sökmotor, informationssökare eller tolkare. Denna artikel om språk eller lingvistik saknar väsentlig information. Du kan hjälpa till genom att lägga till den. (sv) Интеллектуальный анализ текстов (ИАТ, англ. text mining) — направление в искусственном интеллекте, целью которого является получение информации из , основываясь на применении эффективных в практическом плане методов машинного обучения и обработки естественного языка. Название «интеллектуальный анализ текстов» перекликается с понятием «интеллектуальный анализ данных» (ИАД, англ. data mining), что выражает схожесть их целей, подходов к переработке информации и сфер применения; разница проявляется лишь в конечных методах, а также в том, что ИАД имеет дело с хранилищами и базами данных, а не электронными библиотеками и корпусами текстов. (ru) Інтелектуальний аналіз тексту (ІАТ, англ. text mining) — напрям інтелектуального аналізу даних (англ. Data Mining) та штучного інтелекту, метою якого є отримання інформації з колекцій текстових документів, ґрунтуючись на застосуванні ефективних, у практичному плані, методів машинного навчання та обробки природної мови. Інтелектуальний аналіз тексту використовує всі ті ж підходи до перероблювання інформації, що й інтелектуальний аналіз даних, однак різниця між цими напрямками проявляється лише в кінцевих методах, а також у тому, що інтелектуальний аналіз даних має справу зі сховищами та базами даних, а не електронними бібліотеками та корпусами текстів. (uk) 文本挖掘(Text mining)有时也被称为文字探勘、文本数据挖掘等,大致相当于文字分析,一般指文本处理过程中产生高质量的信息。高质量的信息通常通过分类和预测来产生,如模式识别。文本挖掘通常涉及输入文本的处理过程(通常进行分析,同时加上一些衍生语言特征以及消除杂音,随后插入到数据库中) ,产生结构化数据,并最终评价和解释输出。'高品质'的文本挖掘通常是指某种组合的相关性,新颖性和趣味性。典型的文本挖掘方法包括,,概念/实体挖掘,生产精确分类,,和实体关系模型(即,学习之间的关系) 。文本分析包括了信息检索与词典分析来研究词语的频数分布、模式识别、标签\注释、信息抽取,数据挖掘技术包括链接和关联分析、可视化和预测分析。本质上,首要的任务是,通过自然语言处理(NLP)和分析方法,将文本转化为数据进行分析。 (zh) Η εξόρυξη κειμένου (αγγλικά: text mining) είναι η διαδικασία με την οποία υψηλής ποιότητας πληροφορίες εξάγονται από κείμενα με τη χρήση πληροφοριακών συστημάτων. Πιο συγκεκριμένα, αφορά στον εντοπισμό και την αυτόματη εξαγωγή νέων, άγνωστων μέχρι πρότινος πληροφοριών από διάφορους γραπτούς πόρους, όπως ιστότοπους, βιβλία, μηνύματα ηλεκτρονικού ταχυδρομείου, κριτικές και άρθρα. Μέθοδοι και λογισμικό εξόρυξης κειμένου ερευνάται και αναπτύσσεται από μεγάλες εταιρείες, συμπεριλαμβανομένων των IBM και της Microsoft, για την περαιτέρω αυτοματοποίηση των διαδικασιών εξόρυξης και ανάλυσης. (el) La minería de textos es una rama específica de la minería de datos que se refiere al proceso de analizar y derivar información nueva de textos. Por medio de la identificación de patrones o correlaciones entre los términos se logra encontrar información que no está explícita dentro del texto. Los textos que se usan como recursos pueden ser páginas web, libros, correos electrónicos, reseñas de clientes, artículos, entre otros. (es) Testu-meatzaritza, testutik kalitate handiko informazioa lortzeko prozesua da. Kalitate handiko informazioa, oro har, patroiak eta joerak egitean lortzen da, esate baterako, eredu estatistikoko ikasketen bidez. Testu-meatzaritzak, oro har, idazketa-testua egituratzeko prozesua dakar (normalean azterketa, ezaugarri linguistiko eratorri batzuk gehituta eta besteen ezabapena eta ondorengo datu-base batean sartzea), eta, azkenik, irteeraren ebaluazioa eta interpretazioa. Testu-meatzaritzan "kalitate handia" garrantziaren, berrikuntzaren eta interesaren konbinazioari dagokio. Testu-meatzaritzako eginkizun tipikoen artean, testuen sailkapena, testu-taldekatzea, kontzeptu/entitate erauzketa, taxonomia granularrak, sentimenduen analisia, dokumentuaren laburpena eta entitate-ereduen modelizazioa. (eu) Text mining, also referred to as text data mining, similar to text analytics, is the process of deriving high-quality information from text. It involves "the discovery by computer of new, previously unknown information, by automatically extracting information from different written resources." Written resources may include websites, books, emails, reviews, and articles. High-quality information is typically obtained by devising patterns and trends by means such as statistical pattern learning. According to Hotho et al. (2005) we can distinguish between three different perspectives of text mining: information extraction, data mining, and a KDD (Knowledge Discovery in Databases) process. Text mining usually involves the process of structuring the input text (usually parsing, along with the a (en) Il text mining è una tecnica che utilizza l'elaborazione del linguaggio naturale per trasformare il testo libero, non strutturato, di documenti/database in dati strutturati e normalizzati. Lo scopo è quello di estrarre significato, classificare gli argomenti e assegnare agli stessi una polarità, che può essere positiva, negativa o neutra (ovvero, si parla di un determinato argomento in che modo?). Tanti gli strumenti di analisi utilizzabili, da quelli full AI (completamente automatizzati) a quelli ibridi, dove la componente umana aiuta nei procedimenti di interpretazione del big data testuale. (it) La fouille de textes ou « l'extraction de connaissances » dans les textes est une spécialisation de la fouille de données et fait partie du domaine de l'intelligence artificielle. Cette technique est souvent désignée sous l'anglicisme text mining. Les disciplines impliquées sont donc la linguistique calculatoire, l'ingénierie des langues, l'apprentissage artificiel, les statistiques et l'informatique. (fr) Textmining of tekstmining verwijst naar het proces om met allerhande ICT-technieken waardevolle informatie te halen uit grote hoeveelheden tekstmateriaal. Met deze technieken wordt gepoogd patronen en tendensen te ontwaren. Concreet gaat men teksten softwarematig structureren en ontleden, transformeren, vervolgens inbrengen in databanken, en ten slotte evalueren en interpreteren. Textmining is verwant aan tekstanalyse; de termen worden vaak door elkaar gebruikt. (nl) Text mining (eksploracja tekstu) – ogólna nazwa metod eksploracji danych służących do wydobywaniadanych z tekstu i ich późniejszej obróbki. Metody text mining stosowane są np. do statystycznego przetwarzania: * artykułów prasowych * wiadomości poczty elektronicznej * otwartych odpowiedzi na * opisów dolegliwości, podawanych przez pacjentów * komentarzy do sesji giełdowych i zdarzeń dotyczące spółek * życiorysów zawodowych i listów motywacyjnych * tekstów reklamacji konsumenckich (pl) Mineração de texto, conhecida também como mineração de dados textuais e semelhante à , refere-se ao processo de obtenção de informações importantes de um texto. Informações importantes são obtidas normalmente pela elaboração de padrões e tendências através de meios como o padrão estatístico de aprendizagem. Geralmente a mineração de texto envolve o processo de estruturação do texto de entrada (frequentemente análise, junto com a adição de algumas características linguísticas derivadas e com a retirada de outras, e com a subsequente inserção em um banco de dados), de derivação de padrões dentro da estrutura de dados e, por fim, de avaliação e interpretação do resultado. Geralmente, “importante” em mineração de texto refere-se a algumas combinações de relevância, originalidade e interesse. T (pt) |
rdfs:label | Text mining (en) تنقيب في النصوص (ar) Dolování z textu (cs) Text Mining (de) Εξόρυξη κειμένου (el) Minería de textos (es) Testu-meatzaritza (eu) Fouille de textes (fr) Penambangan teks (in) Text mining (it) テキストマイニング (ja) Textmining (nl) Text mining (pl) Mineração de texto (pt) Интеллектуальный анализ текста (ru) Text mining (sv) Інтелектуальний аналіз тексту (uk) 文本挖掘 (zh) |
owl:sameAs | freebase:Text mining yago-res:Text mining wikidata:Text mining dbpedia-ar:Text mining dbpedia-bg:Text mining http://bs.dbpedia.org/resource/Rudarenje_tekstualnih_podataka dbpedia-cs:Text mining dbpedia-de:Text mining dbpedia-el:Text mining dbpedia-es:Text mining dbpedia-et:Text mining dbpedia-eu:Text mining dbpedia-fa:Text mining dbpedia-fr:Text mining dbpedia-he:Text mining dbpedia-hu:Text mining dbpedia-id:Text mining dbpedia-it:Text mining dbpedia-ja:Text mining dbpedia-nl:Text mining dbpedia-pl:Text mining dbpedia-pt:Text mining dbpedia-ru:Text mining dbpedia-sl:Text mining dbpedia-sv:Text mining dbpedia-th:Text mining dbpedia-tr:Text mining dbpedia-uk:Text mining http://uz.dbpedia.org/resource/Intellektual_matn_tahlili dbpedia-vi:Text mining dbpedia-zh:Text mining https://global.dbpedia.org/id/4rE9y |
skos:closeMatch | http://www.springernature.com/scigraph/things/subjects/literature-mining |
prov:wasDerivedFrom | wikipedia-en:Text_mining?oldid=1119160070&ns=0 |
foaf:depiction | wiki-commons:Special:FilePath/Text_mining_protocol.png wiki-commons:Special:FilePath/Tripletsnew2012.png |
foaf:isPrimaryTopicOf | wikipedia-en:Text_mining |
is dbo:academicDiscipline of | dbr:Alfonso_Valencia dbr:Peter_Nordin dbr:Cheng_Xiang_Zhai dbr:Sophia_Ananiadou |
is dbo:division of | dbr:Provalis_Research |
is dbo:genre of | dbr:Carrot2 dbr:WordStat dbr:General_Architecture_for_Text_Engineering dbr:Apache_cTAKES dbr:UIMA dbr:KH_Coder dbr:KNIME dbr:PolyAnalyst dbr:IBM_SystemT |
is dbo:industry of | dbr:Ontotext |
is dbo:product of | dbr:Averbis |
is dbo:wikiPageRedirects of | dbr:Text_analytics dbr:Applications_of_text_mining dbr:Data_and_text_mining dbr:Text-mining dbr:Text_and_data_mining dbr:Textmining dbr:Auto-entity_extraction dbr:Intelligent_text_analysis |
is dbo:wikiPageWikiLink of | dbr:Carrot2 dbr:Quantitative_Discourse_Analysis_Package dbr:Enterprise_search dbr:List_of_academic_databases_and_search_engines dbr:List_of_artificial_intelligence_projects dbr:Non-negative_matrix_factorization dbr:Ontology_learning dbr:Open_Regulatory_Annotation_Database dbr:Patent_analysis dbr:Text_analytics dbr:Bibliometrix dbr:BioGRID dbr:Birkbeck,_University_of_London dbr:David_Madigan dbr:Department_of_Computer_Science,_University_of_Manchester dbr:Alfonso_Valencia dbr:Anne_O'Tate dbr:Antal_van_den_Bosch dbr:Julia_Silge dbr:Pegasystems dbr:Peter_Nordin dbr:DHRS7B dbr:C1orf198 dbr:Information_Hyperlinked_over_Proteins dbr:Information_Retrieval_Facility dbr:Information_access dbr:Information_science dbr:Institute_for_System_Programming dbr:Intelligent_character_recognition dbr:International_Conference_on_Computatio...stics_and_Intelligent_Text_Processing dbr:Lexalytics dbr:String_kernel dbr:Preslav_Nakov dbr:Protein_function_prediction dbr:Provalis_Research dbr:PubGene dbr:Cosine_similarity dbr:Matrix_(mathematics) dbr:SAS_(software) dbr:SPSS dbr:ChemSpider dbr:Chemical_database dbr:Cheng_Xiang_Zhai dbr:Gene_Relationships_Across_Implicated_Loci dbr:Gene_regulatory_network dbr:Name_resolution_(semantics_and_text_extraction) dbr:Optical_character_recognition dbr:Oracle_Data_Mining dbr:Review_article dbr:TMEM143 dbr:Social_CRM dbr:WordStat dbr:Radar_Networks dbr:ClearForest dbr:Co-occurrence_network dbr:Elsevier dbr:Enterprise_feedback_management dbr:Gene_Disease_Database dbr:General_Architecture_for_Text_Engineering dbr:German_National_Library_of_Medicine dbr:Multimodal_learning dbr:Concept_drift dbr:Concept_mining dbr:Concept_search dbr:Concordance_(publishing) dbr:Content_(Freudian_dream_analysis) dbr:Content_analysis dbr:Copyright_Clearance_Center dbr:Copyright_law_of_Japan dbr:Copyright_law_of_the_United_Kingdom dbr:Corpus_linguistics dbr:LI-RADS dbr:TMEM212 dbr:Apache_Lucene dbr:Apache_cTAKES dbr:Basis_Technology dbr:Linguamatics dbr:Lucerne_School_of_Computer_Science_and_Information_Technology dbr:ML.NET dbr:Make_America_Great_Again dbr:Call_centre dbr:ChimerDB dbr:Chinese_Text_Project dbr:Startup_Poland dbr:Collocation dbr:Commonsense_reasoning dbr:Computational_immunology dbr:Computational_sociology dbr:Horizon_scanning dbr:Keyword_extraction dbr:PATRIC dbr:Pharma_Documentation_Ring dbr:Piranha_(software) dbr:Machine_learning_in_bioinformatics dbr:STRING dbr:Stemming dbr:TDM dbr:Media_monitoring dbr:Microsoft_and_open_source dbr:Predictive_Model_Markup_Language dbr:Unstructured_data dbr:TMEM131 dbr:A-Space dbr:Business_performance_management dbr:CORE_(research_service) dbr:COVID-19_pandemic_in_Chile dbr:Agentless_data_collection dbr:Tropes_Zoom dbr:Twine_(social_network) dbr:UIMA dbr:Data_analysis dbr:Data_mining dbr:Document_classification dbr:Document_processing dbr:Health_web_science dbr:Irena_Spasić dbr:Jonathan_Wren dbr:News_analytics dbr:Proteome_Analyst dbr:Roy_Rosenzweig_Center_for_History_and_New_Media dbr:Rough_set dbr:AUTINDEX dbr:Europe_PubMed_Central dbr:Fair_use dbr:Formal_concept_analysis dbr:Nick_D'Aloisio dbr:Noisy_text_analytics dbr:Noormags dbr:Numbers_(season_3) dbr:Digital_history dbr:Digital_humanities dbr:Discovery_Net dbr:Forensic_accounting dbr:Issues_relating_to_social_networking_services dbr:KH_Coder dbr:KNIME dbr:Knowledge_base dbr:Knowledge_extraction dbr:Leiden_University_Library dbr:Online_chat dbr:UK_Educational_Evidence_Portal dbr:Von_Mises–Fisher_distribution dbr:Reverse_engineering dbr:Hierarchical_Cluster_Engine_Project dbr:Internet_Memory_Foundation dbr:Jaime_Carbonell dbr:Jean_Véronis dbr:BRENDA dbr:Terri_Attwood dbr:Maryland_Institute_for_Technology_in_the_Humanities dbr:Self-Service_Semantic_Suite dbr:Attensity dbr:AI-complete dbr:Affinity_propagation dbr:Jiawei_Han dbr:Jun'ichi_Tsujii dbr:Lada_Adamic dbr:Biclustering dbr:BioCreative dbr:Biocuration dbr:Bioinformatics dbr:Biomedical_text_mining dbr:Systems_biology dbr:Co-training dbr:TREX_search_engine dbr:Terminology_extraction dbr:IRX1 dbr:Automatic_summarization dbr:Averbis dbr:Maple_(software) dbr:Marti_Hearst dbr:Business_intelligence dbr:C1orf141 dbr:C21orf62 dbr:COVID-19_datasets dbr:PolyAnalyst dbr:Social_media_mining dbr:Classifications_of_scholarship dbr:Applications_of_text_mining dbr:Data_and_text_mining dbr:IBM_SystemT dbr:National_Centre_for_Text_Mining dbr:Ontology_(information_science) dbr:Ontotext dbr:Oracle_Spatial_and_Graph dbr:Orange_(software) dbr:Recommender_system dbr:Search_engine_(computing) dbr:Mark_Boguski dbr:Search_engine_indexing dbr:Tf–idf dbr:Semantic_role_labeling dbr:Structured_digital_abstract dbr:Market_sentiment dbr:Semantic_mapping_(statistics) dbr:Sociology dbr:NetOwl dbr:Structure_mining dbr:Experimental_factor_ontology dbr:FAM149B1 dbr:INAVA dbr:List_of_text_mining_software dbr:Literature-based_discovery dbr:Lyle_Ungar dbr:Temporal_annotation dbr:Plan_S dbr:Stock_market_prediction dbr:Transformative_use dbr:Semantic_Intelligence dbr:Statistical_semantics dbr:Named_entity dbr:Translational_bioinformatics dbr:TEX9 dbr:TSBP1 dbr:Near-death_studies dbr:Random_mapping dbr:Multi-document_summarization dbr:PoolParty_Semantic_Suite dbr:Software_mining dbr:Sophia_Ananiadou dbr:Noisy_text dbr:Online_content_analysis dbr:Outline_of_artificial_intelligence dbr:Outline_of_machine_learning dbr:Outline_of_natural_language_processing dbr:Technology_intelligence dbr:Word_usage dbr:Résumé_parsing dbr:Stop_word dbr:Technology_mining dbr:Text-mining dbr:Text_and_data_mining dbr:Textmining dbr:Auto-entity_extraction dbr:Intelligent_text_analysis |
is dbp:field of | dbr:Peter_Nordin |
is dbp:fields of | dbr:Cheng_Xiang_Zhai dbr:Sophia_Ananiadou |
is dbp:genre of | dbr:WordStat dbr:General_Architecture_for_Text_Engineering dbr:Apache_cTAKES dbr:UIMA dbr:KH_Coder dbr:KNIME dbr:IBM_SystemT |
is foaf:primaryTopic of | wikipedia-en:Text_mining |