Apache Tika (original) (raw)

About DBpedia

Apache Tika is a content detection and analysis framework, written in Java, stewarded at the Apache Software Foundation. It detects and extracts metadata and text from over a thousand different file types, and as well as providing a Java library, has server and command-line editions suitable for use from other programming languages.

thumbnail

Property Value
dbo:abstract Apache Tika is a content detection and analysis framework, written in Java, stewarded at the Apache Software Foundation. It detects and extracts metadata and text from over a thousand different file types, and as well as providing a Java library, has server and command-line editions suitable for use from other programming languages. (en) Apache Tika est un toolkit développé par la fondation Apache qui permet de détecter, d'extraire des métadonnées, et de structurer le contenu textuel de nombreux types de documents (gzip, .mid, .pdf, tar, zip...). Ce projet dépendant de l'Apache Software Foundation, était auparavant un sous-projet de Apache Lucene. (fr) Apache Tika è un software per l'estrazione di dati e analisi dei contenuti, scritto in Java, gestito dalla Apache Software Foundation. È in grado di trovare ed estrarre testo e metadati da oltre un migliaio di formati di file. È disponibile come libreria Java, in versione server e command line, pronto per essere richiamato da altri linguaggi di programmazione. (it) Apache Tika – otwartoźródłowe oprogramowanie do wykrywania i analizy treści, napisane w Javie, stworzone i znajdujące się pod opieką Apache Software Foundation. Tika wykrywa i wyodrębnia metadane oraz tekst z ponad tysiąca różnych typów plików. Narzędzia Tika można używać m.in. jako biblioteki programistycznej (nie tylko w jęz. Java, lecz w wielu innych popularnych jęz. programowania), z wiersza poleceń (CLI) lub jako serwis webowy (REST). (pl) Apache Tika — набір бібліотек на мові Java для виявлення, аналізу, виділення мета-даних і структурованого контенту з різноманітних форматів файлів. Всього підтримується більше 1200 форматів, включаючи HTML, XML, DOC, OLE2, OOXML, RTF, ePub, OpenDocument, PDF, різні формати зображень, мультимедіа, архівів і пакунків програм. Спочатку Apache Tika був розроблений як частина пошукового рушія Apache Lucene, але пізніше переріс в самостійний проєкт. Крім бібліотек, підготовлені консольна утиліта і GUI-застосунок для зручного вилучення даних з різних файлів. Крім мови Java, в рамках проєкту підготовлені обгортки для мов Python, .NET та C++. (uk)
dbo:developer dbr:Apache_Software_Foundation
dbo:genre dbr:Search_algorithm dbr:Index_(search_engine)
dbo:license dbr:Apache_License_2.0
dbo:operatingSystem dbr:Cross-platform
dbo:programmingLanguage dbr:Java_(programming_language)
dbo:thumbnail wiki-commons:Special:FilePath/Apache_Tika_Logo.svg?width=300
dbo:wikiPageExternalLink http://tika.apache.org/ https://gitbox.apache.org/repos/asf%3Fp
dbo:wikiPageID 50189796 (xsd:integer)
dbo:wikiPageLength 6079 (xsd:nonNegativeInteger)
dbo:wikiPageRevisionID 1085207345 (xsd:integer)
dbo:wikiPageWikiLink dbc:Apache_Software_Foundation_projects dbr:Representational_state_transfer dbc:Software_using_the_Apache_license dbr:Command-line_interface dbr:Cross-platform dbr:Optical_character_recognition dbr:Chris_Mattmann dbr:NASA dbr:Content_analysis dbr:Apache_Nutch dbr:Application_programming_interface dbr:Panama_Papers dbc:Java_(programming_language)_libraries dbr:Alfresco_(software) dbc:Java_platform dbr:Drupal dbr:Forbes dbr:Internet_Assigned_Numbers_Authority dbr:Java_(programming_language) dbr:Tesseract_(software) dbc:Free_software_programmed_in_Java_(programming_language) dbr:Content_management_systems dbr:Fair_Isaac_Corporation dbr:Apache_Software_Foundation dbr:Search_algorithm dbr:MIME dbr:Magic_number_(programming) dbr:Shell_corporation dbr:File_type dbr:Apache_License_2.0 dbr:Index_(search_engine) dbr:Web_crawlers
dbp:developer dbr:Apache_Software_Foundation
dbp:genre Search and index API (en)
dbp:license dbr:Apache_License_2.0
dbp:logo Apache Tika Logo.svg (en)
dbp:name Tika (en)
dbp:operatingSystem dbr:Cross-platform
dbp:programmingLanguage dbr:Java_(programming_language)
dbp:repo https://gitbox.apache.org/repos/asf%3Fp
dbp:website http://tika.apache.org/
dbp:wikiPageUsesTemplate dbt:Infobox_software dbt:Reflist dbt:Short_description dbt:Start_date_and_age dbt:Wikidata dbt:Apache_Software_Foundation
dct:subject dbc:Apache_Software_Foundation_projects dbc:Software_using_the_Apache_license dbc:Java_(programming_language)_libraries dbc:Java_platform dbc:Free_software_programmed_in_Java_(programming_language)
rdf:type owl:Thing dbo:Software schema:CreativeWork dbo:Work wikidata:Q386724 wikidata:Q7397
rdfs:comment Apache Tika is a content detection and analysis framework, written in Java, stewarded at the Apache Software Foundation. It detects and extracts metadata and text from over a thousand different file types, and as well as providing a Java library, has server and command-line editions suitable for use from other programming languages. (en) Apache Tika est un toolkit développé par la fondation Apache qui permet de détecter, d'extraire des métadonnées, et de structurer le contenu textuel de nombreux types de documents (gzip, .mid, .pdf, tar, zip...). Ce projet dépendant de l'Apache Software Foundation, était auparavant un sous-projet de Apache Lucene. (fr) Apache Tika è un software per l'estrazione di dati e analisi dei contenuti, scritto in Java, gestito dalla Apache Software Foundation. È in grado di trovare ed estrarre testo e metadati da oltre un migliaio di formati di file. È disponibile come libreria Java, in versione server e command line, pronto per essere richiamato da altri linguaggi di programmazione. (it) Apache Tika – otwartoźródłowe oprogramowanie do wykrywania i analizy treści, napisane w Javie, stworzone i znajdujące się pod opieką Apache Software Foundation. Tika wykrywa i wyodrębnia metadane oraz tekst z ponad tysiąca różnych typów plików. Narzędzia Tika można używać m.in. jako biblioteki programistycznej (nie tylko w jęz. Java, lecz w wielu innych popularnych jęz. programowania), z wiersza poleceń (CLI) lub jako serwis webowy (REST). (pl) Apache Tika — набір бібліотек на мові Java для виявлення, аналізу, виділення мета-даних і структурованого контенту з різноманітних форматів файлів. Всього підтримується більше 1200 форматів, включаючи HTML, XML, DOC, OLE2, OOXML, RTF, ePub, OpenDocument, PDF, різні формати зображень, мультимедіа, архівів і пакунків програм. Спочатку Apache Tika був розроблений як частина пошукового рушія Apache Lucene, але пізніше переріс в самостійний проєкт. (uk)
rdfs:label Apache Tika (en) Apache Tika (it) Apache Tika (fr) Apache Tika (pl) Apache Tika (uk)
owl:sameAs wikidata:Apache Tika dbpedia-fr:Apache Tika dbpedia-it:Apache Tika dbpedia-pl:Apache Tika dbpedia-uk:Apache Tika https://global.dbpedia.org/id/2edy3
prov:wasDerivedFrom wikipedia-en:Apache_Tika?oldid=1085207345&ns=0
foaf:depiction wiki-commons:Special:FilePath/Apache_Tika_Logo.svg
foaf:homepage http://tika.apache.org/
foaf:isPrimaryTopicOf wikipedia-en:Apache_Tika
foaf:name Tika (en)
is dbo:knownFor of dbr:Chris_Mattmann
is dbo:wikiPageDisambiguates of dbr:Tika
is dbo:wikiPageWikiLink of dbr:Blacklight_(software) dbr:Chris_Mattmann dbr:Apache_Lucene dbr:Apache_OODT dbr:StormCrawler dbr:Panama_Papers dbr:Language_identification dbr:List_of_Apache_Software_Foundation_projects dbr:List_of_Java_frameworks dbr:JabRef dbr:Tika
is dbp:knownFor of dbr:Chris_Mattmann
is foaf:primaryTopic of wikipedia-en:Apache_Tika