Apache Tika (original) (raw)
Apache Tika is a content detection and analysis framework, written in Java, stewarded at the Apache Software Foundation. It detects and extracts metadata and text from over a thousand different file types, and as well as providing a Java library, has server and command-line editions suitable for use from other programming languages.
Property | Value |
---|---|
dbo:abstract | Apache Tika is a content detection and analysis framework, written in Java, stewarded at the Apache Software Foundation. It detects and extracts metadata and text from over a thousand different file types, and as well as providing a Java library, has server and command-line editions suitable for use from other programming languages. (en) Apache Tika est un toolkit développé par la fondation Apache qui permet de détecter, d'extraire des métadonnées, et de structurer le contenu textuel de nombreux types de documents (gzip, .mid, .pdf, tar, zip...). Ce projet dépendant de l'Apache Software Foundation, était auparavant un sous-projet de Apache Lucene. (fr) Apache Tika è un software per l'estrazione di dati e analisi dei contenuti, scritto in Java, gestito dalla Apache Software Foundation. È in grado di trovare ed estrarre testo e metadati da oltre un migliaio di formati di file. È disponibile come libreria Java, in versione server e command line, pronto per essere richiamato da altri linguaggi di programmazione. (it) Apache Tika – otwartoźródłowe oprogramowanie do wykrywania i analizy treści, napisane w Javie, stworzone i znajdujące się pod opieką Apache Software Foundation. Tika wykrywa i wyodrębnia metadane oraz tekst z ponad tysiąca różnych typów plików. Narzędzia Tika można używać m.in. jako biblioteki programistycznej (nie tylko w jęz. Java, lecz w wielu innych popularnych jęz. programowania), z wiersza poleceń (CLI) lub jako serwis webowy (REST). (pl) Apache Tika — набір бібліотек на мові Java для виявлення, аналізу, виділення мета-даних і структурованого контенту з різноманітних форматів файлів. Всього підтримується більше 1200 форматів, включаючи HTML, XML, DOC, OLE2, OOXML, RTF, ePub, OpenDocument, PDF, різні формати зображень, мультимедіа, архівів і пакунків програм. Спочатку Apache Tika був розроблений як частина пошукового рушія Apache Lucene, але пізніше переріс в самостійний проєкт. Крім бібліотек, підготовлені консольна утиліта і GUI-застосунок для зручного вилучення даних з різних файлів. Крім мови Java, в рамках проєкту підготовлені обгортки для мов Python, .NET та C++. (uk) |
dbo:developer | dbr:Apache_Software_Foundation |
dbo:genre | dbr:Search_algorithm dbr:Index_(search_engine) |
dbo:license | dbr:Apache_License_2.0 |
dbo:operatingSystem | dbr:Cross-platform |
dbo:programmingLanguage | dbr:Java_(programming_language) |
dbo:thumbnail | wiki-commons:Special:FilePath/Apache_Tika_Logo.svg?width=300 |
dbo:wikiPageExternalLink | http://tika.apache.org/ https://gitbox.apache.org/repos/asf%3Fp |
dbo:wikiPageID | 50189796 (xsd:integer) |
dbo:wikiPageLength | 6079 (xsd:nonNegativeInteger) |
dbo:wikiPageRevisionID | 1085207345 (xsd:integer) |
dbo:wikiPageWikiLink | dbc:Apache_Software_Foundation_projects dbr:Representational_state_transfer dbc:Software_using_the_Apache_license dbr:Command-line_interface dbr:Cross-platform dbr:Optical_character_recognition dbr:Chris_Mattmann dbr:NASA dbr:Content_analysis dbr:Apache_Nutch dbr:Application_programming_interface dbr:Panama_Papers dbc:Java_(programming_language)_libraries dbr:Alfresco_(software) dbc:Java_platform dbr:Drupal dbr:Forbes dbr:Internet_Assigned_Numbers_Authority dbr:Java_(programming_language) dbr:Tesseract_(software) dbc:Free_software_programmed_in_Java_(programming_language) dbr:Content_management_systems dbr:Fair_Isaac_Corporation dbr:Apache_Software_Foundation dbr:Search_algorithm dbr:MIME dbr:Magic_number_(programming) dbr:Shell_corporation dbr:File_type dbr:Apache_License_2.0 dbr:Index_(search_engine) dbr:Web_crawlers |
dbp:developer | dbr:Apache_Software_Foundation |
dbp:genre | Search and index API (en) |
dbp:license | dbr:Apache_License_2.0 |
dbp:logo | Apache Tika Logo.svg (en) |
dbp:name | Tika (en) |
dbp:operatingSystem | dbr:Cross-platform |
dbp:programmingLanguage | dbr:Java_(programming_language) |
dbp:repo | https://gitbox.apache.org/repos/asf%3Fp |
dbp:website | http://tika.apache.org/ |
dbp:wikiPageUsesTemplate | dbt:Infobox_software dbt:Reflist dbt:Short_description dbt:Start_date_and_age dbt:Wikidata dbt:Apache_Software_Foundation |
dct:subject | dbc:Apache_Software_Foundation_projects dbc:Software_using_the_Apache_license dbc:Java_(programming_language)_libraries dbc:Java_platform dbc:Free_software_programmed_in_Java_(programming_language) |
rdf:type | owl:Thing dbo:Software schema:CreativeWork dbo:Work wikidata:Q386724 wikidata:Q7397 |
rdfs:comment | Apache Tika is a content detection and analysis framework, written in Java, stewarded at the Apache Software Foundation. It detects and extracts metadata and text from over a thousand different file types, and as well as providing a Java library, has server and command-line editions suitable for use from other programming languages. (en) Apache Tika est un toolkit développé par la fondation Apache qui permet de détecter, d'extraire des métadonnées, et de structurer le contenu textuel de nombreux types de documents (gzip, .mid, .pdf, tar, zip...). Ce projet dépendant de l'Apache Software Foundation, était auparavant un sous-projet de Apache Lucene. (fr) Apache Tika è un software per l'estrazione di dati e analisi dei contenuti, scritto in Java, gestito dalla Apache Software Foundation. È in grado di trovare ed estrarre testo e metadati da oltre un migliaio di formati di file. È disponibile come libreria Java, in versione server e command line, pronto per essere richiamato da altri linguaggi di programmazione. (it) Apache Tika – otwartoźródłowe oprogramowanie do wykrywania i analizy treści, napisane w Javie, stworzone i znajdujące się pod opieką Apache Software Foundation. Tika wykrywa i wyodrębnia metadane oraz tekst z ponad tysiąca różnych typów plików. Narzędzia Tika można używać m.in. jako biblioteki programistycznej (nie tylko w jęz. Java, lecz w wielu innych popularnych jęz. programowania), z wiersza poleceń (CLI) lub jako serwis webowy (REST). (pl) Apache Tika — набір бібліотек на мові Java для виявлення, аналізу, виділення мета-даних і структурованого контенту з різноманітних форматів файлів. Всього підтримується більше 1200 форматів, включаючи HTML, XML, DOC, OLE2, OOXML, RTF, ePub, OpenDocument, PDF, різні формати зображень, мультимедіа, архівів і пакунків програм. Спочатку Apache Tika був розроблений як частина пошукового рушія Apache Lucene, але пізніше переріс в самостійний проєкт. (uk) |
rdfs:label | Apache Tika (en) Apache Tika (it) Apache Tika (fr) Apache Tika (pl) Apache Tika (uk) |
owl:sameAs | wikidata:Apache Tika dbpedia-fr:Apache Tika dbpedia-it:Apache Tika dbpedia-pl:Apache Tika dbpedia-uk:Apache Tika https://global.dbpedia.org/id/2edy3 |
prov:wasDerivedFrom | wikipedia-en:Apache_Tika?oldid=1085207345&ns=0 |
foaf:depiction | wiki-commons:Special:FilePath/Apache_Tika_Logo.svg |
foaf:homepage | http://tika.apache.org/ |
foaf:isPrimaryTopicOf | wikipedia-en:Apache_Tika |
foaf:name | Tika (en) |
is dbo:knownFor of | dbr:Chris_Mattmann |
is dbo:wikiPageDisambiguates of | dbr:Tika |
is dbo:wikiPageWikiLink of | dbr:Blacklight_(software) dbr:Chris_Mattmann dbr:Apache_Lucene dbr:Apache_OODT dbr:StormCrawler dbr:Panama_Papers dbr:Language_identification dbr:List_of_Apache_Software_Foundation_projects dbr:List_of_Java_frameworks dbr:JabRef dbr:Tika |
is dbp:knownFor of | dbr:Chris_Mattmann |
is foaf:primaryTopic of | wikipedia-en:Apache_Tika |