Apache Nutch (original) (raw)

About DBpedia

Nutch és un programari de motor de cerca construït sota la filosofia de codi obert, altament extensible i escalable.

thumbnail

Property Value
dbo:abstract Nutch és un programari de motor de cerca construït sota la filosofia de codi obert, altament extensible i escalable. (ca) Nutch ist ein Java-Framework für Internet-Suchmaschinen. Die Software ist Open-Source und wird innerhalb der Apache Software Foundation unter der Apache-Lizenz entwickelt. Nutch basiert u. a. auf Lucene (Stemming, Indexierung etc.), Solr (Webfunktionalitäten) und Hadoop (Skalierung). Nutch kann beliebig große Datenmengen durchsuchen. An firmenspezifische Bedürfnisse lässt es sich durch seine Plug-in-Architektur anpassen – bspw. an weitere Dokumentformate. Das deutsche Bundesamt für Verbraucherschutz und Lebensmittelsicherheit betrieb die auf Nutch basierende „Verbraucher-Suchmaschine“ Clewwa. Auch die Suchmaschine Wikia Search setzte auf der Technologie von Nutch auf. Nutch wird zur Zeit in 2 Versionen gepflegt * 1.x: Ist ein fertiger Crawler, welcher eine sehr feine Konfiguration ermöglicht und auf die Datenstrukturen von Apache Hadoop setzt, er soll ideal für Batch-Verarbeitung sein * 2.x: Wird als Alternative zur Version 1.x angeboten, der Hauptunterschied liegt im Speicherbereich, dieser wurde abstrahiert und nutzt Apache Gora um Objekte zu verknüpfen. So wurde die Flexibilität erhöht, was (z. B. Status, Inhalte, Links, verarbeiteter Text …) gespeichert werden kann und wie die Speicherung z. B. in NoSQL-Lösungen erfolgt. (de) Apache Nutch is a highly extensible and scalable open source web crawler software project. (en) Nutch es un robot y motor de búsqueda basado en Lucene. Es parte del proyecto Lucene que a su vez es gestionado por la Apache Software Foundation. Nutch es software libre. Nutch ofrece una solución transparente, pues al ser una tecnología de código abierto es posible conocer como organiza el ranking de resultados de las búsquedas. Está desarrollada en Java, y basa su arquitectura en la plataforma Hadoop de desarrollo de sistemas distribuidos. Algunas de las características del buscador son: * No distingue entre mayúsculas y minúsculas * Usando comillas (") al principio y al final de un grupo de palabras o frase realiza la búsqueda de ese texto exacto * Añadiendo el signo más (+) delante de una palabra fuerza la búsqueda de palabras no habituales * Añadiendo el signo menos (-) delante de una palabra realiza la búsqueda excluyendo esa palabra En los resultados se puede encontrar diversa información: * en caché, muestra la versión de la página visitada por Nutch. * explicar, muestra una explicación de cómo Nutch otorgó la puntuación a esa página. * anchors, muestra una lista con el texto que aparece en enlaces que apuntan a esa página. (es) Nutch est une initiative visant à construire un moteur de recherche open source. Il utilise Lucene comme bibliothèque de moteur de recherche et d'indexation. En revanche, le robot de collecte a été créé spécifiquement pour ce projet. L'architecture de Nutch est hautement modulaire et permet à des développeurs de créer des plugins pour différentes phases du processus : récupération des données, analyse des documents, recherche, etc. Doug Cutting est l'initiateur et le coordinateur de ce projet. Il est entièrement développé en langage Java, mais les données qu'il manipule sont dans un format de données indépendant de tout langage de programmation.En juin 2003 a été présenté une version opérationnelle d'une démonstration de Nutch sur une base regroupant 100 millions de documents. (fr) 아파치 너치(Apache Nutch)는 루씬을 기반으로 하여 만든 오픈 소스 검색 엔진이다. 루씬을 기반으로 하였지만 웹 크롤러는 처음부터 다시 만들었다. 여러 가지 플러그인을 붙일 수 있도록 모듈화가 잘 되어 있다. 현재 아파치의 하위 프로젝트이다. 완전히 자바로 작성되어 있지만 자료는 특정 언어와 관계없는 형식으로 저장된다. 100만 페이지 정도를 검색할 수 있다. 여러 대의 머신에서 수행될 수 있도록 맵리듀스와 를 구현하였는데, 이제는 하둡이라는 하위 프로젝트를 통하여 따로 관리되고 있다. (ko) Nutch è un progetto finalizzato alla costruzione di un motore di ricerca open source basato sulla piattaforma Lucene. Il "robot" (o "web crawler") è stato scritto da zero appositamente per il progetto. Nutch ha un'architettura altamente modulare per consentire agli sviluppatori di creare propri plugin per la scansione di tipi di dato multimediali, il reperimento di dati, l'interrogazione e la condivisione. Nel giugno del 2005 Nutch è passato dallo stato di a sottoprogetto di Lucene. È implementato completamente in Java, ma i dati sono conservati in un formato neutro. Nel giugno 2003 fu eseguito con successo un test per indicizzare 100 milioni di pagine. Per soddisfare la necessità di una elaborazione distribuita, per il progetto Nutch è stato anche realizzato una funzionalità di MapReduce ed un file system distribuito. Queste due componenti sono poi confluite in un progetto proprio chiamato Apache Hadoop. (it) Apache Nutch – otwartoźródłowy, rozszerzalny i skalowalny robot internetowy (program komputerowy do przeszukiwania i analizy stron internetowych) rozwijany pod opieką Fundacji Apache. (pl) Apache Nutch is een open source internetzoekmachine, gebouwd op Lucene, dat een alternatief biedt voor commerciële zoekmachines waaronder Google en Bing. Omdat Nutch in Java geschreven is, is het beschikbaar voor meerdere platformen. De software wordt vrijgegeven onder de Apache-licentie 2.0. (nl) Apache Nutch — модульный фреймворк для построения поисковых систем, написанный на языке Java и основанный на технологиях Lucene, Solr, , Hadoop и , адаптированных для специфики поиска в интернете (например, поддерживается crawler, база ссылочной связи, парсинг HTML и других форматов). Архитектура Nutch позволяет разработчикам создавать плагины для обработки нового медиа-контента, получение данных через нестандартные каналы для формирования типовых запросов или организации поискового кластера. Система предоставляет средства для построения высокомасштабных систем индексации, отвлеченных от типа хранилища, что позволяет использовать такие хранилища для больших объемов данных, как , , Apache Cassandra, Apache HBase и HDFS, так и SQL-базы и размещение в памяти NoSQL БД. (ru) Apache Nutch — модульний фреймворк для побудови пошукових систем, написаний на мові Java і заснований на технологіях Lucene, Solr, Tika, Hadoop і , адаптованих для специфіки пошуку у вебі (наприклад, підтримується crawler, база посилального зв'язку, парсинг HTML і інших форматів). Архітектура Nutch дозволяє розробникам створювати плагіни для обробки нового медіа-контенту, отримання даних через нестандартні канали, для формування типових запитів або організації пошукового кластера. Система надає засоби для побудови високомасштабованих систем індексації, абстрагованих від типу сховища, що дозволяє використовувати такі сховища для великих обсягів даних, як , , Apache Cassandra, Apache і HDFS, так і SQL-бази і розміщені в пам'яті NoSQL БД. (uk)
dbo:author dbr:Doug_Cutting dbr:Mike_Cafarella
dbo:developer dbr:Apache_Software_Foundation
dbo:genre dbr:Web_crawler
dbo:license dbr:Apache_License_2.0
dbo:operatingSystem dbr:Cross-platform
dbo:programmingLanguage dbr:Java_(programming_language)
dbo:thumbnail wiki-commons:Special:FilePath/Apache_Nutch_logo.svg?width=300
dbo:wikiPageExternalLink https://gitbox.apache.org/repos/asf%3Fp https://web.archive.org/web/20091202104144/http:/www.apress.com/book/view/9781590596876 http://www.apress.com/book/view/9781590596876
dbo:wikiPageID 398847 (xsd:integer)
dbo:wikiPageLength 13041 (xsd:nonNegativeInteger)
dbo:wikiPageRevisionID 1112651225 (xsd:integer)
dbo:wikiPageWikiLink dbr:Enterprise_search dbr:Apache_Incubator dbc:Apache_Software_Foundation_projects dbc:Free_search_engine_software dbc:Free_web_crawlers dbr:Doug_Cutting dbr:Information_extraction dbr:Common_Crawl dbr:Creative_Commons dbr:Cross-platform dbr:Open_educational_resources dbr:Mike_Cafarella dbr:DiscoverEd dbr:MozDex dbr:Krugle dbr:MapReduce dbc:Cross-platform_free_software dbc:Java_(programming_language)_libraries dbr:Web_crawler dbr:Wikia_Search dbr:Hadoop dbr:Java_(programming_language) dbr:Text_Retrieval_Conference dbr:Lucene dbc:Internet_search_engines dbr:Distributed_file_system dbr:Apress dbr:Apache_Software_Foundation dbr:Open-source_license dbr:Faceted_search dbr:POWER5 dbr:Scalability dbr:Apache_License_2.0 dbr:File:Nutch.png
dbp:author dbr:Doug_Cutting dbr:Mike_Cafarella
dbp:caption Nutch Web Interface Search (en)
dbp:collapsible yes (en)
dbp:developer dbr:Apache_Software_Foundation
dbp:genre dbr:Web_crawler
dbp:license dbr:Apache_License_2.0
dbp:logo Apache Nutch logo.svg (en)
dbp:name Apache Nutch (en)
dbp:operatingSystem dbr:Cross-platform
dbp:programmingLanguage dbr:Java_(programming_language)
dbp:repo https://gitbox.apache.org/repos/asf%3Fp
dbp:screenshot NutchScreenshot.png (en)
dbp:screenshotSize 250 (xsd:integer)
dbp:wikiPageUsesTemplate dbt:Web_crawlers dbt:Citation_needed dbt:Cite_book dbt:Infobox_software dbt:Official_website dbt:Portal dbt:Refbegin dbt:Refend dbt:Reflist dbt:Short_description dbt:Start_date_and_age dbt:URL dbt:Multiple_releases dbt:Apache_Software_Foundation
dbp:wordnet_type http://www.w3.org/2006/03/wn/wn20/instances/synset-software-noun-1
dcterms:subject dbc:Apache_Software_Foundation_projects dbc:Free_search_engine_software dbc:Free_web_crawlers dbc:Cross-platform_free_software dbc:Java_(programming_language)_libraries dbc:Internet_search_engines
rdf:type owl:Thing dbo:Software schema:CreativeWork dbo:Work wikidata:Q386724 wikidata:Q7397 yago:WikicatWebCrawlers yago:Abstraction100002137 yago:CausalAgent100007347 yago:Code106355894 yago:CodingSystem106353757 yago:Communication100033020 yago:Flatterer110095869 yago:Follower110099375 yago:LivingThing100004258 yago:Object100002684 yago:Organism100004475 yago:Person100007846 yago:PhysicalEntity100001930 yago:Program106568978 yago:WikicatInternetSearchEngines yago:Writing106359877 yago:WrittenCommunication106349220 yago:YagoLegalActor yago:YagoLegalActorGeo yago:SearchEngine106578654 yago:Software106566077 yago:Sycophant110684827 yago:Whole100003553 umbel-rc:SoftwareObject
rdfs:comment Nutch és un programari de motor de cerca construït sota la filosofia de codi obert, altament extensible i escalable. (ca) Apache Nutch is a highly extensible and scalable open source web crawler software project. (en) 아파치 너치(Apache Nutch)는 루씬을 기반으로 하여 만든 오픈 소스 검색 엔진이다. 루씬을 기반으로 하였지만 웹 크롤러는 처음부터 다시 만들었다. 여러 가지 플러그인을 붙일 수 있도록 모듈화가 잘 되어 있다. 현재 아파치의 하위 프로젝트이다. 완전히 자바로 작성되어 있지만 자료는 특정 언어와 관계없는 형식으로 저장된다. 100만 페이지 정도를 검색할 수 있다. 여러 대의 머신에서 수행될 수 있도록 맵리듀스와 를 구현하였는데, 이제는 하둡이라는 하위 프로젝트를 통하여 따로 관리되고 있다. (ko) Apache Nutch – otwartoźródłowy, rozszerzalny i skalowalny robot internetowy (program komputerowy do przeszukiwania i analizy stron internetowych) rozwijany pod opieką Fundacji Apache. (pl) Apache Nutch is een open source internetzoekmachine, gebouwd op Lucene, dat een alternatief biedt voor commerciële zoekmachines waaronder Google en Bing. Omdat Nutch in Java geschreven is, is het beschikbaar voor meerdere platformen. De software wordt vrijgegeven onder de Apache-licentie 2.0. (nl) Nutch ist ein Java-Framework für Internet-Suchmaschinen. Die Software ist Open-Source und wird innerhalb der Apache Software Foundation unter der Apache-Lizenz entwickelt. Nutch basiert u. a. auf Lucene (Stemming, Indexierung etc.), Solr (Webfunktionalitäten) und Hadoop (Skalierung). Nutch kann beliebig große Datenmengen durchsuchen. An firmenspezifische Bedürfnisse lässt es sich durch seine Plug-in-Architektur anpassen – bspw. an weitere Dokumentformate. Nutch wird zur Zeit in 2 Versionen gepflegt (de) Nutch es un robot y motor de búsqueda basado en Lucene. Es parte del proyecto Lucene que a su vez es gestionado por la Apache Software Foundation. Nutch es software libre. Nutch ofrece una solución transparente, pues al ser una tecnología de código abierto es posible conocer como organiza el ranking de resultados de las búsquedas. Está desarrollada en Java, y basa su arquitectura en la plataforma Hadoop de desarrollo de sistemas distribuidos. Algunas de las características del buscador son: En los resultados se puede encontrar diversa información: (es) Nutch est une initiative visant à construire un moteur de recherche open source. Il utilise Lucene comme bibliothèque de moteur de recherche et d'indexation. En revanche, le robot de collecte a été créé spécifiquement pour ce projet. L'architecture de Nutch est hautement modulaire et permet à des développeurs de créer des plugins pour différentes phases du processus : récupération des données, analyse des documents, recherche, etc. Doug Cutting est l'initiateur et le coordinateur de ce projet. (fr) Nutch è un progetto finalizzato alla costruzione di un motore di ricerca open source basato sulla piattaforma Lucene. Il "robot" (o "web crawler") è stato scritto da zero appositamente per il progetto. Nutch ha un'architettura altamente modulare per consentire agli sviluppatori di creare propri plugin per la scansione di tipi di dato multimediali, il reperimento di dati, l'interrogazione e la condivisione. Nel giugno del 2005 Nutch è passato dallo stato di a sottoprogetto di Lucene. (it) Apache Nutch — модульный фреймворк для построения поисковых систем, написанный на языке Java и основанный на технологиях Lucene, Solr, , Hadoop и , адаптированных для специфики поиска в интернете (например, поддерживается crawler, база ссылочной связи, парсинг HTML и других форматов). Архитектура Nutch позволяет разработчикам создавать плагины для обработки нового медиа-контента, получение данных через нестандартные каналы для формирования типовых запросов или организации поискового кластера. (ru) Apache Nutch — модульний фреймворк для побудови пошукових систем, написаний на мові Java і заснований на технологіях Lucene, Solr, Tika, Hadoop і , адаптованих для специфіки пошуку у вебі (наприклад, підтримується crawler, база посилального зв'язку, парсинг HTML і інших форматів). Архітектура Nutch дозволяє розробникам створювати плагіни для обробки нового медіа-контенту, отримання даних через нестандартні канали, для формування типових запитів або організації пошукового кластера. (uk)
rdfs:label Apache Nutch (en) Nutch (ca) Nutch (de) Nutch (es) Nutch (fr) Nutch (it) 아파치 너치 (ko) Apache Nutch (nl) Apache Nutch (pl) Nutch (ru) Nutch (uk)
owl:sameAs freebase:Apache Nutch yago-res:Apache Nutch wikidata:Apache Nutch dbpedia-ca:Apache Nutch dbpedia-de:Apache Nutch dbpedia-es:Apache Nutch dbpedia-fr:Apache Nutch dbpedia-it:Apache Nutch dbpedia-ko:Apache Nutch dbpedia-nl:Apache Nutch dbpedia-pl:Apache Nutch dbpedia-ru:Apache Nutch dbpedia-tr:Apache Nutch dbpedia-uk:Apache Nutch https://global.dbpedia.org/id/NkTm
prov:wasDerivedFrom wikipedia-en:Apache_Nutch?oldid=1112651225&ns=0
foaf:depiction wiki-commons:Special:FilePath/Apache_Nutch_logo.svg wiki-commons:Special:FilePath/Nutch.png wiki-commons:Special:FilePath/NutchScreenshot.png
foaf:isPrimaryTopicOf wikipedia-en:Apache_Nutch
foaf:name Apache Nutch (en)
is dbo:knownFor of dbr:Chris_Mattmann
is dbo:wikiPageRedirects of dbr:Fetcher dbr:Nutch
is dbo:wikiPageWikiLink of dbr:Information_extraction dbr:List_of_search_engine_software dbr:Coveo dbr:Chris_Mattmann dbr:Apache_Hadoop dbr:Apache_Lucene dbr:Apache_OODT dbr:Apache_Tika dbr:StormCrawler dbr:Web_crawler dbr:List_of_Apache_Software_Foundation_projects dbr:Fetcher dbr:List_of_Java_frameworks dbr:Web_ARChive dbr:Nutch
is dbp:knownFor of dbr:Chris_Mattmann
is foaf:primaryTopic of wikipedia-en:Apache_Nutch