Apache Nutch (original) (raw)
Nutch és un programari de motor de cerca construït sota la filosofia de codi obert, altament extensible i escalable.
Property | Value |
---|---|
dbo:abstract | Nutch és un programari de motor de cerca construït sota la filosofia de codi obert, altament extensible i escalable. (ca) Nutch ist ein Java-Framework für Internet-Suchmaschinen. Die Software ist Open-Source und wird innerhalb der Apache Software Foundation unter der Apache-Lizenz entwickelt. Nutch basiert u. a. auf Lucene (Stemming, Indexierung etc.), Solr (Webfunktionalitäten) und Hadoop (Skalierung). Nutch kann beliebig große Datenmengen durchsuchen. An firmenspezifische Bedürfnisse lässt es sich durch seine Plug-in-Architektur anpassen – bspw. an weitere Dokumentformate. Das deutsche Bundesamt für Verbraucherschutz und Lebensmittelsicherheit betrieb die auf Nutch basierende „Verbraucher-Suchmaschine“ Clewwa. Auch die Suchmaschine Wikia Search setzte auf der Technologie von Nutch auf. Nutch wird zur Zeit in 2 Versionen gepflegt * 1.x: Ist ein fertiger Crawler, welcher eine sehr feine Konfiguration ermöglicht und auf die Datenstrukturen von Apache Hadoop setzt, er soll ideal für Batch-Verarbeitung sein * 2.x: Wird als Alternative zur Version 1.x angeboten, der Hauptunterschied liegt im Speicherbereich, dieser wurde abstrahiert und nutzt Apache Gora um Objekte zu verknüpfen. So wurde die Flexibilität erhöht, was (z. B. Status, Inhalte, Links, verarbeiteter Text …) gespeichert werden kann und wie die Speicherung z. B. in NoSQL-Lösungen erfolgt. (de) Apache Nutch is a highly extensible and scalable open source web crawler software project. (en) Nutch es un robot y motor de búsqueda basado en Lucene. Es parte del proyecto Lucene que a su vez es gestionado por la Apache Software Foundation. Nutch es software libre. Nutch ofrece una solución transparente, pues al ser una tecnología de código abierto es posible conocer como organiza el ranking de resultados de las búsquedas. Está desarrollada en Java, y basa su arquitectura en la plataforma Hadoop de desarrollo de sistemas distribuidos. Algunas de las características del buscador son: * No distingue entre mayúsculas y minúsculas * Usando comillas (") al principio y al final de un grupo de palabras o frase realiza la búsqueda de ese texto exacto * Añadiendo el signo más (+) delante de una palabra fuerza la búsqueda de palabras no habituales * Añadiendo el signo menos (-) delante de una palabra realiza la búsqueda excluyendo esa palabra En los resultados se puede encontrar diversa información: * en caché, muestra la versión de la página visitada por Nutch. * explicar, muestra una explicación de cómo Nutch otorgó la puntuación a esa página. * anchors, muestra una lista con el texto que aparece en enlaces que apuntan a esa página. (es) Nutch est une initiative visant à construire un moteur de recherche open source. Il utilise Lucene comme bibliothèque de moteur de recherche et d'indexation. En revanche, le robot de collecte a été créé spécifiquement pour ce projet. L'architecture de Nutch est hautement modulaire et permet à des développeurs de créer des plugins pour différentes phases du processus : récupération des données, analyse des documents, recherche, etc. Doug Cutting est l'initiateur et le coordinateur de ce projet. Il est entièrement développé en langage Java, mais les données qu'il manipule sont dans un format de données indépendant de tout langage de programmation.En juin 2003 a été présenté une version opérationnelle d'une démonstration de Nutch sur une base regroupant 100 millions de documents. (fr) 아파치 너치(Apache Nutch)는 루씬을 기반으로 하여 만든 오픈 소스 검색 엔진이다. 루씬을 기반으로 하였지만 웹 크롤러는 처음부터 다시 만들었다. 여러 가지 플러그인을 붙일 수 있도록 모듈화가 잘 되어 있다. 현재 아파치의 하위 프로젝트이다. 완전히 자바로 작성되어 있지만 자료는 특정 언어와 관계없는 형식으로 저장된다. 100만 페이지 정도를 검색할 수 있다. 여러 대의 머신에서 수행될 수 있도록 맵리듀스와 를 구현하였는데, 이제는 하둡이라는 하위 프로젝트를 통하여 따로 관리되고 있다. (ko) Nutch è un progetto finalizzato alla costruzione di un motore di ricerca open source basato sulla piattaforma Lucene. Il "robot" (o "web crawler") è stato scritto da zero appositamente per il progetto. Nutch ha un'architettura altamente modulare per consentire agli sviluppatori di creare propri plugin per la scansione di tipi di dato multimediali, il reperimento di dati, l'interrogazione e la condivisione. Nel giugno del 2005 Nutch è passato dallo stato di a sottoprogetto di Lucene. È implementato completamente in Java, ma i dati sono conservati in un formato neutro. Nel giugno 2003 fu eseguito con successo un test per indicizzare 100 milioni di pagine. Per soddisfare la necessità di una elaborazione distribuita, per il progetto Nutch è stato anche realizzato una funzionalità di MapReduce ed un file system distribuito. Queste due componenti sono poi confluite in un progetto proprio chiamato Apache Hadoop. (it) Apache Nutch – otwartoźródłowy, rozszerzalny i skalowalny robot internetowy (program komputerowy do przeszukiwania i analizy stron internetowych) rozwijany pod opieką Fundacji Apache. (pl) Apache Nutch is een open source internetzoekmachine, gebouwd op Lucene, dat een alternatief biedt voor commerciële zoekmachines waaronder Google en Bing. Omdat Nutch in Java geschreven is, is het beschikbaar voor meerdere platformen. De software wordt vrijgegeven onder de Apache-licentie 2.0. (nl) Apache Nutch — модульный фреймворк для построения поисковых систем, написанный на языке Java и основанный на технологиях Lucene, Solr, , Hadoop и , адаптированных для специфики поиска в интернете (например, поддерживается crawler, база ссылочной связи, парсинг HTML и других форматов). Архитектура Nutch позволяет разработчикам создавать плагины для обработки нового медиа-контента, получение данных через нестандартные каналы для формирования типовых запросов или организации поискового кластера. Система предоставляет средства для построения высокомасштабных систем индексации, отвлеченных от типа хранилища, что позволяет использовать такие хранилища для больших объемов данных, как , , Apache Cassandra, Apache HBase и HDFS, так и SQL-базы и размещение в памяти NoSQL БД. (ru) Apache Nutch — модульний фреймворк для побудови пошукових систем, написаний на мові Java і заснований на технологіях Lucene, Solr, Tika, Hadoop і , адаптованих для специфіки пошуку у вебі (наприклад, підтримується crawler, база посилального зв'язку, парсинг HTML і інших форматів). Архітектура Nutch дозволяє розробникам створювати плагіни для обробки нового медіа-контенту, отримання даних через нестандартні канали, для формування типових запитів або організації пошукового кластера. Система надає засоби для побудови високомасштабованих систем індексації, абстрагованих від типу сховища, що дозволяє використовувати такі сховища для великих обсягів даних, як , , Apache Cassandra, Apache і HDFS, так і SQL-бази і розміщені в пам'яті NoSQL БД. (uk) |
dbo:author | dbr:Doug_Cutting dbr:Mike_Cafarella |
dbo:developer | dbr:Apache_Software_Foundation |
dbo:genre | dbr:Web_crawler |
dbo:license | dbr:Apache_License_2.0 |
dbo:operatingSystem | dbr:Cross-platform |
dbo:programmingLanguage | dbr:Java_(programming_language) |
dbo:thumbnail | wiki-commons:Special:FilePath/Apache_Nutch_logo.svg?width=300 |
dbo:wikiPageExternalLink | https://gitbox.apache.org/repos/asf%3Fp https://web.archive.org/web/20091202104144/http:/www.apress.com/book/view/9781590596876 http://www.apress.com/book/view/9781590596876 |
dbo:wikiPageID | 398847 (xsd:integer) |
dbo:wikiPageLength | 13041 (xsd:nonNegativeInteger) |
dbo:wikiPageRevisionID | 1112651225 (xsd:integer) |
dbo:wikiPageWikiLink | dbr:Enterprise_search dbr:Apache_Incubator dbc:Apache_Software_Foundation_projects dbc:Free_search_engine_software dbc:Free_web_crawlers dbr:Doug_Cutting dbr:Information_extraction dbr:Common_Crawl dbr:Creative_Commons dbr:Cross-platform dbr:Open_educational_resources dbr:Mike_Cafarella dbr:DiscoverEd dbr:MozDex dbr:Krugle dbr:MapReduce dbc:Cross-platform_free_software dbc:Java_(programming_language)_libraries dbr:Web_crawler dbr:Wikia_Search dbr:Hadoop dbr:Java_(programming_language) dbr:Text_Retrieval_Conference dbr:Lucene dbc:Internet_search_engines dbr:Distributed_file_system dbr:Apress dbr:Apache_Software_Foundation dbr:Open-source_license dbr:Faceted_search dbr:POWER5 dbr:Scalability dbr:Apache_License_2.0 dbr:File:Nutch.png |
dbp:author | dbr:Doug_Cutting dbr:Mike_Cafarella |
dbp:caption | Nutch Web Interface Search (en) |
dbp:collapsible | yes (en) |
dbp:developer | dbr:Apache_Software_Foundation |
dbp:genre | dbr:Web_crawler |
dbp:license | dbr:Apache_License_2.0 |
dbp:logo | Apache Nutch logo.svg (en) |
dbp:name | Apache Nutch (en) |
dbp:operatingSystem | dbr:Cross-platform |
dbp:programmingLanguage | dbr:Java_(programming_language) |
dbp:repo | https://gitbox.apache.org/repos/asf%3Fp |
dbp:screenshot | NutchScreenshot.png (en) |
dbp:screenshotSize | 250 (xsd:integer) |
dbp:wikiPageUsesTemplate | dbt:Web_crawlers dbt:Citation_needed dbt:Cite_book dbt:Infobox_software dbt:Official_website dbt:Portal dbt:Refbegin dbt:Refend dbt:Reflist dbt:Short_description dbt:Start_date_and_age dbt:URL dbt:Multiple_releases dbt:Apache_Software_Foundation |
dbp:wordnet_type | http://www.w3.org/2006/03/wn/wn20/instances/synset-software-noun-1 |
dcterms:subject | dbc:Apache_Software_Foundation_projects dbc:Free_search_engine_software dbc:Free_web_crawlers dbc:Cross-platform_free_software dbc:Java_(programming_language)_libraries dbc:Internet_search_engines |
rdf:type | owl:Thing dbo:Software schema:CreativeWork dbo:Work wikidata:Q386724 wikidata:Q7397 yago:WikicatWebCrawlers yago:Abstraction100002137 yago:CausalAgent100007347 yago:Code106355894 yago:CodingSystem106353757 yago:Communication100033020 yago:Flatterer110095869 yago:Follower110099375 yago:LivingThing100004258 yago:Object100002684 yago:Organism100004475 yago:Person100007846 yago:PhysicalEntity100001930 yago:Program106568978 yago:WikicatInternetSearchEngines yago:Writing106359877 yago:WrittenCommunication106349220 yago:YagoLegalActor yago:YagoLegalActorGeo yago:SearchEngine106578654 yago:Software106566077 yago:Sycophant110684827 yago:Whole100003553 umbel-rc:SoftwareObject |
rdfs:comment | Nutch és un programari de motor de cerca construït sota la filosofia de codi obert, altament extensible i escalable. (ca) Apache Nutch is a highly extensible and scalable open source web crawler software project. (en) 아파치 너치(Apache Nutch)는 루씬을 기반으로 하여 만든 오픈 소스 검색 엔진이다. 루씬을 기반으로 하였지만 웹 크롤러는 처음부터 다시 만들었다. 여러 가지 플러그인을 붙일 수 있도록 모듈화가 잘 되어 있다. 현재 아파치의 하위 프로젝트이다. 완전히 자바로 작성되어 있지만 자료는 특정 언어와 관계없는 형식으로 저장된다. 100만 페이지 정도를 검색할 수 있다. 여러 대의 머신에서 수행될 수 있도록 맵리듀스와 를 구현하였는데, 이제는 하둡이라는 하위 프로젝트를 통하여 따로 관리되고 있다. (ko) Apache Nutch – otwartoźródłowy, rozszerzalny i skalowalny robot internetowy (program komputerowy do przeszukiwania i analizy stron internetowych) rozwijany pod opieką Fundacji Apache. (pl) Apache Nutch is een open source internetzoekmachine, gebouwd op Lucene, dat een alternatief biedt voor commerciële zoekmachines waaronder Google en Bing. Omdat Nutch in Java geschreven is, is het beschikbaar voor meerdere platformen. De software wordt vrijgegeven onder de Apache-licentie 2.0. (nl) Nutch ist ein Java-Framework für Internet-Suchmaschinen. Die Software ist Open-Source und wird innerhalb der Apache Software Foundation unter der Apache-Lizenz entwickelt. Nutch basiert u. a. auf Lucene (Stemming, Indexierung etc.), Solr (Webfunktionalitäten) und Hadoop (Skalierung). Nutch kann beliebig große Datenmengen durchsuchen. An firmenspezifische Bedürfnisse lässt es sich durch seine Plug-in-Architektur anpassen – bspw. an weitere Dokumentformate. Nutch wird zur Zeit in 2 Versionen gepflegt (de) Nutch es un robot y motor de búsqueda basado en Lucene. Es parte del proyecto Lucene que a su vez es gestionado por la Apache Software Foundation. Nutch es software libre. Nutch ofrece una solución transparente, pues al ser una tecnología de código abierto es posible conocer como organiza el ranking de resultados de las búsquedas. Está desarrollada en Java, y basa su arquitectura en la plataforma Hadoop de desarrollo de sistemas distribuidos. Algunas de las características del buscador son: En los resultados se puede encontrar diversa información: (es) Nutch est une initiative visant à construire un moteur de recherche open source. Il utilise Lucene comme bibliothèque de moteur de recherche et d'indexation. En revanche, le robot de collecte a été créé spécifiquement pour ce projet. L'architecture de Nutch est hautement modulaire et permet à des développeurs de créer des plugins pour différentes phases du processus : récupération des données, analyse des documents, recherche, etc. Doug Cutting est l'initiateur et le coordinateur de ce projet. (fr) Nutch è un progetto finalizzato alla costruzione di un motore di ricerca open source basato sulla piattaforma Lucene. Il "robot" (o "web crawler") è stato scritto da zero appositamente per il progetto. Nutch ha un'architettura altamente modulare per consentire agli sviluppatori di creare propri plugin per la scansione di tipi di dato multimediali, il reperimento di dati, l'interrogazione e la condivisione. Nel giugno del 2005 Nutch è passato dallo stato di a sottoprogetto di Lucene. (it) Apache Nutch — модульный фреймворк для построения поисковых систем, написанный на языке Java и основанный на технологиях Lucene, Solr, , Hadoop и , адаптированных для специфики поиска в интернете (например, поддерживается crawler, база ссылочной связи, парсинг HTML и других форматов). Архитектура Nutch позволяет разработчикам создавать плагины для обработки нового медиа-контента, получение данных через нестандартные каналы для формирования типовых запросов или организации поискового кластера. (ru) Apache Nutch — модульний фреймворк для побудови пошукових систем, написаний на мові Java і заснований на технологіях Lucene, Solr, Tika, Hadoop і , адаптованих для специфіки пошуку у вебі (наприклад, підтримується crawler, база посилального зв'язку, парсинг HTML і інших форматів). Архітектура Nutch дозволяє розробникам створювати плагіни для обробки нового медіа-контенту, отримання даних через нестандартні канали, для формування типових запитів або організації пошукового кластера. (uk) |
rdfs:label | Apache Nutch (en) Nutch (ca) Nutch (de) Nutch (es) Nutch (fr) Nutch (it) 아파치 너치 (ko) Apache Nutch (nl) Apache Nutch (pl) Nutch (ru) Nutch (uk) |
owl:sameAs | freebase:Apache Nutch yago-res:Apache Nutch wikidata:Apache Nutch dbpedia-ca:Apache Nutch dbpedia-de:Apache Nutch dbpedia-es:Apache Nutch dbpedia-fr:Apache Nutch dbpedia-it:Apache Nutch dbpedia-ko:Apache Nutch dbpedia-nl:Apache Nutch dbpedia-pl:Apache Nutch dbpedia-ru:Apache Nutch dbpedia-tr:Apache Nutch dbpedia-uk:Apache Nutch https://global.dbpedia.org/id/NkTm |
prov:wasDerivedFrom | wikipedia-en:Apache_Nutch?oldid=1112651225&ns=0 |
foaf:depiction | wiki-commons:Special:FilePath/Apache_Nutch_logo.svg wiki-commons:Special:FilePath/Nutch.png wiki-commons:Special:FilePath/NutchScreenshot.png |
foaf:isPrimaryTopicOf | wikipedia-en:Apache_Nutch |
foaf:name | Apache Nutch (en) |
is dbo:knownFor of | dbr:Chris_Mattmann |
is dbo:wikiPageRedirects of | dbr:Fetcher dbr:Nutch |
is dbo:wikiPageWikiLink of | dbr:Information_extraction dbr:List_of_search_engine_software dbr:Coveo dbr:Chris_Mattmann dbr:Apache_Hadoop dbr:Apache_Lucene dbr:Apache_OODT dbr:Apache_Tika dbr:StormCrawler dbr:Web_crawler dbr:List_of_Apache_Software_Foundation_projects dbr:Fetcher dbr:List_of_Java_frameworks dbr:Web_ARChive dbr:Nutch |
is dbp:knownFor of | dbr:Chris_Mattmann |
is foaf:primaryTopic of | wikipedia-en:Apache_Nutch |