Web scraping (original) (raw)
Der Begriff Screen Scraping (engl., etwa: „am Bildschirm schürfen“) umfasst generell alle Verfahren zum Auslesen von Texten aus Computerbildschirmen. Gegenwärtig wird der Ausdruck jedoch beinahe ausschließlich in Bezug auf Webseiten verwendet (daher auch Web Scraping oder Web Harvesting). In diesem Fall bezeichnet Screen Scraping speziell die Techniken, die der Gewinnung von Informationen durch gezieltes Extrahieren der benötigten Daten dienen.
Property | Value |
---|---|
dbo:abstract | Web scraping (de l'anglès to scrap 'rasclar') és una tècnica de programari o software informàtic per extreure informació dels llocs web. En general, aquest tipus de programes de software simulen l'exploració humana del World Wide Web, ja sigui amb la implementació de baix nivell de protocol de transferència d'hipertext (HTTP), o amb la incorporació d'un navegador web, com pot ser Internet Explorer o Mozilla Firefox. El web scraping està molt relacionat amb la indexació de la web, que indexa informació de la web utilitzant un robot. Aquesta tècnica és una tècnica universal adoptada per la majoria dels motors de cerca.Per contra, el web scraping se centra més en la transformació de les dades no estructurades al web, generalment en format HTML, en dades estructurades que poden ser emmagatzemades i analitzades en una base de dades local, central o de full de càlcul. El web scraping també està relacionat amb l'automatització del web, que simula la navegació humana utilitzant software d'ordinador. Algun dels usos principals del web scraping són la comparació de preus en botigues, monitorar dades relacionades amb el clima de certa regió, detectar canvis en llocs webs o la integració de dades en llocs web. (ca) Web scraping, web harvesting nebo extrakce dat z webu označují způsob získávání z webových stránek. Spočívá v extrahování dat umístěných na webových stránkách do užitečnějšího formátu, který je možné snadno dále . Web scraping je sice možné provádět ručně, častěji se ale termín používá pro automatické harvestování, prováděné pomocí web crawlerů. Web harvesting je formou stahování dat z webu, v průběhu kterého se z webu stahují konkrétní data a ukládají se do databáze nebo tabulky, aby s nimi bylo možné později pracovat. Web scraping webové stránky zahrnuje její načtení a extrakci z ní. Fetching je stahování stránky (které provádí prohlížeč, když si uživatel stránku prohlíží). Proto je web crawling hlavní součástí web scrapingu, aby se stránky získaly pro pozdější zpracování. Po načtení může následovat extrakce. Obsah stránky může být analyzován, prohledáván, přeformátován, mohou z ní být data zkopírovaná do tabulky nebo vložena do databáze. Web scrapery obvykle ze stránky něco vyjmou, aby to využily k jinému účelu na jiném místě. (cs) تجريف الويب (بالإنجليزية: Web scraping) هي تقنية استخراج البيانات من مواقع الإنترنت عن طريق برامج مخصصة مثل برامج محاكة تصفح الأشخاص للإنترنت تعمل على مستوى منخفض من بروتوكول (HTTP) نقل النص التشعبي أو دمج متصفح ويب متكامل، مثل موزيلا فايرفوكس. تحليل الويب متعلق أيضًا بفهرسة الويب الذي يعنى فهرسة المعلومات الويب باستخدام البوت أو زاحف الشبكة وهي تقنية عالمية تعتمدها أغلب محركات البحث.ويركز تحليل الويب أكثر على تحويل البيانات غير المنظمة على الويب والتي عادة على شكل HTML إلى البيانات المنظمة التي يمكن تخزينها وتحليلها في قاعدة بيانات محلية المركزية أو جدول البيانات. وهو أيضًا يشمل على التصفح إلى الويب الذي يشابه تصفح الأشخاص للويب. تشمل استخدامات تحليل شبكة الإنترنت مقارنة الأسعار على الإنترنت، تحليل الايميلات ورصد بيانات الطقس، على شبكة الإنترنت لكشف التغيرات، والبحوث، والمزج على شبكة الإنترنت وتكامل البيانات على الشبكة. (ar) Der Begriff Screen Scraping (engl., etwa: „am Bildschirm schürfen“) umfasst generell alle Verfahren zum Auslesen von Texten aus Computerbildschirmen. Gegenwärtig wird der Ausdruck jedoch beinahe ausschließlich in Bezug auf Webseiten verwendet (daher auch Web Scraping oder Web Harvesting). In diesem Fall bezeichnet Screen Scraping speziell die Techniken, die der Gewinnung von Informationen durch gezieltes Extrahieren der benötigten Daten dienen. (de) Web scraping software-programen bidez web guneetatik informazioa ateratzeko erabilitako teknika bat da. Normalean, programa horiek Webean pertsona bat nabigatzen dutela simulatzen dute, HTTP protokoloa eskuz erabilita, edo nabigatzaile bat aplikazio batean txertatuz. Azken urteotan, web-scraping-a asko erabiltzen da web-posizionamenduaren sektorean, kalitatezko edukiak sortzeko datu kopuru handiak jaso eta antolatzeko dituen gaitasunarengatik. (eu) Web scraping o raspado web, es una técnica utilizada mediante programas de software para extraer información de sitios web. Usualmente, estos programas simulan la navegación de un humano en la World Wide Web ya sea utilizando el protocolo HTTP manualmente, o incrustando un navegador en una aplicación. El web scraping está muy relacionado con la indexación de la web, la cual indexa la información de la web utilizando un robot y es una técnica universal adoptada por la mayoría de los motores de búsqueda. Sin embargo, el web scraping se enfoca más en la transformación de datos sin estructura en la web (como el formato HTML) en datos estructurados que pueden ser almacenados y analizados en una base de datos central, en una hoja de cálculo o en alguna otra fuente de almacenamiento. Alguno de los usos del web scraping son la comparación de precios en tiendas, la monitorización de datos relacionados con el clima de cierta región, la detección de cambios en sitios webs y la integración de datos en sitios webs. También es utilizado para obtener información relevante de un sitio a través de los rich snippets. En los últimos años el web scraping se ha convertido en una técnica muy utilizada dentro del sector del posicionamiento web gracias a su capacidad de generar grandes cantidades de datos para crear contenidos de calidad. (es) Le web scraping (parfois appelé harvesting) est une technique d'extraction du contenu de sites Web, via un script ou un programme, dans le but de le transformer pour permettre son utilisation dans un autre contexte comme l'enrichissement de bases de données, le référencement ou l'exploration de données. (fr) Web scraping, web harvesting, atau web data extraction merupakan kegiatan yang dilakukan untuk mengambil data tertentu secara semi-terstruktur dari sebuah halaman situs web. Halaman tersebut umumnya dibangun menggunakan bahasa markup seperti HTML atau XHTML, proses akan menganalisis dokumen sebelum memulai mengambil data. Biasanya teknik scraping diimplementasikan pada sebuah bot agar bisa membuat proses yang harusnya dilakukan secara manual menjadi otomatis. Ketika kita menjumpai sebuah situs yang membatasi kuota API (application programming interface) atau bahkan tidak menyediakan sama sekali, maka perayapan web akan sangat dibutuhkan sebagai langkah pengambilan data. (in) Web scraping, web harvesting, or web data extraction is data scraping used for extracting data from websites. Web scraping software may directly access the World Wide Web using the Hypertext Transfer Protocol or a web browser. While web scraping can be done manually by a software user, the term typically refers to automated processes implemented using a bot or web crawler. It is a form of copying in which specific data is gathered and copied from the web, typically into a central local database or spreadsheet, for later retrieval or analysis. Scraping a web page involves fetching it and extracting from it. Fetching is the downloading of a page (which a browser does when a user views a page). Therefore, web crawling is a main component of web scraping, to fetch pages for later processing. Once fetched, extraction can take place. The content of a page may be parsed, searched and reformatted, and its data copied into a spreadsheet or loaded into a database. Web scrapers typically take something out of a page, to make use of it for another purpose somewhere else. An example would be finding and copying names and telephone numbers, companies and their URLs, or e-mail addresses to a list (contact scraping). As well as contact scraping, web scraping is used as a component of applications used for web indexing, web mining and data mining, online price change monitoring and price comparison, product review scraping (to watch the competition), gathering real estate listings, weather data monitoring, website change detection, research, tracking online presence and reputation, web mashup, and web data integration. Web pages are built using text-based mark-up languages (HTML and XHTML), and frequently contain a wealth of useful data in text form. However, most web pages are designed for human end-users and not for ease of automated use. As a result, specialized tools and software have been developed to facilitate the scraping of web pages. Newer forms of web scraping involve monitoring data feeds from web servers. For example, JSON is commonly used as a transport storage mechanism between the client and the web server. There are methods that some websites use to prevent web scraping, such as detecting and disallowing bots from crawling (viewing) their pages. In response, there are web scraping systems that rely on using techniques in DOM parsing, computer vision and natural language processing to simulate human browsing to enable gathering web page content for offline parsing. (en) Il web scraping (detto anche web harvesting o web data extraction) è una tecnica informatica di da un sito web per mezzo di programmi software. Di solito, tali programmi simulano la navigazione umana nel World Wide Web utilizzando l'Hypertext Transfer Protocol (HTTP) o attraverso browser, come Internet Explorer o Mozilla Firefox. Strettamente correlato all'indicizzazione dei siti Internet, tale tecnica è attuata mediante l'uso di bot dalla maggior parte dei motori di ricerca. D'altro canto, il web scraping si concentra di più sulla trasformazione di dati non strutturati presenti in Rete, di solito in formato HTML, in metadati che possono essere memorizzati e analizzati in locale in un database. Il web harvesting è altresì affine alla , che consiste nella simulazione della navigazione umana in Rete attraverso l'uso di software per computer. Esistono metodi utilizzati da alcuni siti web per prevenire il web scraping , come ad esempio rilevare e impedire ai bot la visualizzazione delle loro pagine. Per aggirare il problema esistono sistemi di web scraping che si affidano a tecniche come DOM parsing, Computer Vision e natural language processing per simulare la navigazione web umana. Grazie a queste tecniche è possibile raccogliere i contenuti delle pagine web per l'analisi offline. Può essere usato per confrontare prezzi online, monitorare dati meteorologici, rilevare modifiche in un sito internet, nella ricerca scientifica, per il web mashup e il . (it) ウェブスクレイピング(英: Web scraping)とは、ウェブサイトから情報を抽出するコンピュータソフトウェア技術のこと。通常このようなソフトウェアプログラムは低レベルのHTTPを実装することで、もしくはウェブブラウザを埋め込むことによって、WWWのコンテンツを取得する。ウェブスクレイピングはユーザーが手動で行なうこともできるが、一般的にはボットやクローラ(英: Web crawler)を利用した自動化プロセスを指す。 ウェブスクレイピングは多くの検索エンジンによって採用されている、ボットを利用してウェブ上の情報にインデックス付けを行うと密接な関係がある。ウェブスクレイピングではウェブ上の非構造化データの変換、一般的にはHTMLフォーマットからデータベースやスプレッドシートに格納・分析可能な構造化データへの変換に、より焦点が当てられている。また、コンピュータソフトウェアを利用して人間のブラウジングをシミュレートするウェブオートメーションとも関係が深い。ウェブスクレイピングの用途は、オンラインでの価格比較、気象データ監視、ウェブサイトの変更検出、研究、ウェブマッシュアップやウェブデータの統合等である。 (ja) A coleta de dados web, ou raspagem web, é uma forma de mineração que permite a extração de dados de sites da web convertendo-os em informação estruturada para posterior análise. O tipo mais básico de coleta é o download manual das páginas, copiando e colando o conteúdo, e isso pode ser feito por qualquer pessoa. Contudo, essa técnica geralmente é feita através de um software que simula uma navegação humana por diversos sites, extraindo informações específicas. É um campo com ativa evolução que compartilha um objetivo comum com a visão da web semântica, uma iniciativa ambiciosa que ainda requer avanços no processamento de texto, compreensão semantical, inteligência artificial e interação humano-computador. A coleta de dados web é muito semelhante à indexação web (utilizado pela maioria dos motores de busca), mas a motivação final é muito diferente. A indexação web é usada para ajudar a tornar os motores de busca mais eficientes, já a coleta de dados é tipicamente usada para diferentes razões, como comparação de preços online, monitoramentos meteorológicos, pesquisas de mercado, coleta de dados governamentais, monitoramento de dados e, em alguns casos, roubo. (pt) Scrapen (Engels: web scraping) is een computertechniek waarbij software wordt gebruikt om informatie van webpagina's te extraheren en al dan niet te analyseren. Meestal probeert de software een deel van het world wide web te onderzoeken via gebruik van het op codes gebaseerde Hypertext Transfer Protocol (HTTP), of door het surfgedrag met een webbrowser zoals Mozilla Firefox te simuleren. Scrapen is sterk gerelateerd aan web-indexering, waarmee een bot of een web-crawler op een automatische manier de informatie verzamelt en categoriseert, een techniek die universeel wordt toegepast door de meeste zoekmachines. Scrapen daarentegen focust zich vooral op de omzetting van ongestructureerde data, meestal in HTML-formaat, naar gestructureerde data die kan worden bewaard en geanalyseerd in een centrale lokale database of spreadsheet. Behalve door zoekmachines wordt de techniek ook vaak ingezet voor het vergaren van data wanneer de aanbieder ervan deze niet op een gestructureerde manier weggeeft of verkoopt, zoals met een API. Voorbeelden van scrapen zijn online prijsvergelijkingen, verzamelen van contactgegevens, nieuwsartikelen, monitoring van weergegevens, detectie van wijzigingen aan websites, onderzoek, web-mashup en webdata-integratie. (nl) Веб-скрейпинг (или скрепинг, или скрапинг← англ. web scraping) — это технология получения веб-данных путем извлечения их со страниц веб-ресурсов. Веб-скрейпинг может быть сделан вручную пользователем компьютера, однако термин обычно относится к автоматизированным процессам, реализованным с помощью кода, который выполняет GET-запросы на целевой сайт. Веб-скрейпинг используется для синтаксического преобразования веб-страниц в более удобные для работы формы. Веб-страницы создаются с использованием текстовых языков разметки (HTML и XHTML) и содержат множество полезных данных в коде. Однако большинство веб-ресурсов предназначено для конечных пользователей, а не для удобства автоматического использования, поэтому была разработана технология, которая «очищает» веб-контент. Загрузка и просмотр страницы — важнейшие составляющие технологии, они являются неотъемлемой частью выборки данных. (ru) 网页抓取(英語:web scraping)是一种从网页上获取页面内容的计算机软件技术。通常透過软件使用低级别的超文本传输协议模仿人类的正常访问。 网页抓取和网页索引极其相似,其中网页索引指的是大多数搜索引擎采用使用的机器人或网络爬虫等技术。与此相反,网页抓取更侧重于转换网络上非结构化数据(常见的是HTML格式)成为能在一个中央数据库和电子表格中储存和分析的结构化数据。网页抓取也涉及到网络自动化,它利用计算机软件模拟了人的浏览。网页抓取的用途包括在线的价格比较,联系人抓取,气象数据监测,网页变化检测,科研,混搭和Web数据集成。 (zh) Вебскрапінг (від англ. scraping — «вишкрібання», вебзбирання або витягнення вебданих) — перетворення у структуровані дані інформації з вебсторінок, які призначені для перегляду людиною за допомогою браузера. Як правило, виконується за допомогою комп'ютерних програм, що імітують поведінку людини в інтернеті, або з'єднуючись з вебсервером напряму по протоколу HTTP, або управляючи повноцінним веббраузером. Але буває і скрапінг за допомогою копіювання даних людиною. Це форма копіювання, в якій конкретні дані збираються та копіюються з інтернету, як правило, в базу даних або електронну таблицю для подальшого пошуку чи аналізу. Вебскрапінг включає в себе завантаження та вилучення. Спочатку завантажується сторінка (що робить браузер, коли ви переглядаєте сторінку), після цього можна добувати потрібну інформацію. Зміст сторінки може бути проаналізовано, переформатовано, його дані скопійовані в електронну таблицю тощо. Вебскрапери, як правило, беруть щось із сторінки, щоб використати це для інших цілей деінде. Прикладом може бути пошук і копіювання імен та телефонних номерів або компаній та їх URL-адрес до списку (контактне сканування). Вебсторінки побудовані за допомогою текстових мов розмітки (HTML та XHTML) і часто містять велику кількість корисних даних у текстовій формі. Однак більшість вебсторінок призначені для кінцевих користувачів, а не для зручності автоматичного використання. Через це були створені набори інструментів, які «збирають» вебвміст. Вебскрапери — це прикладний програмний інтерфейс для вилучення даних з вебсайту. Існують методи, які деякі вебсайти використовують для запобігання вебскрапінгу. Наприклад, виявлення та заборона ботів від сканування (перегляду) своїх сторінок. У відповідь на це існують вебскрапінгові системи, які спираються на використання методів аналізу об'єктної моделі документа, комп'ютерного бачення та обробку тексту природною мовою, щоб імітувати пошук людини, щоб дозволити збирати вміст вебсторінок для автономного синтаксичного аналізу. (uk) |
dbo:wikiPageID | 2696619 (xsd:integer) |
dbo:wikiPageLength | 29388 (xsd:nonNegativeInteger) |
dbo:wikiPageRevisionID | 1119386562 (xsd:integer) |
dbo:wikiPageWikiLink | dbr:Python_(programming_language) dbr:QVC dbr:Natural_language_processing dbr:Parsing dbc:Web_scraping dbr:Application_firewall dbr:History_of_the_World_Wide_Web dbr:Human-computer_interaction dbr:Hypertext_Transfer_Protocol dbr:Perl dbr:Regular_expression dbr:United_States_District_Court_for_the_Eastern_District_of_Pennsylvania dbr:Defendant dbr:Dynamic_web_page dbr:EBay_v._Bidder's_Edge dbr:Inchoate_offense dbr:Injunction dbr:Internet_bot dbr:User_agent dbr:Comparison_of_feed_aggregators dbr:Computer_Fraud_and_Abuse_Act dbr:Craigslist_v._3Taps dbr:Ryanair dbr:Offline_reader dbr:Trespass_to_chattels dbr:Electronic_Frontier_Foundation dbr:Googlebot dbr:Mozilla dbr:Contact_scraping dbr:Geolocation dbr:Salesforce.com dbr:Application_programming_interface dbr:Machine_learning dbr:Clickwrap dbr:Comparison_shopping_website dbr:Computer_vision dbr:Personal_property dbr:Web_page dbr:Static_web_page dbr:String_(computer_science) dbr:Maritime_and_Commercial_Court_(Denmark) dbc:Web_crawlers dbr:Browse_wrap dbr:CAPTCHA dbr:Data_analysis dbr:Data_extraction dbr:Data_mining dbr:Data_retrieval dbr:Data_scraping dbr:Data_wrangling dbr:Web_crawler dbr:Web_service dbr:Domain_name_drop_list dbr:Headless_browser dbr:Job_wrapping dbr:Link_farm dbr:AJAX dbr:American_Airlines dbr:DNSBL dbr:Database dbr:EBay dbr:Eventbrite dbr:Feist_Publications,_Inc.,_v._Rural_Telephone_Service_Co. dbr:Cause_of_action dbr:Fake_news_website dbr:Knowledge_extraction dbr:Text_corpus dbr:Screen_reader dbr:Grep dbr:HTML dbr:Internet_Archive dbr:Internet_Explorer dbr:JSON dbr:Terms_of_use dbr:Archive.today dbr:Auction_sniping dbr:JumpStation dbr:Blog_scraping dbr:Supreme_Court_of_the_United_States dbr:Honeypot_(computing) dbr:Wrapper_(data_mining) dbr:Document_Object_Model dbr:Associated_Press_v._Meltwater_U.S._Holdings,_Inc. dbr:Southwest_Airlines dbr:Spam_Act_2003 dbr:End-user_(computer_science) dbr:Information_Technology_Act,_2000 dbr:Metadata dbr:Michael_Hanna_(judge) dbr:Microformat dbr:OpenSocial dbr:Change_detection_and_notification dbr:Search_engine_scraping dbr:Semantic_web dbr:CSS_sprite dbr:World_Wide_Web_Wanderer dbr:XHTML dbr:XPath dbr:XQuery dbr:Yahoo! dbr:Web_indexing dbr:Robots_exclusion_standard dbr:Scraper_site dbr:Website dbr:Web_data_integration dbr:World_Wide_Web dbr:Long_Tail dbr:Facebook,_Inc._v._Power_Ventures,_Inc. dbr:IP_address dbr:Importer_(computing) dbr:Obfuscation dbr:Semi-structured_data dbr:Spamdexing dbr:Plaintiff dbr:Web_mining dbr:Web_accessibility dbr:Web_archiving dbr:US_Copyright_law dbr:Socket_programming dbr:Screen_scraping dbr:Cvent,_Inc. dbr:Web_mashup |
dbp:wikiPageUsesTemplate | dbt:Div_col dbt:Div_col_end dbt:Further dbt:Globalize dbt:More_citations_needed dbt:Not_a_typo dbt:Reflist dbt:Short_description dbt:Unreferenced_section dbt:Broader |
dcterms:subject | dbc:Web_scraping |
gold:hypernym | dbr:Technique |
rdf:type | dbo:TopicalConcept dbo:MusicGenre |
rdfs:comment | Der Begriff Screen Scraping (engl., etwa: „am Bildschirm schürfen“) umfasst generell alle Verfahren zum Auslesen von Texten aus Computerbildschirmen. Gegenwärtig wird der Ausdruck jedoch beinahe ausschließlich in Bezug auf Webseiten verwendet (daher auch Web Scraping oder Web Harvesting). In diesem Fall bezeichnet Screen Scraping speziell die Techniken, die der Gewinnung von Informationen durch gezieltes Extrahieren der benötigten Daten dienen. (de) Web scraping software-programen bidez web guneetatik informazioa ateratzeko erabilitako teknika bat da. Normalean, programa horiek Webean pertsona bat nabigatzen dutela simulatzen dute, HTTP protokoloa eskuz erabilita, edo nabigatzaile bat aplikazio batean txertatuz. Azken urteotan, web-scraping-a asko erabiltzen da web-posizionamenduaren sektorean, kalitatezko edukiak sortzeko datu kopuru handiak jaso eta antolatzeko dituen gaitasunarengatik. (eu) Le web scraping (parfois appelé harvesting) est une technique d'extraction du contenu de sites Web, via un script ou un programme, dans le but de le transformer pour permettre son utilisation dans un autre contexte comme l'enrichissement de bases de données, le référencement ou l'exploration de données. (fr) ウェブスクレイピング(英: Web scraping)とは、ウェブサイトから情報を抽出するコンピュータソフトウェア技術のこと。通常このようなソフトウェアプログラムは低レベルのHTTPを実装することで、もしくはウェブブラウザを埋め込むことによって、WWWのコンテンツを取得する。ウェブスクレイピングはユーザーが手動で行なうこともできるが、一般的にはボットやクローラ(英: Web crawler)を利用した自動化プロセスを指す。 ウェブスクレイピングは多くの検索エンジンによって採用されている、ボットを利用してウェブ上の情報にインデックス付けを行うと密接な関係がある。ウェブスクレイピングではウェブ上の非構造化データの変換、一般的にはHTMLフォーマットからデータベースやスプレッドシートに格納・分析可能な構造化データへの変換に、より焦点が当てられている。また、コンピュータソフトウェアを利用して人間のブラウジングをシミュレートするウェブオートメーションとも関係が深い。ウェブスクレイピングの用途は、オンラインでの価格比較、気象データ監視、ウェブサイトの変更検出、研究、ウェブマッシュアップやウェブデータの統合等である。 (ja) 网页抓取(英語:web scraping)是一种从网页上获取页面内容的计算机软件技术。通常透過软件使用低级别的超文本传输协议模仿人类的正常访问。 网页抓取和网页索引极其相似,其中网页索引指的是大多数搜索引擎采用使用的机器人或网络爬虫等技术。与此相反,网页抓取更侧重于转换网络上非结构化数据(常见的是HTML格式)成为能在一个中央数据库和电子表格中储存和分析的结构化数据。网页抓取也涉及到网络自动化,它利用计算机软件模拟了人的浏览。网页抓取的用途包括在线的价格比较,联系人抓取,气象数据监测,网页变化检测,科研,混搭和Web数据集成。 (zh) تجريف الويب (بالإنجليزية: Web scraping) هي تقنية استخراج البيانات من مواقع الإنترنت عن طريق برامج مخصصة مثل برامج محاكة تصفح الأشخاص للإنترنت تعمل على مستوى منخفض من بروتوكول (HTTP) نقل النص التشعبي أو دمج متصفح ويب متكامل، مثل موزيلا فايرفوكس. (ar) Web scraping (de l'anglès to scrap 'rasclar') és una tècnica de programari o software informàtic per extreure informació dels llocs web. En general, aquest tipus de programes de software simulen l'exploració humana del World Wide Web, ja sigui amb la implementació de baix nivell de protocol de transferència d'hipertext (HTTP), o amb la incorporació d'un navegador web, com pot ser Internet Explorer o Mozilla Firefox. El web scraping està molt relacionat amb la indexació de la web, que indexa informació de la web utilitzant un robot. Aquesta tècnica és una tècnica universal adoptada per la majoria dels motors de cerca.Per contra, el web scraping se centra més en la transformació de les dades no estructurades al web, generalment en format HTML, en dades estructurades que poden ser emmagatzema (ca) Web scraping, web harvesting nebo extrakce dat z webu označují způsob získávání z webových stránek. Spočívá v extrahování dat umístěných na webových stránkách do užitečnějšího formátu, který je možné snadno dále . Web scraping je sice možné provádět ručně, častěji se ale termín používá pro automatické harvestování, prováděné pomocí web crawlerů. Web harvesting je formou stahování dat z webu, v průběhu kterého se z webu stahují konkrétní data a ukládají se do databáze nebo tabulky, aby s nimi bylo možné později pracovat. (cs) Web scraping o raspado web, es una técnica utilizada mediante programas de software para extraer información de sitios web. Usualmente, estos programas simulan la navegación de un humano en la World Wide Web ya sea utilizando el protocolo HTTP manualmente, o incrustando un navegador en una aplicación. En los últimos años el web scraping se ha convertido en una técnica muy utilizada dentro del sector del posicionamiento web gracias a su capacidad de generar grandes cantidades de datos para crear contenidos de calidad. (es) Web scraping, web harvesting, atau web data extraction merupakan kegiatan yang dilakukan untuk mengambil data tertentu secara semi-terstruktur dari sebuah halaman situs web. Halaman tersebut umumnya dibangun menggunakan bahasa markup seperti HTML atau XHTML, proses akan menganalisis dokumen sebelum memulai mengambil data. (in) Web scraping, web harvesting, or web data extraction is data scraping used for extracting data from websites. Web scraping software may directly access the World Wide Web using the Hypertext Transfer Protocol or a web browser. While web scraping can be done manually by a software user, the term typically refers to automated processes implemented using a bot or web crawler. It is a form of copying in which specific data is gathered and copied from the web, typically into a central local database or spreadsheet, for later retrieval or analysis. (en) Il web scraping (detto anche web harvesting o web data extraction) è una tecnica informatica di da un sito web per mezzo di programmi software. Di solito, tali programmi simulano la navigazione umana nel World Wide Web utilizzando l'Hypertext Transfer Protocol (HTTP) o attraverso browser, come Internet Explorer o Mozilla Firefox. (it) Scrapen (Engels: web scraping) is een computertechniek waarbij software wordt gebruikt om informatie van webpagina's te extraheren en al dan niet te analyseren. Meestal probeert de software een deel van het world wide web te onderzoeken via gebruik van het op codes gebaseerde Hypertext Transfer Protocol (HTTP), of door het surfgedrag met een webbrowser zoals Mozilla Firefox te simuleren. (nl) A coleta de dados web, ou raspagem web, é uma forma de mineração que permite a extração de dados de sites da web convertendo-os em informação estruturada para posterior análise. O tipo mais básico de coleta é o download manual das páginas, copiando e colando o conteúdo, e isso pode ser feito por qualquer pessoa. Contudo, essa técnica geralmente é feita através de um software que simula uma navegação humana por diversos sites, extraindo informações específicas. É um campo com ativa evolução que compartilha um objetivo comum com a visão da web semântica, uma iniciativa ambiciosa que ainda requer avanços no processamento de texto, compreensão semantical, inteligência artificial e interação humano-computador. A coleta de dados web é muito semelhante à indexação web (utilizado pela maioria dos (pt) Веб-скрейпинг (или скрепинг, или скрапинг← англ. web scraping) — это технология получения веб-данных путем извлечения их со страниц веб-ресурсов. Веб-скрейпинг может быть сделан вручную пользователем компьютера, однако термин обычно относится к автоматизированным процессам, реализованным с помощью кода, который выполняет GET-запросы на целевой сайт. Загрузка и просмотр страницы — важнейшие составляющие технологии, они являются неотъемлемой частью выборки данных. (ru) Вебскрапінг (від англ. scraping — «вишкрібання», вебзбирання або витягнення вебданих) — перетворення у структуровані дані інформації з вебсторінок, які призначені для перегляду людиною за допомогою браузера. (uk) |
rdfs:label | Web scraping (en) تجريف ويب (ar) Web scraping (ca) Web scraping (cs) Screen Scraping (de) Web scraping (es) Web scraping (eu) Web scraping (in) Web scraping (it) Web scraping (fr) ウェブスクレイピング (ja) Scrapen (nl) Coleta de dados web (pt) Веб-скрейпинг (ru) Web scraping (uk) 网页抓取 (zh) |
owl:sameAs | freebase:Web scraping yago-res:Web scraping wikidata:Web scraping dbpedia-ar:Web scraping dbpedia-ca:Web scraping dbpedia-cs:Web scraping dbpedia-de:Web scraping dbpedia-es:Web scraping dbpedia-eu:Web scraping dbpedia-fr:Web scraping dbpedia-id:Web scraping dbpedia-is:Web scraping dbpedia-it:Web scraping dbpedia-ja:Web scraping http://lv.dbpedia.org/resource/Rasmošana dbpedia-nl:Web scraping dbpedia-pt:Web scraping dbpedia-ru:Web scraping dbpedia-tr:Web scraping dbpedia-uk:Web scraping dbpedia-zh:Web scraping https://global.dbpedia.org/id/4qe7A |
prov:wasDerivedFrom | wikipedia-en:Web_scraping?oldid=1119386562&ns=0 |
foaf:isPrimaryTopicOf | wikipedia-en:Web_scraping |
is dbo:genre of | dbr:Beautiful_Soup_(HTML_parser) dbr:UBot_Studio dbr:Data_Toolbar dbr:OutWit_Hub dbr:IMacros |
is dbo:service of | dbr:Diffbot |
is dbo:wikiPageRedirects of | dbr:Harvester_(web) dbr:Internet_scrape dbr:Web_Harvesting dbr:Web_scrapping dbr:Site_scraping dbr:Web_harvest dbr:Web_harvesting dbr:Web_scrape dbr:Web_scraper dbr:Web_scrapers dbr:Webscraping dbr:Website_scraping |
is dbo:wikiPageWikiLink of | dbr:Privacy_concerns_regarding_Google dbr:Python_(programming_language) dbr:Scrapy dbr:List_of_augmented_browsing_software dbr:Mirror_site dbr:Product_feed dbr:Beautiful_Soup_(HTML_parser) dbr:BibDesk dbr:BitClout dbr:Daybees_Search dbr:Hoan_Ton-That dbr:HtmlUnit dbr:Jsoup dbr:Regular_expression dbr:DALL-E dbr:Vaccine_Hunters_Canada dbr:Indian_Certificate_of_Secondary_Education dbr:Information_extraction dbr:Inside_Airbnb dbr:Openclipart dbr:List_of_online_music_databases dbr:SQL_injection dbr:Computer_Fraud_and_Abuse_Act dbr:QuickCode dbr:Clearview_AI dbr:Geni.com dbr:Google_Earth dbr:Google_Person_Finder dbr:Grams_(search) dbr:Grant_Shapps dbr:Bot_prevention dbr:MusicBee dbr:Contact_scraping dbr:Content_protection_network dbr:Crisis_mapping dbr:Criticism_of_Facebook dbr:Anna_Ridler dbr:Aptana dbr:Log4Shell dbr:Lynx_(web_browser) dbr:ProZ.com dbr:UBot_Studio dbr:Data_Toolbar dbr:Data_extraction dbr:Data_mining dbr:Data_scraping dbr:WSO2_Mashup_Server dbr:WebFetch dbr:Web_crawler dbr:Webjay dbr:Wiktionary dbr:Fusker dbr:Headless_browser dbr:Rate_limiting dbr:SpyFu dbr:2channel dbr:AI_Dungeon dbr:ASP.NET_Web_Forms dbr:Alternative_data_(finance) dbr:OutWit_Hub dbr:Parler dbr:Pastebin.com dbr:Diffbot dbr:Islamic_State_Hacking_Division dbr:List_of_SIMILE_projects dbr:Harvest_(disambiguation) dbr:Harvester_(web) dbr:Harvard_Bridge dbr:Hiroyuki_Nishimura dbr:Invidious dbr:Techmeme dbr:Craigslist_Inc._v._3Taps_Inc. dbr:HiQ_Labs_v._LinkedIn dbr:Wrapper_(data_mining) dbr:PolyAnalyst dbr:Social_media_mining dbr:Email-address_harvesting dbr:IMDb dbr:IMacros dbr:Instart dbr:Kodi_(software) dbr:Metadata dbr:Michael_Hanna_(judge) dbr:NewsDiffs dbr:Open_Syllabus_Project dbr:Search_engine_scraping dbr:Kiwicon dbr:Mashup_(web_application_hybrid) dbr:Social_media_optimization dbr:Scrape dbr:Scraper_site dbr:Web_data_integration dbr:Search_analytics dbr:Importer_(computing) dbr:List_of_web_testing_tools dbr:Organized_Crime_and_Corruption_Reporting_Project dbr:Spamdexing dbr:Ruzzo–Tompa_algorithm dbr:Popular_Science_Predictions_Exchange dbr:Oxylabs dbr:Yahoo!_SearchMonkey dbr:Veropedia dbr:Internet_scrape dbr:TheyWorkForYou dbr:Web_Harvesting dbr:Web_scrapping dbr:Site_scraping dbr:Web_harvest dbr:Web_harvesting dbr:Web_scrape dbr:Web_scraper dbr:Web_scrapers dbr:Webscraping dbr:Website_scraping |
is dbp:genre of | dbr:UBot_Studio dbr:Data_Toolbar dbr:OutWit_Hub |
is rdfs:seeAlso of | dbr:Applications_of_artificial_intelligence |
is foaf:primaryTopic of | wikipedia-en:Web_scraping |