Weryfikowanie Googlebota i innych robotów Google | Centrum wyszukiwarki Google  |  Dokumentacja  |  Google for Developers (original) (raw)

Możesz sprawdzić, czy robot uzyskujący dostęp do Twojego serwera to naprawdę robot Google (taki jak Googlebot). Procedura ta jest przydatna wtedy, gdy obawiasz się, że z Twojej witryny mogą korzystać spamerzy lub inni oszuści podający się za Googlebota.

Roboty Google dzielą się na 3 kategorie:

Typ Opis Odwrotne maskowanie DNS Zakresy adresów IP
Googlebot Główny robot indeksujący w wyszukiwarce Google. Zawsze przestrzega reguł zawartych w pliku robots.txt. crawl-***-***-***-***.googlebot.com lubgeo-crawl-***-***-***-***.geo.googlebot.com googlebot.json
Roboty specjalne Roboty wykonujące określone funkcje (np. AdsBot), które mogą przestrzegać reguł zawartych w pliku robots.txt (ale nie muszą). rate-limited-proxy-***-***-***-***.google.com special-crawlers.json
Moduły pobierania uruchamiane przez użytkownika Narzędzia i funkcje usług, w przypadku których użytkownik uruchamia pobieranie. Na przykład robot Google do weryfikacji witryn działa na żądanie użytkownika. Żądanie pobierania pochodzi od użytkownika, dlatego moduły te ignorują reguły zawarte w pliku robots.txt.Moduły pobierania kontrolowane przez Google pochodzą z adresów IP w obiekcie user-triggered-fetchers-google.json i kierują do nazwy hosta google.com. Adresy IP w obiekcie user-triggered-fetchers.json odnoszą się do nazw hostów gae.googleusercontent.com. Te adresy IP są używane na przykład wtedy, gdy witryna uruchomiona w Google Cloud (GCP) ma funkcję, która wymaga pobierania zewnętrznych kanałów RSS na żądanie użytkownika tej witryny. ***-***-***-***.gae.googleusercontent.com lubgoogle-proxy-***-***-***-***.google.com user-triggered-fetchers.json i user-triggered-fetchers-google.json

Istnieją 2 sposoby weryfikowania robotów Google:

Używanie narzędzi wiersza poleceń

  1. Uruchom odwrotne wyszukiwanie DNS adresu IP, który jest w Twoich dziennikach oznaczony jako nawiązujący połączenie, przy użyciu polecenia host.
  2. Sprawdź, czy nazwa domeny to googlebot.com, google.com lubgoogleusercontent.com.
  3. Przeprowadź zwykłe wyszukiwanie DNS nazwy domeny odczytanej w kroku 1 przy użyciu polecenia host.
  4. Sprawdź, czy nazwa jest taka sama jak adres, który zgodnie z informacjami w dziennikach nawiązywał połączenie.

Przykład 1:

host 66.249.66.1 1.66.249.66.in-addr.arpa domain name pointer crawl-66-249-66-1.googlebot.com.

host crawl-66-249-66-1.googlebot.com crawl-66-249-66-1.googlebot.com has address 66.249.66.1

Przykład 2:

host 35.247.243.240 240.243.247.35.in-addr.arpa domain name pointer geo-crawl-35-247-243-240.geo.googlebot.com.

host geo-crawl-35-247-243-240.geo.googlebot.com geo-crawl-35-247-243-240.geo.googlebot.com has address 35.247.243.240

Przykład 3:

host 66.249.90.77 77.90.249.66.in-addr.arpa domain name pointer rate-limited-proxy-66-249-90-77.google.com.

host rate-limited-proxy-66-249-90-77.google.com rate-limited-proxy-66-249-90-77.google.com has address 66.249.90.77

Korzystanie z rozwiązań automatycznych

Możesz zidentyfikować Googlebota po adresie IP, szukając go na liście zakresów adresów IP robotów i modułów pobierania Google:

W przypadku pozostałych adresów IP Google, z których można uzyskać dostęp do Twojej witryny (na przykład przez skrypty Apps Script), znajdź uzyskujący dostęp adres IP na ogólnej liście adresów IP Google. Uwaga: adresy IP w plikach JSON są przedstawione w formacie CIDR.