Trust me i’m Googlebot – czy na pewno ?
Napisał: Patryk Krawaczyński
26/04/2014 w Ataki Internetowe Brak komentarzy. (artykuł nr 447, ilość słów: 404)
K
ażdy webdeveloper pragnie, aby Google odwiedziło jego stronę i zaindeksowało całą treść – i robiło to najczęściej, jak się to tylko da. W ten sposób Google uczy się, co nowego pojawiło się na indeksowanej stronie i daje możliwość wyszukiwania tych treści w swoich zasobach. Google używa do tego botów nazywanych “Googlebot“, które przeczesują miliony stron jednocześnie. Im częściej Googlebot odwiedza naszą stroną tym szybciej nowe treści będą dostępne w wynikach wyszukiwania tej wyszukiwarki. W związku z tym, niezwykle ważne jest, aby umożliwić Googlebotowi odwiedzanie stron internetowych bez blokowania i zakłócania jego pracy – specjaliści od SEM/SEO – wręcz nakażą Ci prawdziwe traktowanie Googlebotów – zresztą i innych botów wyszukiwarek jak V.I.P. Gdzie tu problem?
Problem leży w walidacji, kto jest prawdziwym Googlebotem, a kto tylko go udaje. Czasami bardzo łatwo wykryć fałszywe boty z dziwnie wyglądającymi klientami użytkownika, ale co z bardziej zaawansowanymi robotami? Google używa kilku user agentów [np. Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)] oraz dość szeroki (nie podany publicznie do wiadomości) zakres adresów IP. Strony dopuszczające Googleboty na “specjalnych” warunkach (o który w dalszej części) nie sprawdzają na bieżąco, czy adresy IP botów powiązane są z sieciami wyszukiwarek, a jedynie ciągi znaków tekstu występujące w polu User Agent.
Otwiera to prostą furtkę, która jest powiązana z zasadami, w jaki sposób traktowane są boty wyszukiwarek na niektórych stronach. Otóż wiele serwisów zawierających płatne treści – czytaj: dostępne dopiero po uiszczeniu opłaty lub treści wymagających rejestracji – czytaj: założeniu konta w celu pozyskania użytkowników i ich danych osobowych – aby dotrzeć i zachęcić swoich potencjalnych, przyszłych użytkowników – pozwala bez problemu indeksować takie treści robotom, aby te dały w wynikach wyszukiwarek smakowity kawałek treści z odnośnikiem – po kliknięciu, którego użytkownik dostaje na twarz konieczność wykonania odpowiedniej akcji, aby dostać się do upragnionej treści, która wydawała się na wyciągnięcie ręki.
A kto mieczem wojuje… Wystarczy w Google wpisać: “user agent switcher chrome” lub “user agent switcher firefox” i w parę sekund od instalacji wtyczek stajemy się Googlebotem lub innym botem dowolnej wyszukiwarki i mamy realne szanse dostania się do tych treści bez konieczności ponoszenia jakichkolwiek kosztów.
Więcej informacji: Googlebot User Agent Strings, How to verify Googlebot