Robots Exclusion Protocol - Google

Robots Exclusion Protocol

Z Wikipedii

(Przekierowano z Robots.txt)
Skocz do: nawigacji, szukaj

Robots Exclusion Protocol to mechanizm informowania automatów o tym, czego nie powinny robić na stronie WWW.

Dotyczy to przede wszystkim działających automatycznie programów indeksujących serwisy WWW dla wyszukiwarek, które podążając za hiperłączami indeksują całą zawartość danego serwisu do katalogu wyszukiwarki, ale również programów innego typu, np. automatycznych mirrorów.

Robots Exclusion Protocol jest systemem honorowym i jedynie informuje o odpowiednim zachowaniu, nie wymusza go zaś w żaden sposób. System ten jest generalnie przestrzegany, gdyż w niczyim interesie nie leży łamanie jego zasad.

Spis treści

[edytuj] Powody stosowania

  • Czasem pobranie jakiejÅ› strony powoduje wywoÅ‚anie jakiejÅ› akcji, np. oddanie gÅ‚osu w sondażu (Å›ciÅ›le interpretujÄ…c standardy, wszystkie tego typu akcje powinny odbywać siÄ™ za pomocÄ… formularzy i metody POST, nie linków i GET, nie jest to jednak powszechnie przestrzegane).
  • Niechęć autora do tego, żeby dana strona byÅ‚a indeksowana w wyszukiwarkach, gdyż nie wnosi ona żadnej nowej treÅ›ci do ich bazy. Tak jest m.in. ze stronami edycji na Wikipedii, np.:
http://pl.wikipedia.org/w/wiki.phtml?title=Robots_Exclusion_Protocol&action=edit
  • Duże obciążenie serwera w zwiÄ…zku z generacjÄ… strony oraz zwykłą niechęć do tego, żeby byÅ‚a ona w bazach wyszukiwarek. Niektóre strony internetowe z różnych przyczyn wolÄ… pozostać poza wyszukiwarkami, lub pozwalajÄ… na indeksowanie tylko swojej strony głównej.

IstniejÄ… dwa mechanizmy Robots Exclusion Protocol: robots.txt i meta-tagi

[edytuj] robots.txt

Najważniejszym mechanizmem jest plik robots.txt umieszczony w katalogu głównym serwera. Zgodnie ze standardem Robots Exclusion Protocol, robots.txt to plik składający się z:

  • komentarzy zaczÄ™tych od #
  • rekordów oddzielonych pustymi liniami
    • rekord skÅ‚ada siÄ™ z pól Nazwa: Wartość
      • jednego pola User-agent
      • pól Disallow

Pole User-agent oznacza jakich programów dany rekord dotyczy. Pola Disallow to prefiksy URLi, których ściągać nie wolno.

Pole User-agent: * dotyczy wszystkich nie wymienionych w innych rekordach programów.

Niektóre boty rozumieją też inne pola, np. ograniczające ilość pobrań ze strony na minutę.

[edytuj] Przykłady

Cała witryna będzie indeksowana przez roboty (tak jakby nie było pliku robots.txt):

User-agent: *
Disallow:

Cała witryna nie będzie indeksowana:

User-agent: *
Disallow: /

Indeksowane nie będą tylko foldery "images" i "private" w katalogu głównym strony:

User-agent: *
Disallow: /images/
Disallow: /private/

Indeksowany nie będzie tylko plik "file" w katalogu "directory":

User-agent: *
Disallow: /directory/file.html

[edytuj] Meta-tagi

Jest też możliwe podawanie w tagach HTML: <meta name="robots" contents="X">, gdzie X to:

  • noindex – nie indeksuj strony
  • nofollow – nie podążaj za linkami na stronie
  • noarchive – nie archiwizuj strony w cache

X może być złożone z jednego, dwóch lub trzech powyższych słów rozdzielonych przecinkiem (np. noindex,nofollow,noarchive), przy czym dopuszczalne jest też użycie słowa none jako odpowiednika noindex,nofollow.

Meta-tagi wymagają analizy HTMLa więc są uznawane o wiele rzadziej niż robots.txt


"Prawo nie nadąża za rozwojem mediów"
Polskie regulacje prawne nie nadążają za rozwojem nowych mediów - taką opinię wyrazili eksperci podczas debaty publicznej "Nowe media a prawo".
Gazeta oznaczyła psie odchody na Polu Mokotowskim
Bezpłatny dwudnik "Echo Miasta" (Media4Mat) przeprowadził w sobotę na warszawskim Polu Mokotowskim akcję "Zobacz, co robi Twój pies".
Antyradio znowu zmienia poranny program
Od dziś poranne pasmo w sieci Antyradio (Eurozet) prowadzi Mariusz Smolarek. To trzecia zmiana w tym programie od pół roku.
"Telewizja Puls przyspiesza o godzinÄ™"
W sobotę ruszyła kampania pod hasłem "Telewizja Puls przyspiesza o godzinę".
Sondaż: TVN inteligentne, TV Trwam aroganckie
TVN to najinteligentniejsze i najbardziej odpowiedzialne spoÅ‚ecznie medium, a Radio Maryja – najbardziej aroganckie – wynika z badaÅ„ firmy BAV Consulting.
Linki: Strona g³ówna