Robots.txt inrichten voor webcrawlers

Gewijzigd op Do, 3 Feb, 2022 om 6:51 PM

Standaard Notatie

Een robots.txt bestand plaatst je in de webroot. In de meeste gevallen is dit /wordpress/current/
De inhoud van dit bestand zijn de User Agents (crawlers) die je wilt beheren, dan wel wilt blokkeren.
Verschillende crawlers luisteren naar verschillende commando's. Je kan hier geen standaard gebruik maken van Regular Expresions maar de volgende tekens worden breed ondersteund;

* = Wildcard
$ = Einde URL

De standaard notatie is als volgt;

User-agent: [user-agent naam]
Crawl-Delay: [aantal milliseconden vertraging per URL crawl]
Disallow: [URL string die niet gecrawled moet worden]

Voorbeelden van een robots.txt

Seekport Crawler voor de gehele website blokkeren.

User-agent: Seekport 
Disallow: /

Yahoo (Slurp) beperken tot 120MS per crawl en de pagina /contact niet crawlen.

User-agent: Slurp
Crawl-Delay: 120
Disallow: /contact$

Alle PDF bestanden niet crawlen

User-agent: msnbot
Disallow: /uploads/*.pdf$

Meerdere URLS niet crawlen

User-agent: Slurp
Dissalow: /voorbeeld/$
Disallow: /contact/$
Disallow: /verborgen/$

Meerdere user agents beheren. (scheiden met een wit regel)

User-agent: Ahrefsbot
Crawl-Delay: 120
Disallow: /contact$

User-agent: Googlebot
Crawl-Delay: 120
Disallow: /contact$

User-agent: Slurp
Crawl-Delay: 120
Disallow:/contact$