Een robots.txt bestand plaatst je in de webroot. In de meeste gevallen is dit /wordpress/current/
De inhoud van dit bestand zijn de User Agents (crawlers) die je wilt beheren, dan wel wilt blokkeren.
Verschillende crawlers luisteren naar verschillende commando's. Je kan hier geen standaard gebruik maken van Regular Expresions maar de volgende tekens worden breed ondersteund;
* = Wildcard
$ = Einde URL
De standaard notatie is als volgt;
User-agent: [user-agent naam] Crawl-Delay: [aantal milliseconden vertraging per URL crawl] Disallow: [URL string die niet gecrawled moet worden]
Seekport Crawler voor de gehele website blokkeren.
User-agent: Seekport Disallow: /
Yahoo (Slurp) beperken tot 120MS per crawl en de pagina /contact niet crawlen.
User-agent: Slurp Crawl-Delay: 120 Disallow: /contact$
Alle PDF bestanden niet crawlen
User-agent: msnbot Disallow: /uploads/*.pdf$
Meerdere URLS niet crawlen
User-agent: Slurp Dissalow: /voorbeeld/$ Disallow: /contact/$ Disallow: /verborgen/$
Meerdere user agents beheren. (scheiden met een wit regel)
User-agent: Ahrefsbot Crawl-Delay: 120 Disallow: /contact$ User-agent: Googlebot Crawl-Delay: 120 Disallow: /contact$ User-agent: Slurp Crawl-Delay: 120 Disallow:/contact$
Was dit artikel nuttig?
Dat is fantastisch!
Hartelijk dank voor uw beoordeling
Sorry dat we u niet konden helpen
Hartelijk dank voor uw beoordeling
Feedback verzonden
We stellen uw moeite op prijs en zullen proberen het artikel te verbeteren