Robots.txt inrichten voor webcrawlers

Gewijzigd op Do, 3 Feb, 2022 om 6:51 PM

Standaard Notatie

Een robots.txt bestand plaatst je in de webroot. In de meeste gevallen is dit /wordpress/current/
De inhoud van dit bestand zijn de User Agents (crawlers) die je wilt beheren, dan wel wilt blokkeren.
Verschillende crawlers luisteren naar verschillende commando's. Je kan hier geen standaard gebruik maken van Regular Expresions maar de volgende tekens worden breed ondersteund;

* = Wildcard
$ = Einde URL

De standaard notatie is als volgt;

User-agent: [user-agent naam]
Crawl-Delay: [aantal milliseconden vertraging per URL crawl]
Disallow: [URL string die niet gecrawled moet worden]

Voorbeelden van een robots.txt

Seekport Crawler voor de gehele website blokkeren. 

User-agent: Seekport 
Disallow: /

Yahoo (Slurp) beperken tot 120MS per crawl en de pagina /contact niet crawlen.

User-agent: Slurp
Crawl-Delay: 120
Disallow: /contact$

Alle PDF bestanden niet crawlen

User-agent: msnbot
Disallow: /uploads/*.pdf$

Meerdere URLS niet crawlen


User-agent: Slurp
Dissalow: /voorbeeld/$
Disallow: /contact/$
Disallow: /verborgen/$

Meerdere user agents beheren. (scheiden met een wit regel) 

User-agent: Ahrefsbot
Crawl-Delay: 120
Disallow: /contact$

User-agent: Googlebot
Crawl-Delay: 120
Disallow: /contact$

User-agent: Slurp
Crawl-Delay: 120
Disallow:/contact$

Was dit artikel nuttig?

Dat is fantastisch!

Hartelijk dank voor uw beoordeling

Sorry dat we u niet konden helpen

Hartelijk dank voor uw beoordeling

Laat ons weten hoe we dit artikel kunnen verbeteren!

Selecteer tenminste een van de redenen
CAPTCHA-verificatie is vereist.

Feedback verzonden

We stellen uw moeite op prijs en zullen proberen het artikel te verbeteren