Je WordPress website met robots.txt optimaliseren voor SEO
4 (80%) 4 votes

Het robots.txt-bestand is een hele belangrijke manier om Google te vertellen wat ze wel en niet mogen benaderen. Naast Google ondersteunen alle grote zoekmachines de basisfunctionaliteit van dit instructiebestand. Het gebruik ervan is bedrieglijk eenvoudig en in dit artikel lees je wat je ermee kunt. Maar let op: een fout en je site kan verkeerd worden geïndexeerd.

Wat is robots.txt?

Het robots-bestand is een tekstbestand dat je (via FTP) in de hoofdmap van een domein plaatst. In het bestand staan stricte instructies bedoeld voor crawlers zoals van Google. Als Google op je website langs komt, kijkt de crawler als eerste of er een robots.txt bestand is. De crawler bepaalt vervolgens welke pagina’s van je website worden bezocht, en worden geïndexeerd door Google.

Je merkt al, dit bestand kan belangrijk zijn in je zoekmachine optimalisatie. Soms wil je immers dat pagina’s of onderdelen van je website niet worden gevonden door Google. Lees hierover in dit artikel dat ik eerder schreef.  Overigens, malware crawlers die naar veiligheidslekken zoeken, negeren het hulpbestand.

Je kunt wel:

  • Zoekmachines de toegang ontzeggen tot bepaalde secties
  • Duplicate content voorkomen
  • Zoekmachines efficiënter over je website te laten crawlen.

Hoe maak je een robots.txt bestand?

Een robots.txt bestand maken is makkelijk. Je opent je kladblok programma en je kunt instructies meegeven. Vervolgens sla je het bestand op met kleine letters (robots.txt) en niet met kapitalen (Robots.txt, Robots.TXT). Daarna plaats je het tekstbestand in de hoofdmap (‘root’) van je domein, meestal via FTP. De gebruikelijke hoofdmap is /www/jedomeinnaam.nl of public_html.

Zoekmachines vinden je robots.txt via https://www.jedomeinnaam.nl/robots.txt

Gebruik overigens altijd een robots.txt, ook als deze leeg is (en crawlers alles mogen bezoeken). Je kunt dataverkeer, 404-fouten (niet gevonden) en ellenlange error-logbestanden besparen als je een robots.txt uploadt. Zet hem er dus gewoon op, hoezeer het wat technische kennis vereist. (Onze websiteklanten ontzorgen we hierin: wij plaatsen altijd je robots.txt).

Welke instructies geef je mee?

Nu heb je een robots.txt bestand en je weet hoe je hem op je website zet. Maar welke instructies geef je mee.

User-agent, Disallow en Allow

User-agent staat voor de naam van de zoekmachine die bij je op bezoek komt. Disallow betekent instructies via je robots.txt om secties van je website uit te sluiten. De Googlebot kent ook inclusion regels. Daarmee geef je aan welke bestanden wel in de index mogen komen. Dat doe je met Allow.

  • VOORBEELD: Je wilt dat de crawler geen enkele pagina mag bezoeken. Dat is de instructie:

    Robots.txt: help Google je website bezoeken

    Robots.txt: help Google je website bezoeken

User-agent: *
Disallow: /

De regel User-agent: * geeft aan dat de instructies gelden voor alle crawlers en de regel Disallow: / geeft aan dat de crawler geen enkele pagina mag bezoeken. Vergeet niet de forward slash te gebruiken.

  • VOORBEELD: Je wilt dat de crawler alle bestanden in de hoofdmap en submappen mag bezoeken. Dan is dit de instructie:

User-agent: *
Disallow:

  • VOORBEELD: Je wilt dat de crawler de bestanden in specifieke mappen overslaat. Dan is dit de instructie:

User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /afbeeldingen/

In dit voorbeeld sta je niet toe dat een map met afbeeldingen, tmp en cgi-bin wordt geïndexeerd. De bestanden in andere mappen mogen wel worden bezocht.

  • VOORBEELD: Je wilt bepaalde malware bots uitsluiten. Dan is dit de (voorbeeld)instructie:

User-agent: BadBot
Disallow: /

In dit geval wordt BadBot uitgesloten. Iedere andere crawler heeft wel toegang.

  • VOORBEELD: Je wilt Google specifieke instructies meegegeven. Dan is dit de (voorbeeld)instructie:

User-agent: Google
Disallow: /underconstruction.html

In dit voorbeeld sta je Google niet toe het bestand underconstruction.html te bezoeken.

  • VOORBEELD: Je wilt bepaalde WordPress mappen op een specifieke manier (niet) laten bezoeken. Dit is dan de meest gebruikelijke instructie voor WordPress websites:

Disallow: /wp-admin/

Allow: /wp-admin/admin-ajax.php

Overigens, als je disallow: /wp-admin/  gebruikt, besef dan dat dit beperkte waarde heeft. De query inurl:wp-admin is geliefd bij kwaadwillenden om (de inlog) van je website toch te vinden.

  • VOORBEELD: Je wilt Google toegang geven tot alleen de map pdf-bestanden, maar andere mappen niet.

User-agent: Googlebot
Disallow: /
Allow: /pdf/

  • VOORBEELD: Je wilt bepaalde filters aanbrengen wat wel en niet mag worden bezocht. Dan kan bijvoorbeeld handig zijn voor webwinkels:

# Filters
Disallow: /*maat=
Disallow: /*categoriel=
Disallo: /*pc-accesories=

Voor- en nadelen van robots.txt voor je zoekmachineoptimalisatie (SEO)

Iedere site heeft een ‘toelage’ van het aantal pagina’s dat een zoekmachine crawler gebruikt. Als je bepaalde delen blokkeert, kan je deze toelage voor andere secties worden gebruikt. Dat kan handig zijn voor de plekken waar je je SEO wilt opschonen.

Nadeel is dat met het robots.txt bestand je Google niet kunt instrueren om bepaalde URL’s niet te laten zien in de zoekresultaten. Dat betekent dat de robot.txt door Google kan worden omzeild. Bijvoorbeeld als de crawler genoeg (externe) links vindt naar een bepaalde pagina op je site, dan wordt die gewoon getoond in Google.

Testen door Google

Je kunt een robots.txt tester tool van Google gebruiken om te zien hoe Google je website bezoekt.

Tot slot enkele aandachtspunten

De volgende punten worden vaak over het hoofd gezien als je voor je SEO met robots.txt aan de slag gaan.

  • Iedereen kan bij je robots.txt-bestand. Omdat het bestand openbaar staat, zorg dat je geen persoonlijke of geheime informatie opslaat. Mappen als /geheim, /secret /inloggen kun je beter niet opnemen in je tekstbestand
  • Robots.txt is niet verplicht: Als je niet weet hoe je invulling moet geven aan het hulpbestand, doe het dan niet zelf en besteed het uit.
  • Externe links kunnen je instructies negeren. Als andere sites naar delen van je site verwijzen die je uitsluit kan Google deze alsnog indexeren.
  • Sitemaps kun je opnemen in je robots.text, maar het is beter deze handmatig toe te voegen via Google Search Console. Je bent dan niet afhankelijk van de momenten dat de crawler op je site komt: je kunt zelf Google de instructie geven opnieuw langs te komen.
  • Wees voorzichtig met de juiste instructies, maar wees ook niet bang om het te gebruiken.
  • Lees ook de richtlijnen van Google over robots.txt bestanden.
  • Robots.txt is vooral op de achtergrond actief. Meta robots helpen crawlers op je pagina met instructies als index/noindex en follow/nofollow. Hoe dat precies werkt, lees je in dit artikel.

 

Delen in je netwerk: Share on FacebookTweet about this on TwitterShare on LinkedInShare on Google+Pin on PinterestBuffer this pageEmail this to someone