Robots.txt

Via robots.txt kunt u bepalen wat zoekmachines wel/niet mogen indexeren.

robots.txt is een bestandje dat zoekmachines lezen voordat ze de website gaan indexeren.
In het bestandje kunt u aangeven welke bestanden/directories wel of niet geïndexeerd mogen worden.

Zie 'Instellingen > Google... > Robots.txt'.

Het cms maakt standaard een 'leeg' robots.txt bestand aan. 'Leeg' in de zin dat het alle zoekmachines toegang geeft tot alle pagina's en bestanden:

# robots.txt for website (www.website.nl)

User-agent: *
Disallow:

Sitemap: http://www.website.nl/sitemap.xml

'User-agent: *' geeft aan dat elke zoekmachine toegang heeft. Voor elke zoekmachine kunt u een eigen User-agent-regel met Disallow-regels opnemen.
'Disallow: ' (zonder iets na de :) geeft aan dat er niets verboden wordt.
'Sitemap: http://www.website.nl/sitemap.xml' geeft aan waar de zoekmachine de sitemap kan ophalen.

Via "Instellingen > Google...", tab "Robots.txt" kunt u aangeven of u de standaard robots.txt van het cms wenst te gebruiken of zelf de inhoud van het robots.txt bestand wenst op te geven.

NB: verkeerde instellingen kunnen ertoe leiden dat de website helemaal niet meer geïndexeerd wordt door zoekmachines!

Het robots.txt bestand is overigens niet iets Google-specifieks. Alle zoekmachines lezen het robots.txt bestand.

Voorbeelden van regels in robots.txt

Wilt u bijvoorbeeld alle zoekmachines verbieden de map met handleidingen te indexeren, dan voegt u het (deel van) het pad toe aan de 'Disallow: ', bijvoorbeeld:

Disallow: /website/download/handleidingen

Bij meerdere mappen en/of documenten en pagina's dient u per uitsluiting een aparte Disallow-regel op te nemen:

Disallow: /website/download/handleidingen
Disallow: /website/contact.html

Wilt u een bepaalde zoekmachine toegang ontzeggen, neem dan weer een User-agent-regel op gevolgd door één of meerdere Disallow-regels:

User-agent: BadBot # vervang Badbot met de echte naam van de zoekmachine
Disallow: /  # ontzeg toegang tot de hele website

De zoekmachine van het cms heeft als User-agent naam 'xcms_search_engine'. Wilt u dus alle (publieke) zoekmachine buitensluiten maar wel de zoekmachine van het cms toegang verlenen, gebruik dan

User-agent: xcms_search_engine
Disallow: 

User-agent: *
Disallow: /

NB: de aanwijzingen in robots.txt zijn een verzoek aan zoekmachines. Het is dus niet bedoeld om via robots.txt bepaalde delen van de website te beveiligen! Malafide zoekmachines zullen een robots.txt bestand gewoon niet lezen en zoveel mogelijk van de website proberen te indexeren. Ook browsers doen niets met een robots.txt bestand.

Voor meer informatie en mogelijkheden zie: http://en.wikipedia.org/wiki/Robots.txt en http://www.robotstxt.org/