Robot.txt
Wellicht heb je er wel eens van gehoord, de robots.txt files. Hoe werkt deze nu en wat
kun je ermee? Met name zij dit soort files bedoeld voor zoekmachines. Je kunt ermee
aangeven of ze bepaalde informatie moeten overslaan.
Handige links:
→ Overzicht robots
→ Google’s Robot
Zoekmachines maken gebruik van zogenaamde web-crawling robots. Deze robots
doorzoeken en indexeren websites voor deze zoekmachines. Wellicht is het bij sommige
pagina’s niet de bedoeling dat ze worden gevonden. Daarvoor maak je een robots.txt bestand
aan. Zo’n bestand maak je gewoon in een tekst-editor en sla je dus op als
tekstbestand, met .txt als uitgang. Als je het bestand dan upload naar je webruimte (gewoon
in de hoofdmap plaaten) dan is het voldoende.
Om je een idee te geven hoe het werkt, volgt hier een voorbeeld. Dit voorbeeld zullen we daarna
dan toelichten.
User-agent:*
Disallow: /geheim
Disallow: /tmp
Disallow: /logs
User-agent: Googlebot-image
Disallow: /images
In de bovenstaande code wordt aan alle robots, gemerkt door een * te gebruiken, verteld
dat ze de mappen geheim, tmp en logs niet mogen doorzoeken. De robot
Googlebot-image wordt ook nog eens verteld dat de map images niet gescand dient te worden.