Inhoud

Zoekmachine spiders

Om interessant te blijven moet een zoekmachine constant nieuwe pagina's of nieuwe versies van bestaande pagina's aangeleverd krijgen. Dit is het werk van zoekmachine spiders. Zoekmachine spiders volgens links op het World Wide Web en komen zo steeds nieuwe pagina's tegen die aan de index toegevoegd kunnen worden. Is een pagina eenmaal geïndexeerd dan komt de spider regelmatig terug om te kijken of de pagina veranderd is. Zo blijft de index actueel. Een pagina hoeft overigens niet per se via een link gevonden te worden. Veel zoekmachines geven je ook de mogelijkheid om zelf pagina's aan te melden.

De informatie die een spider van een pagina 'grijpt' verschilt per zoekmachine. Je kunt als spider zijnde elk woord op de pagina pakken, maar vaak is het beter om woorden als bijvoorbeeld 'een', 'de' en 'het' niet mee te nemen. Deze woorden zijn weinig relevant voor het onderwerp van de pagina en woorden heel veel gebruikt. Bovendien indexeren niet alle spiders de hele pagina. Sommige kijken alleen naar de eerste zoveel woorden. De ene spider besteedt wel aandacht aan metatags (later meer hierover) en andere niet.

Je mag verwachten dat een spider begint met zijn zoektocht op een populaire site. Van daaruit waaiert de spider uit naar de verschillende links die hij vindt. Spiders van grote zoekmachines kunnen honderden pagina's tegelijk afzoeken en dat 24 uur per dag. Dat is ook wel nodig, want het web is enorm en er komen per dag miljoenen pagina's bij.

Je vraagt je misschien af hoe je nu een spider kunt 'zien' of meemaken. De zoekmachine spider is onder andere herkenbaar aan zijn "user agent string". De user agent string is een klein zinnetje dat je kunt terugvinden in de log bestanden van de webserver. Zo ziet bijvoorbeeld een bezoekje van Yahoo's spider genaamd "Slurp" eruit.68.142.249.171 - - [07/May/2005:04:54:26 +0200] "GET /begrippenlijst.php HTTP/1.0" 200 25695 "-" "Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp)"

Yahoo's Slurp bezocht hier de pagina begrippenlijst.php. Je ziet dat Slurp te herkennen is aan het laatste deel van de request, de user agent string. Overigens laten niet alleen zoekmachine spiders deze informatie achter bij het bezoeken van een pagina. Elke keer dat er een pagina opgevraagd wordt, wordt deze informatie opgeslagen, dus ook bij een normale menselijke bezoeker. Een menselijke bezoekers is echter niet te onderscheiden aan de user agent, maar eerder aan het unieke IP adres helemaal aan het begin van de request.

Spiders zijn een essentiëel onderdeel van het world wide web. Spiders kunnen aan de hand van criteria elke informatie van het web halen die de maker voor ogen heeft. Zo bestaan er gespecialiseerde spiders die alleen informatie rond een bepaald onderwerp zoeken. Niet elke spider hoeft per se gewenst te zijn op een website. Spiders van een Amerikaanse of Franse zoekmachine zijn voor een Nederlandse site bijvoorbeeld al minder interessant. Bovendien zijn niet alle spiders even vriendelijk. Er bestaan veel kwaadaardige 'bots' (soort spider) die bijvoorbeeld email adressen van de pagina halen om spam naar te versturen. Je kunt bepaalde spiders en bots weren van een site of juist toegang verlenen door een bestandje genaamd 'robots.txt' op de webserver te zetten. Hierin kun je op basis van de user agent spiders en bots blokkeren of juist toegang verlenen.