Inhoud

De index

Het opslaan van gegevens over miljarden pagina's in geen geringe klus. Zelfs niet voor een partij hypersnelle computers. Een index van een grootte zoekmachine wordt dan ook verzorgd door (tien)duizenden servers. Maar wat wordt er nu precies opgeslagen en hoe? Een zoekmachine bepaalt bij een zoekopdracht de relevantie van de resultaten en zet de meest relevante resultaten bovenaan. Om zo'n relevantie-bepaling te maken slaat een zoekmachine meer op dan alleen een lijst met representatieve woorden van een pagina.

  • Een zoekmachine houdt ook 'meta-informatie' bij over woorden. Bijvoorbeeldde plaatswaar een woord gevonden is op de pagina, of het woord dik gedrukt was, of het in een kop stond. Daarnaast wordt opgeslagen hoe vaak een woord voorkomt (frequentie).
  • Een zoekmachine kan kijken naar de 'meta-tags'. Dit zijn speciale stukjes in een webpagina waarbinnen je steekwoorden kunt opgeven en een beschrijving van de pagina. Niet alle zoekmachines kijken echter naar meta-tags, aangezien het misbruiken van deze tags heel makkelijk is. Bij een zoekmachine die meta-tags zwaar laat meewegen is het makkelijk om bovenaan te komen op een onderwerp dat niets met de pagina te maken heeft, simpelweg door de juiste steekwoorden en omschrijving in de meta-tags te plaatsen. Google bijvoorbeeld houdt om deze reden geen rekening met meta tags.
  • Een zoekmachine kan kijken naar factoren die buiten de pagina liggen. Bijvoorbeeld: hoe populair is deze pagina op internet? Wordt er veel gelinkt naar deze pagina? Etc.

Elke zoekmachine gebruikt een ander recept (een alghoritme) voor het samenvatten en beoordelen van pagina's, maar het idee is altijd gebaseerd op bovenstaande voorbeelden. Het uiteindelijke alghoritme dat een zoekmachine gebruikt voor het indexeren en beoordelen van een pagina is vrij ingewikkeld en heeft veel variabelen. Het is daarom altijd een beetje gokken wat een zoekmachine graag wil zien. Hoe vaker je probeert, hoe meer je te weten komt. Er zijn op internet talloze sites en fora waarzoekmachine optimalisatiebesproken wordt.

Zoekmachines delen ook strafpunten uit aan pagina's waarvan 'fraude' vermoed wordt. Bestaat de helft van een pagina uit het woord "vakantie" dan kun je er vanuit gaan dat die pagina strafpunten krijgt en dus lager eindigt dan andere pagina's of dat-ie zelfs helemaal niet opgenomen wordt in de index van de zoekmachine.

Het werkelijke opslaan van de gegevens van een pagina gebeurt op twee manieren. Ten eerste wordt alles letterlijk opgeslagen en daarnaast wordt er een 'hash table' gemaakt. Bij hashen wordt er aan elk woord een numerieke waarde toegekend, deze informatie wordt bewaard in een zogeheten hash table. Het zoeken in een hash table gaat veel sneller dan het zoeken in letterlijke woorden. Daardoor is het mogelijk om in zoveel pagina's snel een selectie relevante pagina's te vinden.