Een webcrawler is hetzelfde als een zoekmachine spider. Een webcrawler is een bot die over het hele internet op een systematische manier een kopie maakt van elke pagina die ze tegenkomen. Vervolgens worden deze kopietjes door Google verwerkt en zitten ze in het nieuwe Google algoritme. Google doet dit om continue updates te realiseren. Hierdoor worden ook nieuwe pagina’s snel en goed geïndexeerd, zodat ze vindbaar zijn binnen Google.
Zoekmachine spider
De webcrawler wordt ook webspider of zoekmachine spider genoemd. De naam webcrawler komt uit het Engels. Het gaat over een spin (de bot) die continue over het (spinnen)web (het internet) kruipt.
Om ervoor te zorgen dat al jouw pagina’s worden geïndexeerd door de zoekmachine spider, is het belangrijk om een XML sitemap te maken. Door een XML sitemap te maken kan de spider ook pagina’s lezen die ‘verstopt’ zitten. Denk bijvoorbeeld aan een pagina die bereikt moet worden na een interactieve handeling. De spider voert geen interactieve handelingen uit en zal deze pagina dus niet indexeren. Als je een pagina juist niet wil indexeren, kan dat ook. Je hoeft simpelweg aan te geven dat een pagina niet geïndexeerd mag worden.