Der wohl bekannteste Webcrawler ist der Googlebot. Er prüft Webseiten auf besonders häufig vorkommende Worte, verknüpft sie mit der URL und speichert dies als Indexierung ab. Auf Grundlage dieser Schlüsselwörter entscheiden Suchmaschinen dann, wer die beliebten oberen Plätze einer Suchanfrage ergattert. Doch neben den Suchmaschinen gibt es noch viele weitere Einsatzgebiete von Crawlern im Netz. Sie werden für unterschiedlichste Zwecke programmiert und durchsuchen das Internet. Der Begriff Crawler stammt von der ersten Suchmaschine für das Internet, dem Webcrawler. Weitere gängige Bezeichnungen sind Searchbot, Spider oder einfach nur Bot.
Einsatzgebiete der Crawler
Neben dem Einsatz in Suchmaschinen werden Crawler zum Beispiel genutzt, um Daten über Produkte und ihre Preise zu sammeln und dann auf Portalen für Preisvergleiche zur Verfügung zu stellen. Andere Webcrawler suchen nach statistischen Daten oder nach Nachrichten. Auch das sogenannte „Data Mining“ nutzt zur Mustererkennung in Datenbeständen Webcrawler, um nach persönlichen Daten wie E-Mail-Adressen oder Telefonnummern zu suchen, die öffentlich einsehbar sind. Das ist vor allem für Marketingzwecke von Bedeutung – fällt jedoch in eine rechtliche Grauzone.
Optimierung der Webseite
Damit eine Webseite mehr Besucher bekommt und beispielsweise in den Google-Suchergebnissen möglichst weit oben gelistet wird, lohnt es sich, diese auf Crawler zu optimieren. Wichtig zu wissen ist, dass ein Crawler pro Seite nur einen begrenzten Zeitraum und ein begrenztes Crawl-Budget zur Verfügung hat. Schon durch die Optimierung der Webseitenstruktur und der Navigation kann das Crawl-Budget besser ausgenutzt werden. Dazu zählt eine gute interne Verlinkung der Unterseiten, eine klare Struktur sowie die Anreicherung der Metadaten mit relevanten Daten. Auch umfangreichere Seiten werden häufiger von Crawlern besucht, da ihre Aktualität regelmäßiger geprüft wird. Zudem gilt: Je besser eine Webseite sich laden lässt, desto häufiger wird der Webcrawler sie aufsuchen. Dabei ist das zur Verfügung stehende Budget von der Relevanz einer Seite abhängig. Diese erhöht sich unter anderem durch eine Vielzahl eingehender Links und eine hohe Frequentierung.