Was ist robots.txt?

Die Datei robots.txt wird in erster Linie verwendet, um festzulegen, welche Teile Ihrer Website von Spidern oder Webcrawlern gecrawlt werden sollen. Sie kann unterschiedliche Regeln für verschiedene Spider festlegen.

Googlebot ist ein Beispiel für einen Spider. Er wird von Google eingesetzt, um das Internet zu durchforsten und Informationen über Websites aufzuzeichnen, damit das Unternehmen weiß, wie hoch die verschiedenen Websites in den Suchergebnissen eingestuft werden sollen.

Die Verwendung einer robots.txt-Datei auf Ihrer Website ist ein Webstandard. Spider suchen nach der robots.txt-Datei im Host-Verzeichnis (oder Hauptordner) Ihrer Website. Diese Textdatei trägt immer den Namen "robots.txt". Sie können Ihre robots.txt-Datei finden, indem Sie zu:

ihrewebsite.de/robots.txt

Die meisten normalen Spider halten sich an die Anweisungen in den robots.txt-Dateien, aber bösartige Spider möglicherweise nicht. Der Inhalt der robots.txt-Dateien ist öffentlich zugänglich. Sie können versuchen, unerwünschte Spider zu sperren, indem Sie die .htaccess-Datei für Ihre Website bearbeiten.

Es ist wichtig, dass Vermarkter ihre robots.txt-Datei überprüfen, um sicherzustellen, dass Suchmaschinen zum Crawlen wichtiger Seiten eingeladen werden. Wenn Sie Suchmaschinen bitten, Ihre Website nicht zu crawlen, wird Ihre Website nicht in den Suchergebnissen erscheinen.

Sie können die Datei robots.txt auch verwenden, um Spidern mitzuteilen, wo eine Sitemap Ihrer Website zu finden ist, die Ihre Inhalte besser auffindbar macht.

Sie können auch eine Crawl-Verzögerung festlegen, d. h. wie viele Sekunden die Robots warten sollen, bevor sie weitere Informationen sammeln. Bei einigen Websites kann diese Einstellung erforderlich sein, wenn die Bots die Bandbreite verbrauchen und die Website dadurch für menschliche Besucher langsamer lädt.

‍

Beispiel für eine Robots.txt-Datei

Die folgenden Angaben könnten in einer robots.txt-Datei enthalten sein:

Benutzer-Agent: *
Disallow: /ebooks/*.pdf
Disallow: /verzeichnisse/

Benutzer-Agent: Googlebot-Bilder
Disallow: /images/

Hier ist die Bedeutung jeder Zeile in einfachem Deutsch.

User-Agent: * - Die erste Zeile erklärt, dass die folgenden Regeln von allen Web-Crawlern befolgt werden sollten. Das Sternchen steht in diesem Zusammenhang für alle Spider.

Disallow: /ebooks/*.pdf - In Verbindung mit der ersten Zeile bedeutet dieser Link, dass alle Webcrawler keine PDF-Dateien im Ordner ebooks auf dieser Website crawlen sollen. Das bedeutet, dass Suchmaschinen diese direkten PDF-Links nicht in die Suchergebnisse aufnehmen werden.

Disallow: /staging/ - In Verbindung mit der ersten Zeile fordert diese Zeile alle Crawler auf, keine Inhalte im Staging-Ordner der Website zu crawlen. Dies kann hilfreich sein, wenn Sie einen Test durchführen und nicht möchten, dass die bereitgestellten Inhalte in den Suchergebnissen erscheinen.

User-Agent: Googlebot-Image - Dies erklärt, dass die folgenden Regeln nur von einem bestimmten Crawler befolgt werden sollten, dem Google Image Crawler. Jeder Spider verwendet einen anderen "User-Agent"-Namen.

Disallow: /images/ - In Verbindung mit der unmittelbar darüber liegenden Zeile wird der Google-Images-Crawler aufgefordert, keine Bilder aus dem Ordner images zu crawlen.

‍