################################################################################ # Nach der Übereinkunft des Robots Exclusion Standard-Protokolls liest ein # Webcrawler (Robot) beim Auffinden einer Webseite zuerst die Datei robots.txt # (kleingeschrieben) im Stammverzeichnis (Root) einer Domain. In dieser Datei # kann festlegt werden, ob und wie die Webseite von einem Webcrawler besucht # werden darf. Website-Betreiber haben so die Möglichkeit, ausgesuchte Bereiche # ihrer Webpräsenz für (bestimmte) Suchmaschinen zu sperren # Die Datei robots.txt ist eine Textdatei in einem einfachen, sowohl # von Menschen als auch maschinenlesbaren Format. Jede Zeile kann als # Datensatz aus zwei, durch einen Doppelpunkt getrennten Feldern # aufgefasst werden. Die erste Zeile bestimmt den Webcrawler # (hier: User-agent), an den sich die darauf folgenden Verbots-Anweisungen # (Disallow) richten. Es darf beliebig viele solcher Blöcke geben. # Webcrawler lesen die Datei von oben nach unten und halten an, wenn sich # eine Angabe auf sie bezieht. Ein Webcrawler würde also bei dem Eintrag # User-agent: *, der alle Webcrawler anspricht, stoppen, ohne bis zu dem # Eintrag weiterzugehen, der extra für ihn angelegt wurde. Für jede URL, # die ausgeschlossen ist, existiert eine eigene Zeile mit dem Disallow-Befehl. # Leerzeilen sind nur oberhalb von User-agent-Zeilen erlaubt. Sie trennen die # Blöcke voneinander. Einzeilige, mit einem Rautenzeichen (#) beginnende # Kommentare sind an jeder Stelle möglich. Sie dienen der Übersichtlichkeit # und werden vom Webcrawler ignoriert. # Quelle: http://de.wikipedia.org/wiki/Robots.txt ################################################################################ # Alle folgenden User-agents haben Hausverbot! # Warum? Ganz einfach. Darum! ;-) ################################################################################ User-agent: ActiveAgent User-agent: aconon Index User-agent: Akregator User-agent: Akregator/1.2.2; librss/remnants User-agent: Aqua_Products User-agent: asterias User-agent: b2w User-agent: b2w/0.1 User-agent: BackDoorBot User-agent: BackDoorBot/1.0 User-agent: BlowFish User-agent: BlowFish/1.0 User-agent: Bitacle User-agent: Bitacle bot User-agent: Bitacle bot/1.1 User-agent: Biz360 spider User-agent: Blaiz-Bee User-agent: Blaiz-Bee/2.00.5622 (+http://www.blaiz.net) User-agent: Bookmark search tool User-agent: BotALot User-agent: Bullseye User-agent: Bullseye/1.0 User-agent: BuiltBotTough User-agent: BunnySlippers User-agent: CheeseBot User-agent: CherryPicker User-agent: CopyRightCheck User-agent: core-project/1.0 User-agent: cosmos User-agent: Crescent User-agent: Crescent Internet ToolPak HTTP OLE Control v.1.0 User-agent: CherryPickerSE/1.0 User-agent: CherryPickerElite/1.0 User-agent: DittoSpyder User-agent: DOC User-agent: Download Ninja User-agent: e-SocietyRobot User-agent: EmailCollector User-agent: EmailSiphon User-agent: EmailWolf User-agent: EroCrawler User-agent: Exabot User-agent: Exabot/3.0 User-agent: ExtractorPro User-agent: FairAd Client User-agent: Fetch User-agent: Flaming AttackBot User-agent: focused_crawler User-agent: Foobot User-agent: Gaisbot User-agent: GetRight User-agent: GetRight/4.2 User-agent: grub-client User-agent: grub User-agent: Harvest User-agent: Harvest/1.5 User-agent: hloader User-agent: httplib User-agent: HTTrack User-agent: humanlinks User-agent: InfoNaviRobot User-agent: Internet Explorer 6.0 User-agent: Iron33 User-agent: Iron33/1.0.2 User-agent: IsraBot User-agent: Java User-agent: Java/1.5.0_03 User-agent: Java/1.5.0_06 User-agent: JennyBot User-agent: Jyxobot/1 User-agent: k2spider User-agent: Keyword Density User-agent: Keyword Density/0.9 User-agent: Kenjin Spider User-agent: Krugle User-agent: larbin User-agent: LexiBot User-agent: LNSpiderguy User-agent: libwww-perl User-agent: libwww-perl/5.65 User-agent: libwww-perl/5.76 User-agent: libwww-perl/5.79 User-agent: libwww-perl/5.803 User-agent: libwww-perl/5.805 User-agent: libWeb/clsHTTP User-agent: LinkextractorPro User-agent: LinkScan/8.1a Unix User-agent: LinkWalker User-agent: linko User-agent: looksmart User-agent: lwp-trivial/1.34 User-agent: lwp-trivial/1.41 User-agent: lwp-trivial User-agent: Mata Hari User-agent: MSIECrawler User-agent: MIIxpc User-agent: MIIxpc/4.2 User-agent: Microsoft URL Control User-agent: Microsoft URL Control - 5.01.4511 User-agent: Microsoft URL Control - 6.00.8169 User-agent: Microsoft URL Control - 6.00.8862 User-agent: Mister PiX User-agent: moget User-agent: moget/2.1 User-agent: mozilla User-agent: Mozilla/3.0 (compatible; Indy Library) User-agent: Mozilla/4.0 (compatible; BullsEye; Windows 95) User-agent: Mozilla/4.0 (compatible; Netcraft Web Server Survey) User-agent: Mozilla/5.0 User-agent: MSRBOT User-agent: MSRBOT (http://research.microsoft.com/research/sv/msrbot/) User-agent: NECBot User-agent: NECBot/1.0 (NEC Labs America) User-agent: NetMechanic User-agent: NetAnts User-agent: NetAnts/1.25 User-agent: nfue4lyf jors4pluwhg User-agent: nic.de.ki Spider * http://nic.de.ki/ User-agent: NICErsPRO User-agent: NPBot User-agent: Offline Explorer User-Agent: OmniExplorer_Bot User-agent: Openbot User-agent: Openfind data gathere User-agent: Openfind User-agent: Oracle Ultra Search User-agent: Orthogaffe User-agent: PerMan User-agent: PMAFind User-agent: pmafind User-agent: ProWebWalker User-agent: ProPowerBot/2.14 User-agent: psbot User-agent: Python-urllib User-agent: QueryN Metasearch User-agent: Radiation Retriever 1.1 User-agent: RepoMonkey Bait & Tackle/v1.01 User-agent: RepoMonkey User-agent: RMA User-agent: Roverbot User-agent: searchpreview User-agent: seekbot User-agent: sitecheck.internetseer.com User-agent: SiteSnagger User-agent: Snoopy User-agent: Snoopy v1.2 User-agent: So-net RSS Crawler User-agent: SpankBot User-agent: spanner User-agent: svchost User-agent: suzuran User-agent: Szukacz/1.4 User-agent: Teleport User-agent: TeleportPro User-agent: Telesoft User-agent: TheNomad User-agent: The Intraformant User-agent: toCrawl/UrlDispatcher User-agent: topicblogs/0.9 User-agent: True_Robot/1.0 User-agent: True_Robot User-agent: turingos User-agent: UbiCrawler User-agent: Urchin User-agent: URL_Spider_Pro User-agent: URL Control User-agent: URLy Warning User-agent: VCI WebViewer VCI WebViewer Win32 User-agent: VCI User-agent: WebAuto User-agent: WebBandit/3.50 User-agent: WebBandit User-agent: WebCopier User-agent: WebEnhancer User-agent: WebmasterWorldForumBot User-agent: Website Quester User-agent: WebSauger User-agent: Webster Pro User-agent: WebStripper User-agent: WebZip User-agent: WebZIP User-agent: WebZip/4.0 User-agent: Web Image Collector User-agent: WebReaper User-agent: West Wind Internet Protocols User-agent: West Wind Internet Protocols 4.55 User-agent: Wget User-agent: Wget/1.6 User-agent: Wget/1.5.3 User-agent: WWW-Collector-E User-agent: WX_mail User-agent: WhoWhere User-agent: Xenu's Link Sleuth 1.1c User-agent: Xenu User-agent: Xenu's User-agent: Zao User-agent: Zealbot User-agent: Zeus User-agent: Zeus Link Scout User-agent: Zeus 32297 Webster Pro V2.9 Win32 User-agent: ZyBORG Disallow: / ################################################################################ # Google möchte gerne persönlich angesprochen werden. Wenns denn sein muss. :-D # Google darf all das indexsieren, was hier nicht aufgeführt ist. ################################################################################ User-agent: Adsbot-Google User-agent: Googlebot User-agent: Googlebot-Image User-agent: Googlebot-Mobile User-agent: Mediapartners-Google User-agent: Slurp Crawl-delay: 10 Disallow: forum/.htaccess Disallow: forum/admincp/ # Suchmaschinen haben hier nichts zu suchen Disallow: forum/sql/ # Suchmaschinen haben hier nichts zu suchen Disallow: forum/modcp/ # Suchmaschinen haben hier nichts zu suchen Disallow: forum/faq.php # das Indizieren der vB-FAQ ist unnötig Disallow: forum/attachment.php # Was sollen Suchmaschinen mit Anhängen anfangen? Disallow: forum/avatar.php # Avatar-Funktionen bringen der Suchmaschine nichts Disallow: forum/cron.php # Links zur cron.php sollen die Suchmaschinen nicht aufrufen Disallow: forum/editpost.php # Suchmaschinen brauchen nicht versuchen Beiträge zu ändern Disallow: forum/calendar.php # das Indizieren des Kalenders ist unnötig Disallow: forum/member.php # das Indizieren des Benutzerprofils ist unnötig Disallow: forum/memberlist.php # das Indizieren der Benutzerliste ist unnötig Disallow: forum/printthread.php # Suchmaschine soll und braucht nicht die Druckversion eines Themas indizieren Disallow: forum/printpost.php # Suchmascheinen müssen keine Therads in einer Druckversion Spidern Disallow: forum/sendmessage.php # Suchmaschinen sollen keine Nachrichten verschicken Disallow: forum/register.php # Suchmaschinen sollen sich nicht registrieren Disallow: forum/sendtofriend.php # Suchmaschinen sollen Themen nicht versenden Disallow: forum/login.php # Suchmaschinen brauchen sich nicht einzuloggen Disallow: forum/newreply.php # Suchmaschinen sollen nicht versuchen zu antworten Disallow: forum/newthread.php # Suchmaschinen sollen nicht versuchen neue Themen zu erstellen Disallow: forum/online.php # Suchmaschinen sollen "Wer ist online"-Seite nicht indizieren Disallow: forum/search.php # Suchmaschinen sollen im Forum nicht die Suchfunktion bemühen Disallow: forum/subscription.php # auch hier hat eine Suchmaschine nichts verloren Disallow: forum/threadrate.php # Suchmaschinen sollen keine Themen bewerten Disallow: forum/private.php # Suchmaschinen sollen keine private Nachrichten versenden Disallow: forum/poll.php # Suchmaschinen sollen nicht an Umfragen teilnehmen Disallow: forum/showpost.php # Suchmaschinen sollen nicht einen einzelnen Beitrag, sondern das gesamte Thema indizieren Disallow: forum/profile.php # Suchmaschinen benötigen keine Funktionen der Benutzerprofile Disallow: forum/usercp.php # Suchmaschinen sollen nicht auf das Benutzerkontrollzentrum zugreifen Disallow: forum/showgroups.php # das Indizieren der Foren-Mitarbeiter ist unnötig Allow: / ################################################################################ # Und nun werden alle anderen abgefangen, die bisher nicht erwähnt wurden. # Die dürfen all das indexsieren, was hier nicht aufgeführt ist. ################################################################################ User-agent: * Disallow: forum/.htaccess Disallow: forum/admincp/ # Suchmaschinen haben hier nichts zu suchen Disallow: forum/modcp/ # Suchmaschinen haben hier nichts zu suchen Disallow: forum/faq.php # das Indizieren der vB-FAQ ist unnötig Disallow: forum/attachment.php # Was sollen Suchmaschinen mit Anhängen anfangen? Disallow: forum/avatar.php # Avatar-Funktionen bringen der Suchmaschine nichts Disallow: forum/cron.php # Links zur cron.php sollen die Suchmaschinen nicht aufrufen Disallow: forum/editpost.php # Suchmaschinen brauchen nicht versuchen Beiträge zu ändern Disallow: forum/calendar.php # das Indizieren des Kalenders ist unnötig Disallow: forum/member.php # das Indizieren des Benutzerprofils ist unnötig Disallow: forum/memberlist.php # das Indizieren der Benutzerliste ist unnötig Disallow: forum/printthread.php # Suchmaschine soll und braucht nicht die Druckversion eines Themas indizieren Disallow: forum/printpost.php # Suchmascheinen müssen keine Therads in einer Druckversion Spidern Disallow: forum/sendmessage.php # Suchmaschinen sollen keine Nachrichten verschicken Disallow: forum/register.php # Suchmaschinen sollen sich nicht registrieren Disallow: forum/sendtofriend.php # Suchmaschinen sollen Themen nicht versenden Disallow: forum/login.php # Suchmaschinen brauchen sich nicht einzuloggen Disallow: forum/newreply.php # Suchmaschinen sollen nicht versuchen zu antworten Disallow: forum/newthread.php # Suchmaschinen sollen nicht versuchen neue Themen zu erstellen Disallow: forum/online.php # Suchmaschinen sollen "Wer ist online"-Seite nicht indizieren Disallow: forum/search.php # Suchmaschinen sollen im Forum nicht die Suchfunktion bemühen Disallow: forum/subscription.php # auch hier hat eine Suchmaschine nichts verloren Disallow: forum/threadrate.php # Suchmaschinen sollen keine Themen bewerten Disallow: forum/private.php # Suchmaschinen sollen keine private Nachrichten versenden Disallow: forum/poll.php # Suchmaschinen sollen nicht an Umfragen teilnehmen Disallow: forum/showpost.php # Suchmaschinen sollen nicht einen einzelnen Beitrag, sondern das gesamte Thema indizieren Disallow: forum/profile.php # Suchmaschinen benötigen keine Funktionen der Benutzerprofile Disallow: forum/usercp.php # Suchmaschinen sollen nicht auf das Benutzerkontrollzentrum zugreifen Disallow: forum/showgroups.php # das Indizieren der Foren-Mitarbeiter ist unnötig Allow: / ################################################################################ # robots.txt by TAL&H75 ################################################################################ # Robots.txt syntax checker - http://www.sxw.org.uk/computing/robots/check.html # Syntax OK ################################################################################