Ich bin irgendwie überhaupt nicht begeistert davon, dass meine Webseite für AI-Training oder von sonstigen Idioten gescrapt wird und dass dann die lapidare Aussage der AI-Firmen ist, dass man ja den eigenen Bot per Robots.txt ausschließen könne. Dummerweise erfährt man von der Existenz von KI-Klitsche Nummer 823 erst, wenn deren Bot in den Serverlogs auftaucht.
Aber mal ehrlich: Gibt es irgendeinen Grund, nicht einfach alle Bots außer dem von Google, Bing und DuckDuckGo auszuschließen? Meine kleine Seite muss jetzt nicht bei Yandex oder Baidu gelistet sein. Weitere irgendwie relevante Suchmaschinen fallen mir gerade nicht ein. Schau ich in die Logs, sind da dann ansonsten noch diverse Firmen dabei, mit denen ich überhaupt nichts zu tun haben will. Oder mache ich einen fundamentalen Denkfehler und schieße mir hier massiv ins Knie?
Ich denke den Datensammlern ist die robots.txt herzlich egal. Schaden sollte es jedoch nicht.
Spricht überhaupt nichts dagegen. Allerdings wùrde ich nicht erwarten dass sich alle daran halten.
Dein Denken ist korrekt. Du scheinst dir der Nachteile und Konsequenzen bewusst.
In dem Kontext zu erwähnen ist noch, dass die robots.txt auch keine Garantie ist. Wer die Anweisungen ignoriert oder gar nicht erst abfragt wird dadurch nicht abgefangen.
Wenn du es drauf anlegen willst kannst du im robots.txt eine Seite verbieten. Wenn ein crawler dennoch auf diese zugreift kannst du ihn mit müll zu spucken, dann verlieren die Daten aktiv an wert. Alternativ einfach alle IPS blocken die drauf zugreifen.