Archive.org, oder genauer die Wayback Machine, ist eine nonprofit organization. In diesem Archiv werden Websites, wie die unsere, in unregelmäßigen Abständen gecrawled und archiviert.
Du möchtest zu Archive.org?
Warum sollte man seine Website aus der Wayback Machine entfernen?
Seine Domain/Website aus Archive.org inklusive alle alten Einträge/der Historie zu entfernen, kann viele verschiedene Gründe haben.
Für Domainseller könnte es nützlich sein, um alte Spaminhalte zu entfernen und damit beim Domainverkauf erfolgreicher zu sein.
Als Betreiber würde ich gerne nur meine aktuellen Inhalte, aber nicht die der letzten Jahre online sehen. Vor allem, wenn ich in der Vergangenheit Verstöße hinsichtlich DSGVO, Health Claims, Urheberrecht oder dergleichen begangen habe.
Auch sind die Inhalte ggf. gerichtlich verwertbar (keine rechtliche Beratung..). So könnte man VOR eine Auseinandersetzung die fragwürdigen Inhalte löschen.
Auch kann ich mir gut vorstellen, dass es bei vielen Black Hat SEO-Techniken darum gehen kann, sein Vorgehen zu verschleiern.
Die Entfernung der Inhalte beantragen
Zur Vorbereitung erstellt man eine Unterseite mit dem Wortlaut „Please exclude this Website from Archive.org“. Diese muss öffentlich zugänglich sein, würde ich aber nicht verlinken und von der Sitemap ausschließen.
Zwar schreibt dies archive.org nicht offiziell auf Ihre Website…
How can I exclude or remove my site’s pages from the Wayback Machine?
You can send an email request for us to review to info@archive.org with the URL (web address) in the text of your message.
https://help.archive.org/
…sie werden aber Deine Glaubwürdigkeit überprüfen müssen. Schnell und Effektiv ist es mit der Unterseite.
Jetzt schreibst Du dem Support (info@archive.org) eine E-Mail mit der bitte, die Website zu entfernen und einem Link zum Beitrag.
Sehr geehrte Damen und Herren,
hiermit bitte ich Sie die alten Daten meiner Domain URL aus Ihrer Waybaymashine zu löschen. Anbei die URL, in der ich dies nochmal bestätige.
URL
Vielen Dank.
Danach wird wahrscheinlich folgende Antwort vom Service Team kommen, hier müsst ihr die URLs oder vollem Domains mitteilen. Wahrscheinlich wird die Verifizierung des Ownerships abgefragt.
Archive.org / Waybackmachine blockieren
Damals konnte man noch per robots.txt die Waybackmachine blockieren.
Der Code sah so aus:
User-agent: ia_archiver Disallow: / User-agent: archive.org_bot Disallow: /
Dies wird derzeit nicht als effektiv angesehen, sodass wir raten den User-Agent zu blockieren.
RewriteEngine On RewriteCond %{HTTP_USER_AGENT} archive.org_bot [NC] RewriteRule .* - [R=403,L]
Viel Erfolg dabei! Bei Fragen sind wir jederzeit für Dich da.
Kleine Ergänzung: Sollte archive.org bemerken, dass es auch Daten vor der letzten Änderung (whois-Abfrage) der Domain gab, wird es nervig. Da muss man noch nachweisen, dass man auch vor der Änderung Inhaber der Domain war. Ganz ehrlich – die nerven.
Stimmt, heute erst wieder den Fall gehabt. Ich habe den Screenshot der Kommunikation angehangen.
Habe für zwei Kunden Seiten erstellt, inzwischen sind diese mehrfach überarbeitet – auf „wayback“ sind aber noch die alten Inhalte und auch Bilder die dort nicht mehr sein dürfen – was ratet ihr?
Ich würde dir raten eine Mail an archive.org zu senden. Siehe mein Screenshot – die Infos kannst du direkt dem Support liefern. Wenn der Kunde die WHOIS Ownership nachweisen kann, dann kannst du das direkt mitschicken.