Archive.org, oder genauer die Wayback Machine, ist eine nonprofit organization. In diesem Archiv werden Websites, wie die unsere, in unregelmäßigen Abständen gecrawled und archiviert.
Du möchtest zu Archive.org?
Warum sollte man seine Website aus der Wayback Machine entfernen?
Seine Domain/Website aus Archive.org inklusive alle alten Einträge/der Historie zu entfernen, kann viele verschiedene Gründe haben.
Für Domainseller könnte es nützlich sein, um alte Spaminhalte zu entfernen und damit beim Domainverkauf erfolgreicher zu sein.
Als Betreiber würde ich gerne nur meine aktuellen Inhalte, aber nicht die der letzten Jahre online sehen. Vor allem, wenn ich in der Vergangenheit Verstöße hinsichtlich DSGVO, Health Claims, Urheberrecht oder dergleichen begangen habe.
Auch sind die Inhalte ggf. gerichtlich verwertbar (keine rechtliche Beratung..). So könnte man VOR eine Auseinandersetzung die fragwürdigen Inhalte löschen.
Auch kann ich mir gut vorstellen, dass es bei vielen Black Hat SEO-Techniken darum gehen kann, sein Vorgehen zu verschleiern.
Die Entfernung der Inhalte beantragen
Zur Vorbereitung erstellt man eine Unterseite mit dem Wortlaut „Please exclude this Website from Archive.org“. Diese muss öffentlich zugänglich sein, würde ich aber nicht verlinken und von der Sitemap ausschließen.
Zwar schreibt dies archive.org nicht offiziell auf Ihre Website…
How can I exclude or remove my site’s pages from the Wayback Machine?
You can send an email request for us to review to info@archive.org with the URL (web address) in the text of your message.
https://help.archive.org/
…sie werden aber Deine Glaubwürdigkeit überprüfen müssen. Schnell und Effektiv ist es mit der Unterseite.
Jetzt schreibst Du dem Support (info@archive.org) eine E-Mail mit der bitte, die Website zu entfernen und einem Link zum Beitrag.
Sehr geehrte Damen und Herren,
hiermit bitte ich Sie die alten Daten meiner Domain URL aus Ihrer Waybaymashine zu löschen. Anbei die URL, in der ich dies nochmal bestätige.
URL
Vielen Dank.
Danach wird wahrscheinlich folgende Antwort vom Service Team kommen, hier müsst ihr die URLs oder vollem Domains mitteilen. Wahrscheinlich wird die Verifizierung des Ownerships abgefragt.
Archive.org / Waybackmachine blockieren
Damals konnte man noch per robots.txt die Waybackmachine blockieren.
Der Code sah so aus:
User-agent: ia_archiver Disallow: / User-agent: archive.org_bot Disallow: /
Dies wird derzeit nicht als effektiv angesehen, sodass wir raten den User-Agent zu blockieren.
RewriteEngine On RewriteCond %{HTTP_USER_AGENT} archive.org_bot RewriteRule .* -
Viel Erfolg dabei! Bei Fragen sind wir jederzeit für Dich da.
Kleine Ergänzung: Sollte archive.org bemerken, dass es auch Daten vor der letzten Änderung (whois-Abfrage) der Domain gab, wird es nervig. Da muss man noch nachweisen, dass man auch vor der Änderung Inhaber der Domain war. Ganz ehrlich – die nerven.
Stimmt, heute erst wieder den Fall gehabt. Ich habe den Screenshot der Kommunikation angehangen.
Habe für zwei Kunden Seiten erstellt, inzwischen sind diese mehrfach überarbeitet – auf „wayback“ sind aber noch die alten Inhalte und auch Bilder die dort nicht mehr sein dürfen – was ratet ihr?
Ich würde dir raten eine Mail an archive.org zu senden. Siehe mein Screenshot – die Infos kannst du direkt dem Support liefern. Wenn der Kunde die WHOIS Ownership nachweisen kann, dann kannst du das direkt mitschicken.
Wie mache ich das mit der Blockade des User-Agents, kommen diese Zeilen auch in die robots.txt?
In meiner alten robots.txt hatte ich beim noch User-Agent: * drinstehen, das war wohl ein Fehler, denn man muss scheinbar echt jeden Archivar einzeln listen?
Du kannst zum einen den Code für die Robots.txt nutzen und gleichzeitig per .htaccess weiterleiten. Das sind die Zeilen: RewriteEngine On…
Danke dir.
Ging dann sogar relativ fix, vier Tage haben sie gebraucht, dafür brauchte ich nichts nachweisen und zuerst stand in der Mail, dass sie nur alles ab Dezember 2014 zur Löschung vorgemerkt haben, aber nun ist wohl alles komplett weg, zumindest bekomme ich auf deren Seite bei Eingabe meiner Domain nur noch einen Fehler geliefert.
Hab jetzt vorsorglich die .htaccess mal wieder aktualisiert, war zu nachlässig.
Nochmal danke.
Sehr gerne 🙂
So wie es aussieht kriegt man mittlerweile einen Fragebogen, oder ist das nur wenn man nicht permanent Eigentümer einer Webseite ist? Unfassbar nervig das ganze.
Nach einer Woche hat sich noch gar nichts gerührt.
Habs also nochmal gemacht.
Was mach in denn, wenn die sich gar nicht melden? Hat da jemand Ideen?
Liebe Grüße
Zur Info. Beim zweiten Mal hat es doch noch geklappt.
Eine einzelne Seite mit „please remove“ hat bei mir nicht funktioniert, ich nehme an, weil mir die Domain nicht für die gesamte Zeit gehört. Das Formular möchte entweder Rechnungen oder den Personalausweis oder eine Email, die auf der eigenen Seite öffentlich steht, als Identifikation.
Diese Email darf keine Support Email bei Kaufshops sein.