Archive.org alte Websites analysieren & downloaden

21 Jan. 2024

•

Lesezeit 2 Minuten

•

Inhaltsverzeichnis

Vor lange Zeit hatten ich mal wieder etwas Freiraum, um mich einigen privaten Projekten anzunehmen. Auf dem Plan stand: Die Wayback Maschine von Archive.org anschmeißen und alte Inhalte einer Domain analysieren sowie downloaden. Aber was ist eigentlich Archive.org?

Was ist Archive.org

Archive.org ist ein facettenreiches und vielseitiges digitales Archiv, das 1996 von Brewster Kahle in San Francisco ins Leben gerufen wurde. Ursprünglich als „WayBackMachine“ bekannt, dient es der Langzeitarchivierung digitaler Daten und ermöglicht es, die Geschichte des Internets umfassend nachzuvollziehen. Ein wesentlicher Aspekt von archive.org ist die Dokumentation der Historie von Webprojekten. Durch die Speicherung verschiedener Versionen von Webseiten, ursprünglich basierend auf Daten von Alexa Internet, kann man sehen, wie sich Inhalte und Layouts von Domains über die Zeit verändert haben. Interessanterweise sind die archivierten Seiten über https://web.archive.org zugänglich, wobei man durch einfaches Klicken auf eine Jahreszahl in einer grafischen Übersicht zu einer Kalenderansicht gelangt, um das Layout einer Website an einem bestimmten Datum zu sehen.

archive.org alte websites analysieren & downloaden auszug archive org archive org — Lightweb-media.de auf Archive.org

Nun aber weiter mit dem kleinen Projekt des Downloads..

Überblick verschaffen mit ScreamingFrog

Zuallererst möchte ich wissen, welche und wie viele URLs noch aufgerufen werden können. Dies gibt mir einen ersten groben Überblick auf die Struktur der Website, die Links, Bilder usw.

So bleibt euer Crawler nur auf eurer URL

1) Angabe der kompletten web.archive.org Adresse der Homeseite in ScreamingFrog
2) bei Screamingfrog -> Configuration -> Include -> Eingabe von .*https://deineURL.de/.*
Damit gehen wir sicher, dass er nur innerhalb der URL crawled und nicht andere Webarchive. Beispiel: .*https://www.lightweb-media.de/.*

Download der alten Website

Dazu nehme ich den Wayback Machine Downloader.
Als allererstes Ruby auf dem Mac installieren. Die Anleitung dazu habe ich von hier.

/usr/bin/ruby -e "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/master/install)"
brew install ruby
echo 'export PATH="/usr/local/opt/ruby/bin:$PATH"' >> ~/.bash_profile
source ~/.bash_profile

Jetzt installiere ich den Downloader mit

gem install wayback_machine_downloader

Als nächstes wechsel ich über mein Terminal in mein Downloadverzeichnis (cd Downloads) und gebe den Befehl zum Herunterladen ein.

wayback_machine_downloader https://www.lightweb-media.de

Jetzt suche ich noch eine Möglichkeit, die HTML Files nach dem Download in einem Webspace hochzuladen und voila – die alte Website steht wieder.

Über den Autor

Joel Burghardt ist Geschäftsführer der Lightweb Media GmbH, einer Entwicklungsschmiede mit Fokus auf SEO, KI-Automatismen und performante Websites. Er unterstützt Unternehmen jeder Größenordnung dabei, ihre Sichtbarkeit durch programmatic SEO, KI-gestützte Prozesse und skalierbare Weblösungen signifikant zu steigern. Mehr über den Autor.

Joel Burghardt

Gründer von Lightweb Media