Archive.org alte Websites analysieren & downloaden

Zum 1. Mai Feiertag hat man endlich etwas Zeit für sich selbst und seine Systeme. Also mal wieder ein privates Projekt angepackt.

Dabei möchte ich gerne die Wayback Maschine von Archive.org anschmeißen und alte Inhalte einer Domain analysieren & downloaden.

Überblick verschaffen mit ScreamingFrog

Zuallererst möchte ich wissen welche und wie viele URLs noch aufgerufen werden können. Dies gibt mir einen ersten groben Überblick auf die Struktur der Website, die Links, Bilder usw.

Wichtiges vorweg
1) Angabe der kompletten web.archive.org Adresse der Homeseite in ScreamingFrog
2) bei Screamingfrog -> Configuration -> Include -> Eingabe von .*http://URL.tld/.*
Damit gehen wir sicher, dass er nur innerhalb der URL crawled und nicht andere Webarchive. Beispiel: .*http://www.lightweb-media.de/.*

So bleibt euer Crawler nur auf dieser URL.

Download der alten Website

Dazu möchte ich den Wayback Machine Downloader nutzen.

Als allererstes Ruby auf dem Mac installieren. Die Anleitung dazu habe ich von hier.

/usr/bin/ruby -e "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/master/install)"
brew install ruby
echo 'export PATH="/usr/local/opt/ruby/bin:$PATH"' >> ~/.bash_profile
source ~/.bash_profile

Jetzt installiere ich den Downloader mit

gem install wayback_machine_downloader


Als nächstes wechsel ich über mein Terminal in mein Downloadverzeichnis (cd Downloads) und gebe den Befehl zum Herunterladen ein.

wayback_machine_downloader http://www.lightweb-media.de

Jetzt suche ich noch eine Möglichkeit die HTML Files nach dem Download in WP hochzuladen – voila.

Hinterlasse eine Anmerkung