Zum 1. Mai Feiertag hat man endlich etwas Zeit für sich selbst und seine Systeme. Also mal wieder ein privates Projekt angepackt.

Dabei möchte ich gerne die Wayback Maschine von Archive.org anschmeißen und alte Inhalte einer Domain analysieren & downloaden.

Überblick verschaffen mit ScreamingFrog

Zuallererst möchte ich wissen, welche und wie viele URLs noch aufgerufen werden können. Dies gibt mir einen ersten groben Überblick auf die Struktur der Website, die Links, Bilder usw.

So bleibt euer Crawler nur auf eurer URL

1) Angabe der kompletten web.archive.org Adresse der Homeseite in ScreamingFrog
2) bei Screamingfrog -> Configuration -> Include -> Eingabe von .*https://deineURL.de/.*
Damit gehen wir sicher, dass er nur innerhalb der URL crawled und nicht andere Webarchive. Beispiel: .*https://www.lightweb-media.de/.*

Download der alten Website

Dazu möchte ich den Wayback Machine Downloader nutzen.

Als allererstes Ruby auf dem Mac installieren. Die Anleitung dazu habe ich von hier.

/usr/bin/ruby -e "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/master/install)"
brew install ruby
echo 'export PATH="/usr/local/opt/ruby/bin:$PATH"' >> ~/.bash_profile
source ~/.bash_profile

Jetzt installiere ich den Downloader mit

gem install wayback_machine_downloader


Als nächstes wechsel ich über mein Terminal in mein Downloadverzeichnis (cd Downloads) und gebe den Befehl zum Herunterladen ein.

wayback_machine_downloader https://www.lightweb-media.de

Jetzt suche ich noch eine Möglichkeit, die HTML Files nach dem Download in WP hochzuladen – voila.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

Wir teilen unser Wissen insbesondere bei den Themen

DSGVOGutenbergMarketingPagespeedSEOWebentwicklungWordPress