Zelf aan de slag - Archiveren van websites - Tools


Voor het archiveren van websites zijn er een aantal nuttige tools. In dit overzicht geven we een beknopte beschrijving van verschillende methodes en tools met telkens verwijzingen naar de bijhorende documentatie.

Onderwerpen:

1. Snapshot

Het maken van een snapshot kan middels een webcrawler (ook webharvester of offline browser genaamd). Zo'n programma maakt een statische kopie van een website en alle bijhorende documenten en grafische elementen. Men heeft de keuze uit verschillende softwareprogramma's. De programma's variëren op het vlak van functionaliteiten, ondersteunde platform, licenties en expertiseniveau.

  • Heritrix

    Heritrix is een wijd verspreide open source webcrawler ontwikkeld door het initiatief The Internet Archive. Heritrix slaat de vastgelegde webpagina's default als ARC-bestand op. Voor het raadplegen van de gearchiveerde webpagina's zijn tools nodig zoals ARCReader, Wayback of WERA.

    Licentie: vrij beschikbaar (GNU Lesser General Public License), open source
    Platform: Java, officieel getest op Linux (informeel gebruikt ook op Windows en Mac)
    Expertise: De installatie vereist administratiekennis van het Linux besturingssysteem.
    Na de installatie is Heritrix toegankelijk via een gewone webbrowser.
  • HTTrack

    HTTrack is een open source offline browser. Dit programma is zeer eenvoudig te installeren en te gebruiken. De opgeslagen webpagina's kunnen rechtstreeks vanuit HTTrack of middels een webbrowser worden geraadpleegd.

    Voor Windows Vista: Het is mogelijk dat HTTrack slechts een websitekopie kan maken indien GEEN firewall of on-access virusscanner is ingeschakeld.

    Licentie: vrij beschikbaar (GNU General Public License), open source
    Platform: Windows, Linux, Mac
    Expertise: geschikt voor de gemiddelde PC-gebruiker
  • GNU Wget

    Wget is een command line tool voor het opsporen van bestanden gebruikende de internetprotocollen HTTP, HTTPS of FTP. Enkele functionaliteiten van Wget zijn bruikbaar voor het maken van snapshots.

    Licentie: vrij beschikbaar (GNU General Public License), open source
    Platform: meeste UNIX-varianten (Linux, Mac,...), Windows
    Expertise: geschikt voor de gemiddelde PC-gebruiker?
  • Web Curator Tool (WCT)

    Deze zeer uitgebreide tool integreert de webcrawler Heritrix. Naast het maken van snapshots ondersteunt WCT de planning van snapshots, het aanvragen van permissies en het beschrijven van snapshots middels metadata. Het programma is ontwikkeld door de British Library en de National Library of New Zealand op initiatie van het International Internet Preservation Consortium (IIPC). Voor het raadplegen van de gearchiveerde webpagina's zijn tools nodig zoals ARCReader, Wayback of WERA.

    Licentie: vrij beschikbaar (Apache Public License), open source
    Platform: Sun, Linux
    Expertise: Voor de installatie is administratiekennis vereist (configuratie van Apache Tomcat webserver).
    Na de installatie is de gebruikersinterface van WCT toegankelijk met een gewone webbrowser.
  • Presurf

    Deze commerciële tool voor het archiveren van websites is ontwikkeld door het Nederlandse bedrijf Capsis. Presurf is geschikt voor de planning en uitvoering van snapshots en voor het raadplegen en beschikbaar stellen van gearchiveerde websites.

    Licentie: betalend
    Platform: Microsoft Windows 2003 server, Linux
    Expertise: Installatie en support door Capsis.
    Na de installatie is de gebruikersinterface van Presurf toegankelijk met een gewone webbrowser.

Aanvullend vindt u op de website van het International Internet Preservation Consortium (IIPC) een overzicht van aanbevolen tools voor websitesarchivering.

LET OP: Een snapshot is niet altijd volledig. Mogelijk ontbrekende bestanden (zoals stylesheets of audio/videobestanden) moeten in zo’n geval handmatig in de archiefkopie worden geïntegreerd. Hiervoor moet men de bestanden downloaden en in de relevante map van de archiefkopie plaatsen. Vervolgens moeten de betrokken verwijzingen in de broncode worden aangepast. Enkele tools voor het downloaden van bestanden – in het bijzonder van streaming media – zijn te vinden onder "Download van streaming media".

2. Archiveren van een Flash website

Het archiveren van een Flash website is verbonden aan enkele aandachtspunten. Het maken van een snapshot is in geval van een Flash website niet altijd mogelijk of vraagt bijzondere attentie. De passende oplossing is afhankelijk van het type Flash website:

  • HTML-pagina's die naar Flash-objecten verwijzen

    screenshot snapshot flash Webcrawlers kunnen links ingebed in Flash ActionScript niet altijd interpreteren.
    De webcrawler zet de links dan niet om naar relatieve pathaanduidingen.
    In zo'n geval bevat een snapshot HTML-pagina's die verwijzen naar Flash-objecten (zie afbeelding).
    De animaties van de Flash-objecten op zich functioneren. De links tussen de pagina's functioneren niet.

    Om zo'n Flash website correct te archiveren moet men in bezit zijn van het originele Flash-bestand (.fla).

    Volgende aanpassingen zijn nodig:

    1. Pas alle links in de ActionScripts van het originele Flash-bestand (.fla) aan:
    absolute pathaanduidingen moeten vervangen worden door relatieve pathaanduidingen.
    (bijv. http://www.website.be/voorbeeld_flash/contact.html wordt contact.html)
    2. Controleer de links.
    3. Publiceer het fla-bestand opnieuw.
    4. Vervang de swf-bestanden in de snapshot door de nieuwe swf-bestanden (bevattende de correcte links)

    LET OP: Maak in verband met het aanpassen van het originele Flash-bestand de nodige afspraken met de websiteontwerper!

  • Website volledig in Flash aangemaakt

    Is een website volledig in Flash aangemaakt, zal het maken van een snapshot geen voldoende resultaat opleveren. In dit geval archiveert men de website best als swf-bestand. Bevat de Flash website links die naar een server verwijzen (absolute pathaanduidngen) moeten deze door relatieve pathaanduidingen worden vervangen. Hiervoor moet men in bezit zijn van het originele Flash-bestand (.fla).

    Volgende stappen zijn nodig:

    1. Pas alle links in de ActionScripts van het originele Flash-bestand (.fla) aan:
    absolute pathaanduidingen moeten vervangen worden door relatieve pathaanduidingen.
    (bijv. http://www.website.be/voorbeeld_flash/contact.html wordt contact.html)
    2. Controleer de links.
    3. Publiceer het fla-bestand opnieuw.
    4. Het nieuwe swf-bestand (bevattende de correcte links) wordt de archiefkopie.


    Een aanvullende methode is het maken van een screencast. Deze methode is nuttig indien het maken van een snapshot technisch te moeilijk is of indien men geen toegang heeft tot het originele Flash-bestand.

  • Flash website met databank

    Werkt een Flash website met een achterliggende databank, dan kan men de databankdata wel rechtstreeks vanuit de databank archiveren.
    Voor een volledige archiefkopie (bevattende inhoud, structuur, context, basisfunctionaliteiten EN look & feel) van een website volstaat deze aanpak echter niet.

3. Screencast

Een screencast biedt de mogelijkheid om een surfsessie te archiveren. Terwijl een gebruiker een website bezoekt registreert een programma (screenrecorder) alle bezochte pagina's en interacties. De surfsessie wordt vervolgens als videobestand opgeslagen en bewaard.

Deze methode is interessant indien de archivering van een website moeilijk is uit te voeren (bijv. bij sommige Flash websites of DHTML-pagina's).

Voorbeelden van screenrecorders zijn:

  • CamStudio
    Licentie: vrij beschikbaar (GNU General Public License), open source
    Platform: Windows XP, Windows Vista
  • Snapz Pro X
    Licentie: betalend
    Platform: Mac OS X vanaf 10.3.9

4. Linkvalidatie

Functionerende links zijn in een archiefkopie (offline) even belangrijk als in een live-website (online). Om te garanderen dat alle links op een website functioneren maakt men gebruik van een linkchecker. In geval van een archiefkopie zijn alleen programma’s geschikt die de validatie van links op een locaal filesysteem (offlinewebsite) ondersteunen.

Enkele voorbeelden:

  • Xenu's Link Sleuth

    Tool voor het valideren van links online en offline. Geschikt voor websiteonderhoud en validatie van een archiefkopie.

    Gebruik: online, offline
    Licentie: vrij beschikbaar
    Platform: Windows
    Expertise: geschikt voor de gemiddelde PC-gebruiker
  • Link Checker Pro

    Uitgebreide tool voor het valideren van links online en offline. Geschikt voor websiteonderhoud en validatie van een archiefkopie.

    Gebruik: online, offline
    Licentie: betalend
    Platform: Windows
    Expertise: geschikt voor de gemiddelde PC-gebruiker
  • LinkChecker

    Open source tool voor het valideren van links online en offline. Geschikt voor websiteonderhoud en validatie van een archiefkopie.

    Gebruik: online, offline
    Licentie: vrij beschikbaar (GNU General Public License), open source
    Platform: Windows, Linux, Mac OS X
    Expertise: installatie voor de gevorderde PC-gebruiker
  • Link Checker voor Mac

    Tool voor het valideren van links online en offline. Geschikt voor websiteonderhoud en validatie van een archiefkopie.

    Gebruik: online, offline
    Licentie: betalend
    Platform: Mac OS
    Expertise: geschikt voor de gemiddelde PC-gebruiker
  • W3C Link Checker

    Webapplicatie voor het valideren van links online. Geschikt voor websiteonderhoud.

    Gebruik: online
    Licentie: vrij beschikbaar
    Platform: -
    Expertise: geschikt voor de gemiddelde PC-gebruiker

5. Download van streaming media (YouTube, Google Video, etc.)

Bij het maken van een snapshot zijn streaming media tegenwoordig nog problematisch. Een reden hiervoor is dat streaming media vaak niet via het HTTP-protocol werken, maar andere protocollen zoals RTSP (Real Time Streaming Protocol) of MMS (Microsoft Media Server) gebruiken. Webcrawlers zijn nog niet noodzakelijk geprogrammeerd om andere protocollen als HTTP of FTP te accepteren en volgen links naar andere protocollen niet. De streaming media worden niet automatisch gedownload. Verder kunnen dynamische URL's hinderlijk zijn bij het vastleggen van streaming media. In zo'n geval stelt en script (meestal JavaScript) een URL samen en vraagt een streamingbestand aan zodra een gebruiker op een link naar het streamingbestand klikt. Webcrawlers kunnen zo'n script mogelijk niet uitvoeren. Bijgevolg ontbreekt het bestand in de snapshot.
[Michael Ashenfelder, "Web Harvesting and Streaming Media", in "IWAW'06 Proceeding of the 6th International Web Archiving Workshop", Alicante, 2006, 134-135]

Websites bedden vaak media van videoplatformen zoals YouTube of Google Video in. Deze bestanden kan een webcrawler evenzeer niet automatisch downloaden en in een archiefkopie inbedden.

Binnen het internationale onderzoek rond websitearchivering werkt men aan oplossingen om bestaande webcrawlers op het vlaak van streaming media te verbeteren. Tot dat de geschikte tools verkrijgbaar zijn, resteert de mogelijkheid om die in een snapshot ontbrekende streaming media achteraf te integreren.

Voor het downloaden van streaming media zijn er talrijke tools en mogelijkheden.

Enkele voorbeelden:

  • Free Download Manager (FDM)

    Open source download manager voor verschillende bestandsformaten. Het downloaden van videobestanden van videosites zoals YouTube, Google Video etc. is met FDM mogelijk. FDM kan de bestanden indien gewenst converteren naar AVI, WMV, MPEG1, MPEG2, MP4 en MP3.

    Protocollen: HTTP, HTTPS, FTP, BitTorrent
    Licentie: vrij beschikbaar (GNU General Public License), open source
    Platform: Windows 9x/ME/2000/2003/XP/Vista
    Expertise: geschikt voor de gemiddelde PC-gebruiker
  • Download Helper

    Add-on voor de webbrowser Mozilla Firefox voor het opslaan van videobestanden inclusieve video's van videosites zoals YouTube, Google Video etc. Download Helper heeft ook een functie voor het opslaan van alle afbeeldingen en video's waarnaar een webpagina linkt.

    Protocollen: HTTP, HTTPS, FTP
    Licentie: vrij beschikbaar
    Platform: Windows, Linux, MacOS X, Mozilla Firefox 1.5 of hoger
    Expertise: geschikt voor de gemiddelde PC-gebruiker
  • Keepvid

    Webapplicatie voor het opslaan van videobestanden van videosites zoals YouTube, Google Video etc.

    Protocollen: HTTP
    Licentie: -
    Platform: -
    Expertise: geschikt voor de gemiddelde PC-gebruiker
  • Internet Explorer

    Een verdere mogelijkheid voor het opslaan van bestanden is via de Internet Explorer. Video's van videosites zoals YouTube, Google Video kunnen in de regel in de Temporary Internet Files (tijdelijke internetbestanden) worden teruggevonden. Men speelt het volledige filmpje in de Internet Explorer af. Dan klikt men in de browser op Extra> Internetopties> Browsergeschiedenis Instellingen> Bestanden weergeven. Het filmpje is te vinden onder één van de meest recente datums. Het type is "Bestand". Men kopieert dit bestand naar de gewenste locatie, geeft een betekenisvolle bestandsnaam en voegt als extensie .flv (Flash video) toe.

  • Net Transport

    Download tool die het downloaden van streaming media ondersteunt.

    Protocollen: HTTP, HTTPS, FTP, MMS, RTSP, PNM, BitTorrent, eMule
    Licentie: betalend
    Platform: Windows
    Expertise: geschikt voor de gemiddelde PC-gebruiker
  • RealPlayer (versie 11.xx)

    RealPlayer heeft een functie voor het opslaan van audio-/videobestanden inclusieve video's van videosites zoals YouTube, Google Video etc. Google Video etc. Eens geïnstalleerd kan het downloaden van een video rechtstreeks vanuit de gebruikte webbrowser worden opgestart.

    Protocollen: HTTP, HTTPS, FTP, RTSP
    Licentie: vrij beschikbaar
    Platform: Windows, Linux, MacOS X
    Expertise: geschikt voor de gemiddelde PC-gebruiker
  • MPlayer

    Deze command-line gebaseerde mediaspeler kan talrijke bestandsformaten afspelen en opslaan via veel verschillende protocollen. MPlayer integreert een veeltal van codecs en bibliotheken.

    Protocollen: HTTP, HTTPS, FTP, RTP/RTSP, MMS/MMST, MPST, SDP
    Licentie: vrij beschikbaar (GNU General Public License), open source
    Platform: multiplatform
    Expertise: De MPlayer documentatie beveelt ter installatie het compileren van de bron aan. Dit vereist gevorderde PC-kennis. De MPlayer website somt een veeltal links op naar inofficiële installatiepakketten voor wie de bron niet zelf kan compileren.