« Aspirer un site avec wget »
Le 8 juillet 2008
Linux
Aspirer un site est quelque chose qui peut sembler un peu désuet au XXIe siècle, maintenant que l’Internet est largement démocratisé et disponible d’à peu près partout, pourvu qu’on y mette les moyens.
Étant un usager régulier des TER, j’apprécie déjà d’avoir l’électricité à bord ... Hélas, il me faut faire sans Internet pour l’instant - et c’est pourquoi je conserve beaucoup de documentation sur mon PC, pour ces périodes où je dois développer off-line.
L’utilitaire en ligne de commande wget me sert notamment à récupérer des API qui sont généralement disponibles en ligne, comme celle de Ruby on Rails par exemple, technologie sur laquelle je me penche avec intérêt depuis deux semaines.
Ainsi pour récupérer ce document pour pouvoir l’utiliser hors ligne, voilà la commande que j’ai utilisé, à essayer dans un terminal :
wget -r -w0 -l5 http://api.rubyonrails.com/
En langage simple cela signifie : "récupère tout ce que tu trouves à l’adresse suivante en partant de la page que je te donne et sans quitter ce site".
L’option r permet d’activer ce mode d’aspiration (il signifie récursif), le w permet de fixer le temps d’attente entre chaque requête, et le l permet de signifier qu’on ne veut pas dépasser les 5 niveaux d’arborescence (c’est le maximum possible).
Et voilà !
PS : si l’utilitaire wget n’est pas disponible sur votre machine, un petit sudo apt-get install wget devrait faire l’affaire, bien sûr)
Dandelionmood.com a déménagé !
Vos réactions
- Killian, le 8 juillet 2008
- Utile, mais je pense que le wifi dans le TER serait plus intéressant en terme d’avancée technologique :)
- Pierre Quillery, le 9 juillet 2008
Bah oui mais bon il faut savoir faire contre mauvaise fortune bon cœur ;) : le wifi est déjà disponible dans le TGV il me semble, et tu peux de toutes façons avoir Internet n’importe où avec une clé 3G.
Dans les deux cas bien sûr, c’est un service que tu payes à un moment ou un autre ... Et vu les tarifs en vigueur, préfère m’en tenir à un petit
wgetde temps en temps :p- Oncle Tom, le 6 août 2008
Astuce super intéressante ! Je me demandais si on pouvait le faire facilement avec wget ... mais flemme de lire la doc.
Merci du tuyau !
- Fredo, le 23 septembre 2008
- Il est aussi intéressant d’utiliser l’option —spider pour uniquement parcourir le site et donc simuler des connexions pour du debug ou du test de charge ;)
- agatzebluz, le 9 décembre 2008
- Merci, pratique de pouvoir faire une copie hors ligne de mon blog, c’est super.
