« Aspirer un site avec wget »
Le 8 juillet 2008
Linux
Aspirer un site est quelque chose qui peut sembler un peu désuet au XXIe siècle, maintenant que l’Internet est largement démocratisé et disponible d’à peu près partout, pourvu qu’on y mette les moyens.
Étant un usager régulier des TER, j’apprécie déjà d’avoir l’électricité à bord ... Hélas, il me faut faire sans Internet pour l’instant - et c’est pourquoi je conserve beaucoup de documentation sur mon PC, pour ces périodes où je dois développer off-line.
L’utilitaire en ligne de commande wget me sert notamment à récupérer des API qui sont généralement disponibles en ligne, comme celle de Ruby on Rails par exemple, technologie sur laquelle je me penche avec intérêt depuis deux semaines.
Ainsi pour récupérer ce document pour pouvoir l’utiliser hors ligne, voilà la commande que j’ai utilisé, à essayer dans un terminal :
wget -r -w0 -l5 http://api.rubyonrails.com/
En langage simple cela signifie : "récupère tout ce que tu trouves à l’adresse suivante en partant de la page que je te donne et sans quitter ce site".
L’option r permet d’activer ce mode d’aspiration (il signifie récursif), le w permet de fixer le temps d’attente entre chaque requête, et le l permet de signifier qu’on ne veut pas dépasser les 5 niveaux d’arborescence (c’est le maximum possible).
Et voilà !
PS : si l’utilitaire wget n’est pas disponible sur votre machine, un petit sudo apt-get install wget devrait faire l’affaire, bien sûr)
Dandelionmood.com a déménagé !
Pour éviter la prolifération du spam, j'ai préféré désactiver les commentaires, d'autant que ce site n'est plus actif ... Merci à vous si vous aviez commenté, à bientôt sur Choses à faire.fr ;) !
