GNU wget: obtiene todo el contenido web que quieras en tu ordenador
(artículo original en inglés)
Wget es tan flexible que probablemente lo has estado usando durante años sin saberlo, muchos scripts lo usan como método para obtener archivos, incluso lo vuelve a intentar automáticamente bajo ciertas circunstancias...
Probablemente el mejor cumplido que le puedo hacer, es que los autores del script pueden usarlo y luego olvidarse de él.
Es una de esas grandes herramientas que hacen de *nix tan grande, es simple, hace lo que dice, y como muchas otras partes de unix, es robusto.
Otra cosa guai de wget es que no es interactivo, lo que significa puedes iniciar una nueva bajada, desconectar de tu sesión actual y encontrar lo que has bajado la próxima vez reconectes.
Cómo utilizarlo
La manera más simple de invocar wget es escribiendo wget URL/nombreFichero
$ wget http://debaday.debian.net/contribute/
Si escribiste este comando ahora tendrás un fichero denominado index.html en el directorio en el que te encontrabas mientras lo escribias. Este fichero contendrá la contribute page del dia del blog de Debian package. Léelo, DPOTD te necesita ;)
Obtén la jerarquia de un directorio
Para obtener el contenido completo de un directorio y sus subdirectorios, necesitarás especificarle a wget que baje tu URL recursivamente. Para ello necesitarás añadir la opción -r :
$ wget -r http://debaday.debian.net/
Este comando generará un mirror local del blog de debaday. Nota que wget respeta el fichero robots.txt por defecto, si existe. Esto significa que no bajará los directorios y ficheros excluidos en el fichero robots.txt.
Multiples URLs
Wget soporta múltiples URLs. Tanto puedes especificarlas en un fichero (una URL por línea) o especificarlas en una línea de comandos (separadas por un espacio).
$ wget url1 url2 ... urlN
o especificar donde contener la URL con la opcion -i
$ wget -i filePathAndName
Otras opciones
Wget tiene un montón de opciones más, puedes usar por ejemplo:
- -l para indicarle la intensidad a la que deberia ir la bajada recursiva, la intensidad por defecto es 5.
- -c es inestimable dado que nos permite continuar una bajada interrumpida
- -O nos permite especificar un fichero de salida como destino (-O nombreFichero)
Hay muchas otras opciones en wget, la mejor manera de conocerlas es leer su página man. Para los que no lo sepan, probad a escribir lo siguiente en un terminal ;)
$ man wget
Disponibilidad
Como wget es parte del proyecto GNU, asumimos que es parte de la mayoria de distribuciones Linux. No obstante, está disponible en los paquetes oficiales de Debian y Ubuntu:
Comunidad y desarrolladores
GNU wget está actualmente mantenido por Micah Cowan. El autor original de GNU Wget es Hrvoje Nikšić.
Enlaces
nemrac @ 23:15
Comentarios(6) »
Tu página web es excelente, me ha gustado mucho.
Corey — 12-12-2007 - 14:33:35 GMT 2
Solemn article. It make me lost in thoughts.
Bolsa — 23-04-2008 - 01:43:50 GMT 2
Oye pues esta genial esto!!! la verdad es que me ha sido de gran ayuda!
Hoteles Vitoria — 13-08-2008 - 14:16:47 GMT 2
Muchas gracias por el link!!
Videos — 09-10-2008 - 12:47:42 GMT 2
Muchisimas gracias por toda la info!! La verdad es que esta genial y es muy facil :)
UN saludo.
Juegos — 28-04-2009 - 18:55:18 GMT 2
He aprendido muchisimo gracias a todos vosotros, gracias!

Meneame
del.icio.us


Regali di Natale — 10-12-2007 - 01:31:53 GMT 2