Wget

来自Shiyin's note
跳到导航 跳到搜索
  • Wget是一个十分常用命令行下载工 具,Wget使用格式如下:
   Wget常用参数
   -b:后台下载,Wget默认的是把文件下载到当前目录。
   -O:将文件下载到指定的目录中。
   -P:指定保存文件的目录。
   -N:don’t re-retrieve files unless newer than
   -t:尝试连接次数,当Wget无法与服务器建立连接时,尝试连接多少次。
   -c:断点续传,如果下载中断,那么连接恢复时会从上次断点开始下载。


  • 按照文件列表下载
wget -i filelist
  • 需要登录的网站的下载
wget --load-cookies=cookie.txt
cookies的获取: firefox的一个插件cookies-export, 浏览器登录之后,Export cookies
  • 下载整个目录
wget -c -r -np -k -L -p url_of_your_directory
  • 下载目录中某一类型的文件
wget -r -np -nd --accept=iso http://mirrors.kernel.org/iso/ (下载后缀为iso的文件)
  • 忽略robots协议
wget -e robots=off -r -np -nd -P test -A md5 http://mirrors.kernel.org/iso/ (-e等同于临时修改wgetrc里的内容;-P是指定下载的文件保存的目录,如果没有那个目录他会自己建立;-A md5是--accept=md5的简写)
  • 下载整个 网站,如下载http://man.chinaunix.net整个Man手册中心。
wget -r -p -np -k http://man.chinaunix.net
其中-r参数是指使用递归下载, -p是指下载所有显示完整网页所以需要的文件,如图片等,-np是指不搜索上层目录,-k则 是指将绝对链接转换为相对链接。
  • 镜像网站
wget -mk -w 20 http://www.example.com/ 命令就行了。
命令行 中-w 20代表间隔20秒下载一个文件,这样可以避免网站的访问过于频繁。-m 是镜像