Wszyscy uwielbiamy pobierać materiały z internetu, a jest mnóstwo świetnych narzędzi do pobierania plików, które możemy wykorzystać do planowania pobierania. Korzystanie z menedżera pobierania może być prostsze, ale nie ma nic złego w odkrywaniu narzędzi, które są już dostępne w naszym Ubuntu i w pełni go wykorzystują.
W tym artykule pokażemy Wbudowane oprogramowanie w Ubuntu, którego możemy użyć do pobrania rzeczy z Internetu za pomocą wget. Oprócz tego pokażemy, jak zaplanować pobieranie za pomocą Cron.
Wget jest darmowym pakietem oprogramowania do pobierania plików za pomocą HTTP, HTTPS i FTP, najczęściej używanych protokołów internetowych. Jest to nieinterakcyjne narzędzie wiersza poleceń, więc można je łatwo wywołać ze skryptów, zadań crona, terminali bez obsługi X-Windows itp.
Otwórz terminal i sprawdźmy, jak możemy użyć wget do pobrania rzeczy z sieci. Podstawowa składnia pobierania z wget jest następująca:
wget [opcja] ... [URL] ...
To polecenie pobierze instrukcję wget na dysk lokalny
wget http://www.gnu.org/software/wget/manual/wget.pdf
Ubuntu zawiera demona cron używanego do planowania zadań wykonywanych w określonym czasie. Crontab pozwala ci określić akcje i czasy ich wykonania. W ten sposób zwykle planujesz zadanie za pomocą narzędzia wiersza poleceń.
Otwórz okno terminalu i wpisz crontab -e.
Każda z sekcji w pliku crontab jest oddzielona spacją, a ostatnia sekcja zawiera jedną lub więcej spacji. Wpis crona składa się z minuty (0-59), godziny (0-23, 0 = północ), dnia (1-31), miesiąca (1-12), dnia tygodnia (0-6, 0 = niedziela), polecenia. Trzeci wpis w powyższym crontab pobiera pliki wget.pdf o 2 rano. Pierwszy wpis (0) i drugi wpis (2) oznaczają 2:00. Trzeci do piątego wpisu (*) oznacza dowolną porę dnia, miesiąca lub tygodnia. Ostatni wpis to polecenie wget, aby pobrać plik wget.pdf z podanego adresu URL.
To jest podstawa wget i jak działa Cron. Weźmy łup na przykład, jak zaplanować pobieranie.
Będziemy pobierać Firefoksa 3.6 o drugiej w nocy. Ponieważ nasz ISP podaje tylko ograniczoną ilość danych, musimy zatrzymać pobieranie o 8 rano. Tak wygląda konfiguracja.
Zignoruj pierwsze 2 wpisy w powyższym pliku crontab. Trzecie i czwarte polecenie są jedynymi 2 poleceniami, których potrzebujesz. Trzecie polecenie konfiguruje zadanie, które pobierze Firefoksa o godzinie 2:
[kod]
0 2 * * * wget -c http://download.mozilla.org/?product=firefox-3.6.6&os=win&lang=en-GB
[/kod]
Opcje -c oznaczają, że wget powinien wznowić istniejące pobieranie, jeśli nie zostało ono zakończone.
Czwarta komenda zatrzyma wget o 8 rano. 'Killall' jest poleceniem unix, które zabija procesy według nazwy.
[kod]
0 8 * * * killall wget
[/kod]
The killall wget mówi Ubuntu, aby powstrzymał wget przed pobraniem pliku o 8 rano.
1. Określanie katalogu do pobrania pliku
[kod]
wget -output-document = / home / zainul / Downloads / wget manual.pdf http://www.gnu.org/software/wget/manual/wget.pdf
[/kod]
opcja -output-document pozwala ci określić katalog i nazwę pobieranego pliku
2. Pobieranie strony internetowej
wget jest również w stanie pobrać stronę internetową.
[kod]
wget -m http://www.google.com/profiles/zainul.franciscus
[/kod]
Powyższe polecenie spowoduje pobranie całej mojej strony internetowej profilu Google. Opcja "-m" nakazuje wget pobranie "lustrzanego" obrazu określonego adresu URL.
Inną ważną opcją jest powiedzenie wget, ile linków powinno nastąpić podczas pobierania witryny.
[kod]
wget -r -l1 http://www.google.com/profiles/zainul.franciscus
[/kod]
Powyższe polecenie wget używa dwóch opcji. Pierwsza opcja "-r" mówi wget, aby pobrać rekursywnie określoną witrynę. Druga opcja "-l1" mówi wget, aby uzyskać tylko pierwszy poziom linków z określonej strony. Możemy ustawić do trzech poziomów "-l2" i "-l3".
3. Ignorowanie wejścia robota
Webmaster utrzymuje plik tekstowy o nazwie Robot.txt. "Robot.txt" utrzymuje listę adresów URL, których robot indeksujący strony, taki jak wget, nie powinien przeszukiwać. Możemy powiedzieć wget, aby zignorował plik "Robot.txt" z opcją "-erobots = off". Poniższe polecenie mówi wget, aby pobrać pierwszą stronę mojego profilu google i zignorować plik "Robot.txt".
[kod]
wget -erobots = off http://www.google.com/profiles/zainul.franciscus
[/kod]
Inną przydatną opcją jest -U. Ta opcja maskuje wget jako przeglądarkę. Zauważ, że maskowanie aplikacji jako innej aplikacji może naruszyć termin i usługę dostawcy usług internetowych.
[kod]
wget -erobots = off -U Mozilla http://www.google.com/profiles/zainul.franciscus
[/kod]
Wget jest bardzo starym szkolnym pakietem oprogramowania GNU, z którego możemy pobierać pliki. Wget to interaktywne narzędzie wiersza poleceń, co oznacza, że możemy pozwolić mu działać na naszym komputerze w tle bez konieczności uruchamiania jakiejkolwiek aplikacji. Sprawdź stronę man wget
[kod]
$ man wget
[/kod]
zrozumieć inne opcje, których możemy użyć z wget.
Podręcznik Wget
Jak połączyć dwa pobrane pliki Kiedy wget zawodzi w połowie drogi
Linux QuickTip: Pobieranie i anulowanie w jednym kroku