воскресенье, 13 февраля 2011 г.

Teleport pro and linux

Для тех, кто глубоко засел в танк, могу сказать, что есть такая бякость в линухах различных сортов и полов, как wget. И телепорт про тут в ель не впился.
Для грабежа инфы с сайта, я обычно использую

wget -m -k -nv -np ya.ru

-m зеркалирование всего и вся
-k сконвертировать ссылки на локальные файлы
-nv немного отключить срач
-np не ходить по другим ссылкам выше основного родителя ya.ru/vasja не будет качать ya.ru, ну и не будет ходить на google.com если таковой найдется. В противном случае -m будет качать до конца интернета :)

В общем спасибо пользователю sledopit, который в комментарии на хабре дал вот что:

wget -m -k -nv -np -p --user-agent=«Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)» bbc.co.uk

Всё тоже самое, только вот user-agent другой (от имени кого будет запрос). Будем гуглоботом :)

P.S.: вполне давно и с хорошим успехом так граблю инфу.
P.P.S.: и да, не поленитесь читать man wget

Комментариев нет: