Для грабежа инфы с сайта, я обычно использую
wget -m -k -nv -np ya.ru
-m зеркалирование всего и вся
-k сконвертировать ссылки на локальные файлы
-nv немного отключить срач
-np не ходить по другим ссылкам выше основного родителя ya.ru/vasja не будет качать ya.ru, ну и не будет ходить на google.com если таковой найдется. В противном случае -m будет качать до конца интернета :)
В общем спасибо пользователю sledopit, который в комментарии на хабре дал вот что:
wget -m -k -nv -np -p --user-agent=«Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)» bbc.co.uk
Всё тоже самое, только вот user-agent другой (от имени кого будет запрос). Будем гуглоботом :)
P.S.: вполне давно и с хорошим успехом так граблю инфу.
P.P.S.: и да, не поленитесь читать man wget
Комментариев нет:
Отправить комментарий