Загрузка всех pdf-файлов из результатов поиска google scholar с помощью wget

Я хочу написать простой веб-паук или просто использовать wget для загрузки pdf результатов из google scholar. На самом деле это был бы довольно изящный способ получить документы для исследований.

Я прочитал следующие страницы в stackoverflow:

обход веб-сайта с помощью wget и ограничить общее количество обход ссылок

чем веб-пауки отличаются от паука Wget?

загрузка всех PDF-файлов из сайт

как скачать все файлы (но не HTML) с веб-сайта с помощью wget?

последняя страница, вероятно, самая вдохновляющая из всех. Я попытался использовать wget Как это было предложено на этой.

моя страница результатов поиска Google scholar - но ничего не скачал.

учитывая, что мой уровень понимания веб-пауков минимален, что я должен сделать, чтобы это стало возможным? Я понимаю что писать паук-Это, пожалуй, очень запутанно и мне не хотят браться. Если это возможно, используя wget, Это было бы совершенно потрясающе.

1 ответов


wget -e robots=off -H --user-agent="Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.9.0.3) Gecko/2008092416 Firefox/3.0.3" -r -l 1 -nd -A pdf http://scholar.google.com/scholar?q=filetype%3Apdf+liquid+films&btnG=&hl=en&as_sdt=0%2C23

дополнительная информация:

  1. использование filetyle: pdf в поисковом запросе
  2. один уровень рекурсии
  3. -pdf только для принятия PDF
  4. - H, чтобы охватить хосты
  5. -e robots=off и использование --user-agent обеспечит наилучшие результаты. Google Scholar отклоняет пустой пользовательский агент, а репозитории pdf, скорее всего, запретят роботов.

ограничение, конечно, заключается в том, что это попадет только на первую страницу результаты. Вы можете расширить глубину рекурсии, но это будет дико и займет вечность. Я бы рекомендовал использовать комбинацию чего-то вроде Красивый Суп и wget подпроцессы, так что вы можете анализировать и пересекать Результаты поиска стратегически.