Загрузка всех pdf-файлов из результатов поиска google scholar с помощью wget
Я хочу написать простой веб-паук или просто использовать wget
для загрузки pdf результатов из google scholar. На самом деле это был бы довольно изящный способ получить документы для исследований.
Я прочитал следующие страницы в stackoverflow:
обход веб-сайта с помощью wget и ограничить общее количество обход ссылок
чем веб-пауки отличаются от паука Wget?
загрузка всех PDF-файлов из сайт
как скачать все файлы (но не HTML) с веб-сайта с помощью wget?
последняя страница, вероятно, самая вдохновляющая из всех. Я попытался использовать wget
Как это было предложено на этой.
моя страница результатов поиска Google scholar - но ничего не скачал.
учитывая, что мой уровень понимания веб-пауков минимален, что я должен сделать, чтобы это стало возможным? Я понимаю что писать паук-Это, пожалуй, очень запутанно и мне не хотят браться. Если это возможно, используя wget
, Это было бы совершенно потрясающе.
1 ответов
wget -e robots=off -H --user-agent="Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.9.0.3) Gecko/2008092416 Firefox/3.0.3" -r -l 1 -nd -A pdf http://scholar.google.com/scholar?q=filetype%3Apdf+liquid+films&btnG=&hl=en&as_sdt=0%2C23
дополнительная информация:
- использование filetyle: pdf в поисковом запросе
- один уровень рекурсии
- -pdf только для принятия PDF
- - H, чтобы охватить хосты
- -e robots=off и использование --user-agent обеспечит наилучшие результаты. Google Scholar отклоняет пустой пользовательский агент, а репозитории pdf, скорее всего, запретят роботов.
ограничение, конечно, заключается в том, что это попадет только на первую страницу результаты. Вы можете расширить глубину рекурсии, но это будет дико и займет вечность. Я бы рекомендовал использовать комбинацию чего-то вроде Красивый Суп и wget подпроцессы, так что вы можете анализировать и пересекать Результаты поиска стратегически.