Как превратить динамический сайт в статический, который можно демонстрировать с компакт-диска?

Question

Как превратить динамический сайт в статический, который можно демонстрировать с компакт-диска?

Мне нужно найти способ для обхода веб-приложений нашей компании и создать статический сайт, который может быть записан на компакт-диск и использовать так продажные люди на демо-сайте. Хранилище данных back end распространяется на многие системы, поэтому просто запуск сайта на виртуальной машине на ноутбуке продавца не будет работать. И у них не будет доступа к интернету, в то время как у некоторых клиентов (нет интернета, сотового телефона....примитивно, я знаю).

есть ли у кого-нибудь хорошие рекомендации для искателей, которые могут обрабатывать такие вещи, как очистка ссылок, flash, немного ajax, css и т. д.? Я знаю, что шансы невелики, но я решил, что задам этот вопрос здесь, прежде чем начну писать свой собственный инструмент.

7

html static-site web-crawler

автор: Vadim Kotov

5 ответов

автор: pkaeding · Accepted Answer · 2008-09-22 20:41:45

wget или curl могут рекурсивно следовать ссылкам и отражать весь сайт, так что это может быть хорошей ставкой. Вы не сможете использовать действительно интерактивные части сайта, такие как поисковые системы или что-либо, что изменяет данные, thoguh.

возможно ли вообще создать фиктивные бэкэнд-сервисы, которые могут работать с ноутбуками продавцов, с которыми может взаимодействовать приложение?

автор: wprl · Accepted Answer · 2008-10-09 13:43:34

с помощью WebCrawler, например, одна из них:

DataparkSearch-это искатель и поисковая система, выпущенная под лицензией GNU General Public.
GNU Wget-это управляемый командной строкой искатель, написанный на C и выпущенный под GPL. Он обычно используется для зеркального отображения веб-и FTP-сайтов.
HTTrack использует веб-искатель для создания зеркала веб-сайта для автономного просмотра. Он написан на C и выпущен под лицензия GPL.
Icdl Crawler-это кросс-платформенный веб-искатель, написанный на C++ и предназначенный для обхода веб-сайтов на основе шаблонов анализа веб-сайтов с использованием только бесплатных ресурсов ЦП компьютера.
JSpider - это настраиваемый и настраиваемый движок web spider, выпущенный под GPL.
Larbin Себастьена Ailleret
Webtools4larbin Андреас бедер
Methabot-это оптимизированный для скорости веб-искатель и утилита командной строки, написанная на C и выпущенная под лицензией BSD 2 пунктов. Оно отличает широкой системой конфигурации, системой модуля и имеет поддержку для пристрелнный обходить через локальные файловую систему, HTTP или FTP.
Jaeksoft WebSearch-это веб-искатель и индексатор, построенный на Apache Lucene. Он выпущен под лицензией GPL v3.
Nutch-это искатель, написанный на Java и выпущенный под лицензией Apache. Его можно использовать совместно с пакетом индексирования текста Lucene.
Pavuk-это веб командной строки зеркало инструмент с дополнительным X11 GUI гусеничный и выпущен под GPL. Он имеет кучу дополнительных функций по сравнению с wget и httrack, например. правила фильтрации и создания файлов на основе регулярных выражений.
WebVac-это гусеничный движок, используемый проектом Stanford WebBase.
WebSPHINX (Miller and Bharat, 1998) состоит из библиотеки классов Java, которая реализует многопоточный поиск веб-страниц и синтаксический анализ HTML, а также графический пользовательский интерфейс для установки начальных URL-адресов, чтобы извлечь загруженные данные и реализовать базовую текстовую поисковую систему.
WIRE-Web Information Retrieval Environment [15] - это веб-искатель, написанный на C++ и выпущенный под GPL, включая несколько политик для планирования загрузки страниц и модуль для создания отчетов и статистики на загруженных страницах, поэтому он использовался для веб-характеристики.
LWP:: RobotUA (Langheinrich , 2004) - класс Perl для реализации хорошо себя ведет параллельных веб-роботов распространяется под лицензией Perl 5.
класс веб-Искателя с открытым исходным кодом для .NET (написан на C#).
Шерлок Холмс Шерлок Холмс собирает и индексирует текстовые данные (текстовые файлы, веб-страницы ...), как локально, так и по сети. Холмс спонсируется и коммерчески используется чешским веб-порталом Centrum. Он также использован мимо Onet.pl.
YaCy, бесплатная распределенная поисковая система, построенная на принципах одноранговых сетей (лицензированных под лицензия GPL.)
Ruya Ruya является открытым исходным кодом, высокая производительность широты во-первых, уровень на основе веб-гусеничный. Он используется для обхода английских и японских веб-сайтов в хорошем поведении. Он выпущен под GPL и полностью написан на языке Python. Реализация SingleDomainDelayCrawler подчиняется роботам.txt с задержкой обхода.
универсальный информационный гусеничный быстроразвивающийся веб-гусеничный. Обход сохраняет и анализирует данные.
ядро агента Java framework для управления расписанием, потоком и хранилищем при обходе.
Spider News, информация о строительстве паука в perl.
Arachnode.NET, является открытым исходным кодом неразборчивый веб-искатель для загрузки, индексирования и хранения интернет-контента, включая адреса электронной почты, файлы, гиперссылки, изображения и веб-страницы. Arachnode.net написана на C# с помощью SQL Server 2005 и выпущена под GPL.
dine-многопоточный JAVA HTTP-клиент / искатель, который может быть запрограммирован на JavaScript, выпущенный под LGPL.
Crawljax-это искатель Ajax, основанный на методе, который динамически строит "граф состояний", моделирующий различные пути и состояния навигации в приложении Ajax. Crawljax написан на Java и выпущен под лицензией BSD.

автор: AsTeR · Accepted Answer · 2018-01-25 21:30:37

просто потому, что никто не копировал вставленную рабочую команду ... Я стараюсь ... десять лет спустя. : D

wget --mirror --convert-links --adjust-extension --page-requisites \
--no-parent http://example.org

Он работал как шарм для меня.

автор: MrZebra · Accepted Answer · 2008-09-22 20:42:35

вы не сможете обрабатывать такие вещи, как запросы AJAX, без записи веб-сервера на компакт-диск, что, как я понимаю, вы уже сказали, невозможно.

команды wget будет загружать сайт для вас (используйте параметр-r для "рекурсивного"), но любой динамический контент, такой как отчеты и так далее, конечно, не будет работать должным образом, вы просто получите один снимок.

автор: Brad Parks · Accepted Answer · 2008-11-26 16:38:39

Если вам в конечном итоге придется запустить его с веб-сервера, вы можете взглянуть на:

ServerToGo

Он позволяет запускать стек WAMPP с компакт-диска в комплекте с поддержкой mysql/php/apache. БД копируются в каталог temp текущих пользователей при запуске и могут быть запущены полностью без установки пользователем чего-либо!