Как превратить динамический сайт в статический, который можно демонстрировать с компакт-диска?
Мне нужно найти способ для обхода веб-приложений нашей компании и создать статический сайт, который может быть записан на компакт-диск и использовать так продажные люди на демо-сайте. Хранилище данных back end распространяется на многие системы, поэтому просто запуск сайта на виртуальной машине на ноутбуке продавца не будет работать. И у них не будет доступа к интернету, в то время как у некоторых клиентов (нет интернета, сотового телефона....примитивно, я знаю).
есть ли у кого-нибудь хорошие рекомендации для искателей, которые могут обрабатывать такие вещи, как очистка ссылок, flash, немного ajax, css и т. д.? Я знаю, что шансы невелики, но я решил, что задам этот вопрос здесь, прежде чем начну писать свой собственный инструмент.
5 ответов
wget или curl могут рекурсивно следовать ссылкам и отражать весь сайт, так что это может быть хорошей ставкой. Вы не сможете использовать действительно интерактивные части сайта, такие как поисковые системы или что-либо, что изменяет данные, thoguh.
возможно ли вообще создать фиктивные бэкэнд-сервисы, которые могут работать с ноутбуками продавцов, с которыми может взаимодействовать приложение?
с помощью WebCrawler, например, одна из них:
- DataparkSearch-это искатель и поисковая система, выпущенная под лицензией GNU General Public.
- GNU Wget-это управляемый командной строкой искатель, написанный на C и выпущенный под GPL. Он обычно используется для зеркального отображения веб-и FTP-сайтов.
- HTTrack использует веб-искатель для создания зеркала веб-сайта для автономного просмотра. Он написан на C и выпущен под лицензия GPL.
- Icdl Crawler-это кросс-платформенный веб-искатель, написанный на C++ и предназначенный для обхода веб-сайтов на основе шаблонов анализа веб-сайтов с использованием только бесплатных ресурсов ЦП компьютера.
- JSpider - это настраиваемый и настраиваемый движок web spider, выпущенный под GPL.
- Larbin Себастьена Ailleret
- Webtools4larbin Андреас бедер
- Methabot-это оптимизированный для скорости веб-искатель и утилита командной строки, написанная на C и выпущенная под лицензией BSD 2 пунктов. Оно отличает широкой системой конфигурации, системой модуля и имеет поддержку для пристрелнный обходить через локальные файловую систему, HTTP или FTP.
- Jaeksoft WebSearch-это веб-искатель и индексатор, построенный на Apache Lucene. Он выпущен под лицензией GPL v3.
- Nutch-это искатель, написанный на Java и выпущенный под лицензией Apache. Его можно использовать совместно с пакетом индексирования текста Lucene.
- Pavuk-это веб командной строки зеркало инструмент с дополнительным X11 GUI гусеничный и выпущен под GPL. Он имеет кучу дополнительных функций по сравнению с wget и httrack, например. правила фильтрации и создания файлов на основе регулярных выражений.
- WebVac-это гусеничный движок, используемый проектом Stanford WebBase.
- WebSPHINX (Miller and Bharat, 1998) состоит из библиотеки классов Java, которая реализует многопоточный поиск веб-страниц и синтаксический анализ HTML, а также графический пользовательский интерфейс для установки начальных URL-адресов, чтобы извлечь загруженные данные и реализовать базовую текстовую поисковую систему.
- WIRE-Web Information Retrieval Environment [15] - это веб-искатель, написанный на C++ и выпущенный под GPL, включая несколько политик для планирования загрузки страниц и модуль для создания отчетов и статистики на загруженных страницах, поэтому он использовался для веб-характеристики.
- LWP:: RobotUA (Langheinrich , 2004) - класс Perl для реализации хорошо себя ведет параллельных веб-роботов распространяется под лицензией Perl 5.
- класс веб-Искателя с открытым исходным кодом для .NET (написан на C#).
- Шерлок Холмс Шерлок Холмс собирает и индексирует текстовые данные (текстовые файлы, веб-страницы ...), как локально, так и по сети. Холмс спонсируется и коммерчески используется чешским веб-порталом Centrum. Он также использован мимо Onet.pl.
- YaCy, бесплатная распределенная поисковая система, построенная на принципах одноранговых сетей (лицензированных под лицензия GPL.)
- Ruya Ruya является открытым исходным кодом, высокая производительность широты во-первых, уровень на основе веб-гусеничный. Он используется для обхода английских и японских веб-сайтов в хорошем поведении. Он выпущен под GPL и полностью написан на языке Python. Реализация SingleDomainDelayCrawler подчиняется роботам.txt с задержкой обхода.
- универсальный информационный гусеничный быстроразвивающийся веб-гусеничный. Обход сохраняет и анализирует данные.
- ядро агента Java framework для управления расписанием, потоком и хранилищем при обходе.
- Spider News, информация о строительстве паука в perl.
- Arachnode.NET, является открытым исходным кодом неразборчивый веб-искатель для загрузки, индексирования и хранения интернет-контента, включая адреса электронной почты, файлы, гиперссылки, изображения и веб-страницы. Arachnode.net написана на C# с помощью SQL Server 2005 и выпущена под GPL.
- dine-многопоточный JAVA HTTP-клиент / искатель, который может быть запрограммирован на JavaScript, выпущенный под LGPL.
- Crawljax-это искатель Ajax, основанный на методе, который динамически строит "граф состояний", моделирующий различные пути и состояния навигации в приложении Ajax. Crawljax написан на Java и выпущен под лицензией BSD.
просто потому, что никто не копировал вставленную рабочую команду ... Я стараюсь ... десять лет спустя. : D
wget --mirror --convert-links --adjust-extension --page-requisites \
--no-parent http://example.org
Он работал как шарм для меня.
вы не сможете обрабатывать такие вещи, как запросы AJAX, без записи веб-сервера на компакт-диск, что, как я понимаю, вы уже сказали, невозможно.
команды wget будет загружать сайт для вас (используйте параметр-r для "рекурсивного"), но любой динамический контент, такой как отчеты и так далее, конечно, не будет работать должным образом, вы просто получите один снимок.
Если вам в конечном итоге придется запустить его с веб-сервера, вы можете взглянуть на:
Он позволяет запускать стек WAMPP с компакт-диска в комплекте с поддержкой mysql/php/apache. БД копируются в каталог temp текущих пользователей при запуске и могут быть запущены полностью без установки пользователем чего-либо!