Парсер Википедии
Я загрузил дамп Википедии, и я хочу преобразовать формат wiki в мой формат объекта. Есть ли доступный парсер wiki, который преобразует объект в XML?
7 ответов
посмотреть java-Википедия-парсер. Я никогда не использовал его, но по документам :
парсер поставляется с HTML генератор. Однако вы можете контролировать вывод, который генерируется передача собственной реализации
be.devijver.wikipedia.Visitor
взаимодействие.
Я не знаю, как именно выглядит xml-формат дампа Википедии. Но, если часть текста находится в разметке Википедии, я предлагаю исследовать http://lucene.apache.org/java/3_0_2/api/contrib-wikipedia/org/apache/lucene/wikipedia/analysis/WikipediaTokenizer.html - ... Это один из классов пакета Википедии для apache lucene. Я не использовал его, но apache lucene - довольно зрелый проект, поэтому стоит попробовать его-в данном случае экспериментальный-пакет.
анализатор JWPL анализирует структуру текста с разметкой MediaWiki и представляет его как объект Java. Это позволяет получить структурированный доступ к содержимому, например, Википедии или Викисловаря. Автономного выпуска парсера нет, так как он является частью выпуска API Википедии Jwpl. Однако его можно использовать без доступа к Википедии с JWPL.
Это может помочь: страница с конвертерами из mediawiki в другие форматы, включая docbook. Docbook-это стандартный формат на основе xml, который может соответствовать вашим потребностям (xml-представление контента mediawiki)
вы можете использовать широкий спектр инструментов для анализа содержимого. Все языки сценариев имеют модули. Например, язык Perl имеет Text::Markup:: Trac который является синтаксическим анализатором Trac wiki для Text:: Markup. Он генерирует HTML-файл.
Парсер Wiki преобразует дампы Википедии в проанализированный XML. Возможно, это именно то, что тебе нужно.
u может попробовать wikiprep это парсер Википедии perl проверьте, что это страница
Он выводит много файлов, некоторые из них
1 - Википедия проанализирована в XML 2-cat-hier файл, который содержит иерархию категорий Википедии
Я пробовал, и это очень полезно проблема только в том, что ему нужна высокая память, доступная для обработки, скорее всего, более 4 ГБ ОЗУ также u может загрузить подготовленную версию XML из здесь что также на странице