Парсер Википедии

Я загрузил дамп Википедии, и я хочу преобразовать формат wiki в мой формат объекта. Есть ли доступный парсер wiki, который преобразует объект в XML?

7 ответов


посмотреть java-Википедия-парсер. Я никогда не использовал его, но по документам :

парсер поставляется с HTML генератор. Однако вы можете контролировать вывод, который генерируется передача собственной реализации be.devijver.wikipedia.Visitor взаимодействие.


Я не знаю, как именно выглядит xml-формат дампа Википедии. Но, если часть текста находится в разметке Википедии, я предлагаю исследовать http://lucene.apache.org/java/3_0_2/api/contrib-wikipedia/org/apache/lucene/wikipedia/analysis/WikipediaTokenizer.html - ... Это один из классов пакета Википедии для apache lucene. Я не использовал его, но apache lucene - довольно зрелый проект, поэтому стоит попробовать его-в данном случае экспериментальный-пакет.


анализатор JWPL анализирует структуру текста с разметкой MediaWiki и представляет его как объект Java. Это позволяет получить структурированный доступ к содержимому, например, Википедии или Викисловаря. Автономного выпуска парсера нет, так как он является частью выпуска API Википедии Jwpl. Однако его можно использовать без доступа к Википедии с JWPL.

http://code.google.com/p/jwpl/wiki/JWPLParser


Это может помочь: страница с конвертерами из mediawiki в другие форматы, включая docbook. Docbook-это стандартный формат на основе xml, который может соответствовать вашим потребностям (xml-представление контента mediawiki)


вы можете использовать широкий спектр инструментов для анализа содержимого. Все языки сценариев имеют модули. Например, язык Perl имеет Text::Markup:: Trac который является синтаксическим анализатором Trac wiki для Text:: Markup. Он генерирует HTML-файл.


Парсер Wiki преобразует дампы Википедии в проанализированный XML. Возможно, это именно то, что тебе нужно.


u может попробовать wikiprep это парсер Википедии perl проверьте, что это страница

Он выводит много файлов, некоторые из них

1 - Википедия проанализирована в XML 2-cat-hier файл, который содержит иерархию категорий Википедии

Я пробовал, и это очень полезно проблема только в том, что ему нужна высокая память, доступная для обработки, скорее всего, более 4 ГБ ОЗУ также u может загрузить подготовленную версию XML из здесь что также на странице