Парсер Википедии

Question

Парсер Википедии

Я загрузил дамп Википедии, и я хочу преобразовать формат wiki в мой формат объекта. Есть ли доступный парсер wiki, который преобразует объект в XML?

12

java mediawiki nlp nsxmlparser wikipedia

автор: octosquidopus

7 ответов

автор: dogbane · Accepted Answer · 2010-10-08 07:41:45

посмотреть java-Википедия-парсер. Я никогда не использовал его, но по документам :

парсер поставляется с HTML генератор. Однако вы можете контролировать вывод, который генерируется передача собственной реализации be.devijver.wikipedia.Visitor взаимодействие.

автор: Skarab · Accepted Answer · 2010-10-13 16:21:36

Я не знаю, как именно выглядит xml-формат дампа Википедии. Но, если часть текста находится в разметке Википедии, я предлагаю исследовать http://lucene.apache.org/java/3_0_2/api/contrib-wikipedia/org/apache/lucene/wikipedia/analysis/WikipediaTokenizer.html - ... Это один из классов пакета Википедии для apache lucene. Я не использовал его, но apache lucene - довольно зрелый проект, поэтому стоит попробовать его-в данном случае экспериментальный-пакет.

автор: cleverpig · Accepted Answer · 2011-10-21 08:13:11

анализатор JWPL анализирует структуру текста с разметкой MediaWiki и представляет его как объект Java. Это позволяет получить структурированный доступ к содержимому, например, Википедии или Викисловаря. Автономного выпуска парсера нет, так как он является частью выпуска API Википедии Jwpl. Однако его можно использовать без доступа к Википедии с JWPL.

http://code.google.com/p/jwpl/wiki/JWPLParser

автор: Andreas_D · Accepted Answer · 2010-10-08 06:37:58

Это может помочь: страница с конвертерами из mediawiki в другие форматы, включая docbook. Docbook-это стандартный формат на основе xml, который может соответствовать вашим потребностям (xml-представление контента mediawiki)

автор: user899157 · Accepted Answer · 2011-08-19 13:39:28

вы можете использовать широкий спектр инструментов для анализа содержимого. Все языки сценариев имеют модули. Например, язык Perl имеет Text::Markup:: Trac который является синтаксическим анализатором Trac wiki для Text:: Markup. Он генерирует HTML-файл.

автор: PlinyTheElder · Accepted Answer · 2015-01-03 12:49:32

Парсер Wiki преобразует дампы Википедии в проанализированный XML. Возможно, это именно то, что тебе нужно.

автор: Hady Elsahar · Accepted Answer · 2011-08-19 21:51:19

u может попробовать wikiprep это парсер Википедии perl проверьте, что это страница

Он выводит много файлов, некоторые из них

1 - Википедия проанализирована в XML 2-cat-hier файл, который содержит иерархию категорий Википедии

Я пробовал, и это очень полезно проблема только в том, что ему нужна высокая память, доступная для обработки, скорее всего, более 4 ГБ ОЗУ также u может загрузить подготовленную версию XML из здесь что также на странице